
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,大数据技术在各个领域中都有不同的表现形式,而今天我们就一起来了解一下Serverless数据工程都能实现哪些目标。
1.网站检索
我想从某个会议网站上搜集成千上万的机器学习论文的摘要。因为我是一次性把它们都抓取出来,这样在我自己的电脑上会花费很长的时间。本来可以通过并行CPU上的任务来加快这个进程,但仍会受到网络连接速度带来的限制。
2.布莱克-斯科尔斯方程
布莱克-斯科尔斯方程是描述股票期权演化的偏微分方程。布拉德福德·林奇解决数百万种构型的问题。每个解都是一个相当复杂的数值计算,需要几十秒。如果没有并行化,这项任务将在一台机器上执行3天的时间。在使用pywren的AWSlambda上,只需要16分钟。
3.视频编码
视频编码算法的某些部分是高度并行的方式,因为它们一次只能执行一帧。“编码,快和慢:使用数千个小线程的低延迟来进行视频处理”一文中,描述了类似于Pywren的方法在这个问题上的应用。
比较有趣的是,因为在视频编码中有一个非常重要的速度阈值:你能以每秒24(或60)帧的速度编码吗?除此之外,你还处于实时视频编码领域,这将打开新型的用例。这一点也很有趣,因为与Pywren不同,这种方法并不会对单个批处理执行单个lambda提交;作者为正在进行的视频提供了一个长期存在的管道。Serverless数据工程!
4.超参数优化
一般来说,机器学习算法很难并行化。例如,在开始讨论分布的系统问题之前,分布式梯度下降就是一个著名的算法问题。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。