课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多的企业都开始通过建设不同的数据模型来进行一些常见的市场KPI等数据的测试模拟,下面我们就一起来了解一下,关于数据模型的开发过程都有哪些要点。
1.模型开发和实验框架的建立
开始模型开发所需设置的数量和复杂性,在很大程度上取决于数据科学家可用的基础设置和技术支持的数量。在较小的地方,以及尚未用于支持数据科学研究项目的地方,设置可能会为数据科学家打开一个新的代码存储库并启动本地JupyterNotebook服务器,或者请求更强大的云机器来运行计算。
在其他情况下,可能需要为更复杂的功能编写定制代码(如数据和模型版本控制或实验跟踪和管理)。当这个功能被一些外部产品或服务替代时(现在这类产品或服务越来越多了),可能会出现以链接数据源、分配资源和设置自定义软件包的形式进行的一些设置。
2.模型开发
有了所需的基础设施,实际的模型开发就可以真正开始了。这里所要开发的模型的范围因公司而异,取决于数据科学家要交付的模型与要部署在生产中的服务或特征之间的关系和差异。在某种程度上发现差异的各种方法,可以通过考虑范围来获得。
在这个范围的一端是一切都是模型的情况:从数据聚合和预处理,到模型训练(可能是周期性的),模型部署,服务(可能具备扩展性)和持续监控。另一方面,只考虑模型类型和超参数的选择,通常也考虑高级数据预处理和特征生成,才能被认为是模型。
公司在这一范围上的位置取决于很多因素:数据科学家的选研究语言;相关库和开源可用性,支持公司的生产语言;有专门负责数据科学相关代码的数据工程师和开发人员;以及数据科学家的技术能力和工作方法。
如果公司有一个非常全栈的数据科学家,再加上专门的数据工程师和开发人员的足够支持,或者,有足够的现有技术设施,专门用于数据湖和聚合、模型服务、扩展和监控(以及可能还有版本控制)的操作和自动化。可以对模型进行更广泛的定义,并且在模型开发的大部分迭代中都可以使用端到端解决方案。
这通常意味着先构建完整的管道,从数据源一直到可扩展的服务模型,并为数据预处理、特征生成和模型本身提供简单的占位符。然后对数据科学部分进行迭代,同时将范围限制在现有基础上可用和可部署的部分。
这种端到端方法可能需要更多的时间来设置,并且模型类型和参数的每次迭代都需要更长的时间来进行测试,但是它节省了以后在产品化阶段所花费的时间。
就我个人而言,我很喜欢它,但是它的实现和维护过于复杂,而且并不总是合适的。在这种情况下,管道开始和结束的某些部分会被留到产品化阶段中。
模型测试
在开发模型时,应该根据预先确定的硬指标连续测试模型的不同版本(以及伴随模型的数据处理管道)。这样就得到了对进展的粗略估计,并允许数据科学家确定模型何时运行良好,足以保证进行全面的KPI检查。请注意,这可能具有误导性,例如,在许多情况下,准确度从50%提到到70%,要比从70%提到到90%容易得多。
当测试表明模型不准确时,我们通常会研究它及其输出以指导改进。然而,有时候性能上的差距很大,所选的研究方向的不同变化都达不到预期的效果——这是一个接近失败的结果。这就可能需要改变研究方向,将项目送回研究阶段。这是数据科学项目难以接受的方面:回溯的可能性。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!