课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
我们在上文中给大家简单介绍了大数据环境下的机器学习原理等内容,而今天我们就通过举例来解释一下,数据科学业务的具体实施步骤。
1.定义业务问题
阿尔伯特爱因斯坦曾引用“每件事都应该尽可能地简单,但不能越简单越好”。这句话是定义业务问题的关键。需要开发和构建问题陈述,需要建立明确的成功标准。根据我的经验,业务团队忙于处理他们的操作任务。这并不意味着他们没有需要解决的挑战。头脑风暴会议,研讨会和访谈可以帮助发现这些挑战并提出假设。让我用一个例子来说明这一点。让我们假设一家电信公司由于客户群减少而导致其同比收入下降。在这种情况下,业务问题可能定义为:
该公司需要通过定位新的细分市场和减少客户流失来扩大客户群。
2.分解为机器学习任务
业务问题一旦定义,就需要分解为机器学习任务。让我们详细说明我们在上面设置的示例。如果组织需要通过定位新的细分市场并减少客户流失来扩大客户群,那么我们如何将其分解为机器学习问题?以下是分解的示例:
将客户流失率降低x%。
为目标市场确定新的客户群。
3.数据准备
一旦我们定义了业务问题并将其分解为机器学习问题,我们就需要深入研究数据。数据理解应该明确手头的问题。它应该有助于我们制定正确的分析策略。需要注意的关键事项是数据来源,数据质量,数据偏差等。
4.探索性数据分析
宇航员穿越宇宙的未知。同样,数据科学家遍历数据模式的未知,窥探其特征的奥秘并制定出未被探索的内容。探索性数据分析(EDA)是一项令人兴奋的任务。我们可以更好地理解数据,研究其中的细微差别,发现隐藏的模式,开发新特性并制定建模策略。
5.建模
在EDA之后,我们进入建模阶段。在这里,我们根据具体的机器学习问题,我们应用有用的算法,如回归,决策树,随机森林等。
6.部署和评估
后,对所开发的模型进行了部署。它们被持续监测,以观察它们在现实世界中的行为,并据此进行校准。
通常,建模和部署部分仅占工作量的20%。80%的工作是接触数据,探索数据并理解数据。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请在707945861群中学习了解。