课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
相信大家在浏览网站的时候也发现了,大多数的网站展示给我们的内容都是我们感兴趣的内容,而这就涉及到了推荐系统的功能应用,下面我们就通过案例分析来了解一下,大数据推荐系统数据工程应用方法。
主要负责的是“用户”、“场景”、“物品”信息的收集与处理。根据处理数据量和处理实时性的不同,会用到三种不同的数据处理方式,按照实时性排序,一次是客户端与服务端实时数据处理、流处理平台准实时数据处理(Flink准实时数据处理)、大数据平台离线数据处理(Spark离线数据批处理)。这其中会用到常见的大数据计算和存储技术对数据进行特征工程预处理和特征的存储,比如SparkMLlib、Flink、HDFS等。
大数据平台加工后的数据出口主要有3个:
数据用于训练
生成推荐系统模型所需要的样本数据,用于算法模型的训练和评估。
这部分用来训练的样本特征数据,一般是以文件的形式存储在分布式文件系统或者对象存储中,比如HDFS、S3、Ceph中。
进一步的算法在建模的时候,会把数据分为训练集、测试集、验证集等。
数据用于线上推理
生成推荐系统模型服务所需要的“用户特征”,“物品特征”,和一部分“场景特征”,用于推荐系统的线上推断。线上推断的特征需要访问速度比较快,不能够有太大的延迟,通常会采用redis、Cassandra、RocksDB之类的KV存储进行特征的存储。
数据用于报表等可视化展示
生成系统监控、商业智能(businessintelligenceBI)系统所需要的统计型数据。这类统计型的数据通常是存在关系型数据库中,比如Mysql。这块统计出结构后,通过报表等可视化的形式供给相关数据分析、产品运行、公司领导做出业务调整和决策。
数据部分是整个推荐系统的水源,深度学习对水源要求是水量要大(模型尽快收敛)、水流要快(让数据能够更快的流到模型更新训练的模块,这样才能让模型实时抓住用户兴趣变化的趋势)。其中数据部分还包括大量的特征工程,毕竟在推荐系统领域算法模型都是比较公开的,特征工程、数据工程处理的好坏对推荐系统的效果起着很重要的作用了。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。