课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,现在越来越多的平台丢希望用户能够沉浸在自己的宣传信息中,今天我们就一起来了解一下信息流运营都有哪些数据分析指标。
1.内容标签的生产与知识图谱的构建
以视频内容为例,每部视频都有大量的中文文本描述,标题、简介、评论、弹幕等。通过NLP技术可以对这些中文进行分词处理,提取中心词作为视频标签。将视频标签用做特征,采用聚类的方法可以自动为每部视频生产不同的主题,这些主题也可以直接当做某种特殊类型的视频标签使用。
除了对视频文本打标签之外,还可以使用深度学习模型对视频内容进行理解,采用分类的方法为视频划分不同的种类,如搞笑、游戏、母婴等。通过上述方法,每部视频都被自动打上了内容标签,可以将这些标签看作视频的属性信息。
此外不同的视频之间也存在很多联系,如同一导演拍摄、拥有相同的主演等。通过构建相应的知识图谱,可以将视频间的关系与属性更好的组织起来,并作为基础数据服务提供给后续的标签挖掘和精准推荐使用。有了对视频内容的精准刻画,结合用户行为数据,就能够更准确的理解用户行为背后的真实意图。
2.用户长期、短期兴趣的划分
但是反复推荐给用户类似的同质内容,很容易引起用户的审美疲劳,因此就要将用户兴趣划分为长期和短期两种。正确识别用户的长、短期兴趣对推荐系统非常重要。要解决这个问题需要从源头出发,在数据采集环节就进行划分,分解为离线数据流和实时数据流。离线数据流重点关注数据的覆盖度,尽可能多的覆盖用户不同渠道的行为数据,并从中挖掘出相对稳定的用户兴趣。实时数据流重点关注数据的时效性,通过热点事件的挖掘捕捉用户短期兴趣的变化。
3.用户标签挖掘
在有效处理内容信息与用户行为后,后就是要通过用户标签挖掘来生成用户画像。用户标签的挖掘主要有两种方式,分别为统计模型和预测模型。
统计模型主要用来挖掘用户相对明确的兴趣,通过统计某一时间窗口内不同行为所发生的次数来生成终的用户标签。为了获得更加合理的统计结果,额外引入了时间衰减函数来提高近日期数据的权重,同时对不同类型的用户行为进行加权处理。
预测模型主要用来挖掘用户的潜在兴趣,按预测目标的不同可以分别使用分类模型或者回归模型。提升预测模型准确性,主要依赖充足的标记样本进行模型训练,实际应用过程中一般会采用主动学习的方法来减少人工标注的代价。
4.A/B实验
用户标签在上线前会经过严格的线上A/B实验,只有业务指标验证通过的标签才会终上线使用,这样可以进一步保证推荐使用的用户标签质量。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。