课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
通过大数据分析来确定用户感兴趣的内容进行的系统推荐的方法就是我们常见的个性化推荐的主要运算方式。今天,我们就一起来了解一下关于个性推荐在视频等内容运营平台的具体运用。
第一,优酷业务模式最核心的重点是一些头部内容,像电影、电视剧、综艺、动漫这些核心的头部内容,头部内容用户的选择成本特别高,用户要追几十集电视剧的话,它要考虑很多问题,很难真正选择开始追一个剧或者一个综艺,所以推荐的成功率往往偏低的,比较困难能够让客户真正推荐方式追一个剧。用户来使用优酷服务的时候目的性往往是比较强的,他带着比较强的比较精准的意图过来,发现和浏览逛的心智偏低。
第二,长视频的节目选择空间往往比较有限,算法更适合分发大量的长尾的内容,但是对于优酷这样的场景,选择空间有限的情况下,怎么把推荐这个事情个性化的服务做得更好,这也是比较大的挑战。
第三,头部节目用户行为往往是比较稀疏的,很多头部节目有大量的用户是不够活跃,每个月只有小于三个视频播放的行为。如果再看优酷短视频信息流的场景,用户可能有几百个行为。同样一屏会推荐比如30个,在短视频的场景可能对这个用户的了解是几百个观看行为,我推荐30个,但是长视频头部的节目里我只知道用户看过三个相关的视频,三个头部的视频,要推荐30个节目,所以是两个完全不同的问题,可能需要完全不同的做法,完全不同的模型和算法去解。
另外数据的噪声很多,数据的分布往往比较趋热,传统常见的模型甚至复杂的DAN的模型往往效果不好,因为数据的分布噪声非常大,数据的稀疏性比较大。从数据本身角度来看,视频的兴趣非常感性和微妙的,非常复杂,我们刚刚开始做优酷个性化服务的时候,一开始想把电商很成功的做法和系统搬过来,发现会碰到很多问题。对比一下电商,用户的兴趣非常简单明确,我想买一个电视或一条牛仔裤是非常明确的,他的意图是高度结构化,比如类目体系非常清晰,但视频是非常感性和微妙,比如有些用户喜欢武侠片,但是并不喜欢成龙这一类的武侠片,他是存在某种非常复杂的因素在里面。而且视频内容的兴趣往往是非常动态的,不是静态的,不断的演进,不断的发展。比如科幻的兴趣,有的是轻度科幻,也有中度的,也有重度的,是逐渐发展过来的。很多时候用户视频的内容兴趣还体现了很多亚文化的角度,比如二次元的角度,比如文艺青年,这些角度用户的观看兴趣是不同的。有时候用户视频兴趣体现用户个人的认同,视频维度非常多样,非常正交,越来越细分和多样化。比如我们有时候看一些案子,发现有的客户什么类型都看,也会看魔幻,也会看动作片、武打片,也会看新的,也会看几年前。后来发现他看所有的东西都是大制作,都是制作成本很高的,大制作可能也是兴趣的维度;还有前一段时间《白夜追踪》的剧,很多人描述是美剧质感,这是一个很好的维度,很多用户会喜欢这个维度。很多时候你的视频就在于你怎么梳理类目体系,包括用户对于内容的兴趣是不喜欢重复,识别出来适合他喜欢的还不够,因为用户对兴趣度和多样性的要求是远远高于其他的品类。
我们在不断思考的是用户这些内容的兴趣怎么通过传统的推荐的技术能不能表达好?能不能把这么复杂多样的微妙的用户在视频观看的兴趣表达出来?我们的模型有没有表达的能力表达出来这么复杂的规律? 我们的特征有没有足够强的特征表达这些事情。
识别用户的兴趣是非常重要的,往往一个实际产品的问题不能用简单一个方式去表示。
大部分传统的推荐算法都是用点击率预估去训练一个模型,推荐的内容可能有几种类型,一种类型是看了又看,推荐用户看过的,有过行为的东西,做过广告的人知道一个概念,就是用户有过交互的东西。第二类是热点,比如统计CTR很高的东西,除了这两类之外,才是真正去猜测和预估兴趣用户,根据用户兴趣去做推荐的。一般的模型会推这三类东西,这三类东西不一样,如果做过这个事情的人都知道,最有效的点击率最容易高的是推用户有过行为的东西往往很容易有效,但是推这些类型的价值率不高,推荐率高是因为难度比较低,成功率容易高,真正个性化的内容通过猜测用户的兴趣点去做推荐,往往你的成功率偏低,所以点击率偏低,所以从成功率来讲推荐有过行为的最高。推荐命中或者不命中的价值,都是个性化推荐是更高的。即使你推荐的某种给用户没有命中,也会提供一个很负样本信息,你对这个用户的兴趣点了解更深入,知道这个兴趣不感兴趣什么。相反如果你推的都是成功率很高的东西,你的模型长期来讲很容易陷入一个局部自由,因为你收到正负样本没有什么变化,你没有真正探索到用户的兴趣。
作者:李玉
来源:infoq
【免责声明】:本内容转载于网络,转载目的在于传递最新信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。