课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
在营销领域,尤其是新媒体的推广方面,我们一般都采用的是内容营销策略,只要用户能够与你长期互动,总会有流量变现的时候,今天,达内太原it培训主要介绍的就是内容营销的有关注意事项与方式方法。
项目体系分为许多种,有商品、用户、内容、广告等,本文仅以内容作为搭建思路叙述。
3.1 内容特征
内容向量通常存在维数大的问题,即使去掉低频词和高报词等停用词后,仍然会有数万维的特征留下。为了提高机器学习的效率和精度,有必要降低文本向量的维数。特征选择是内容降维的有效方法。
具体做法是构造一个评估函数对特征向量中的所有特征逐一评分,选取分值高于设定阑值的特征。常用的评估函数有:文档频数、词频函数、TIFDF、期望交叉摘、CHI、信息增益、互信息等。虽然实验表明IG和CHI等基于信息熵的方法的可以取得较好的特征选择效果,但是计算费用高,系统开销大,使用起来浪费时间和资源。因此实际应用中,计算量较小、评估效果较好的TIFDF方法是非常可取的。
并且内容不仅是文字,仍会有图片、视频、语音等,对于这三者,因为维度完全不同,所以使用手段与方法也完全不同。
3.2 图片特征
将二维平面降维手段仍是标签,一般称为图片标注;标注方法可以简单分为基于模型学习的方法和基于实例检索的方法。
基于模型学习的方法具有较高的标注性能,但是模型训练的计算复杂性较高,不具备实战意义。基于实例检索的方法将图像标注问题看作图像检索问题,是基于数据驱动的模型方法。所以一般选择后者,其中算法也是层出不穷;提升准确性和过滤垃圾标签是共同目标,需要择优选择,方法和技术已经同样有许多种,不多做赘述。
3.3 视频特征
视频为三维载体,又增加了时间性质;常规手段有:将视频逐一降维成二维平面,也就是等分切割,转化为图片标注,即可。但是该方法成本巨大,在大量数据当中应用不现实。更加较为新兴手段有视频弹幕,弹幕是直接在视频上用户编辑的文字内容,类似字幕,将每时刻弹幕内容提取,直接把视频变为标签,按权重划分删除垃圾标签即可,较为简单高效。
3.4 音频特征
常见音频一般以脱口秀、音乐为主,其中标题提供的信息标签权重会非常大,但仍是有限的。所以对于脱口秀,衍生出了语音识别技术:将语音转化为文字信息进行标记。对于音乐,我们只能从其它手段进行补充。比如波形识别,一般音乐含有曲风、风格等属性,利用音频的波形识别技术可顺利获取相关标签。
3.5 评论特征
评论虽然是文字类型,但是由于评论都不可能过长,所以问题就会出现语义不完全,严重的数据稀疏问题。这里非常像微博,微博只有140个字,相对较少。所以针对微博的这种情况,也有许多新技术来进行改进。例如:通过拓展微博文本的特征,通过分析微博数据中的某些现象或特性等手段来改善数据稀疏问题;所以充分借鉴在微博领域中的研究成果利用,结合实际使用。
3.6 垃圾标签抵御
对于以上载体,不可避免的都会有垃圾标签的出现,不管是主动还是被动,所谓主动是由于识别率或技术局限性等问题,导致的垃圾标签的产生,对于被动更多的场景比如说是图片的水印,视频的广告或是由于恶意攻击、恶意添加等行为的产生,那么对于垃圾标签同样有许多手段进行相关抵御:
基于检测的垃圾标签抵御,通常分为两个阶段:首先,系统管理员可以手动标注垃圾标签或其对应的恶意用户,也可以由系统根据统计分析和机器学习的相关理论来自动识别出垃圾标签或其对应的恶意用户;然后,由系统做出响应,这种响应可以是在垃圾标签上做出标识,也可以是直接删除垃圾标签并调整搜索结果或者限制恶意用户的权限。
基于降级的抵御,是通过降低受垃圾标签污染的资源在用户搜索结果列表中排列的位置来实现对垃圾标签的抵御.利用特定的算法将那些受垃圾标签污染的资源排在结果列表中尽可能靠后的位置,这样用户就不会看到这些受污染资源。相关会有Coincidence—based模型、SpamClean模型、DSpam模型等对这种形式进行处理。
基于预防的垃圾标签抵御,统计表明,很大一部分的垃圾标签来自于僵尸网络中被控制的主机或者可以标注标签的自动化程序,这些主机或者程序可以根据攻击者的需要来产生大量垃圾标签,从而对社交网站中正常用户的标签服务构成威胁。所以该手段主要是通过对产生标签的用户的权限进行隐藏或者限制从而抑制垃圾标签的出现,即确保每个标签的产生都来自于自然人而不是僵尸网络等.需要指出,目前基于预防的垃圾标签抵御方法的效果尚无法通过量化指标来衡量,这主要是因为无法统计因采用了此类方法而预防成功的垃圾标签的数量。
最终,标签的抵御效果可以由如下两个属性进行评价:服务执行效率与服务可用性。
3.7 模型输出
对于内容标签,综上有许多种方法,但是还有一条标签线是载体标签。所谓载体,纯文字、纯视频、纯图片相册、图文、视频文字、视频图片文字,主流常见的只有这三种。需要详细的进行展示,例如文字以千字为一档进行划分,比如1000字以下、1001-2000字等,图片以十张图为一档,视频以一分钟为一档,可以辅助我们进行内容效果评估。并且进一步结合用户实际场景,实际情况来进行推荐提供了又一维度。
所以最终输出应为内容类型、内容载体、内容分类以及内容适配场景,最终计算内容的核心亮点,以供于贴合用户群,结合用户动机,实现用户这次想看什么内容的需求供给,达到转化率最大化的目的。
3.8 小结总结
本节阐述了对于内容标签的搭建体系,针对不同的元素有不同的获取方式,其中对于垃圾标签的抵御也阐述相关手段和方法,最终的展现上仍要求可视化,对于了解某种内容的详细受众用户群,是有极大好处的,下一节将会阐述推荐流程中的核心流程,推荐环节。
详见明天的结尾。下篇,上篇回顾《深度丨从零搭建推荐体系(上)》。
附录3 今日头条心理动机研究
研究模型
“今日头条”用户的年龄,性别等人口统计特征和用户媒介偏好,自变量为“今日头条”用户的使用动机,中介变量为“今日头条”用户的使用态度,因变量为“今日头条”用户的使用行为。本研究的主要研究方向是利用使用态度这个中介变量研究使用动机(需求)对使用行为的影响。
控制变量
控制变量主要包括性别、年龄、教育程度、职业等人口统计学特征。
自变量——动机(需求)
根据“使用与满足”理论,用户是被看作有特定“需求”的个人,而他们接触媒介的活动被看作是基于某种特定的需求动机来“使用媒介”,最终使这些需求得到满足的过程。而这种特定的需求的产生,主要有两个方面:一个是社会因素,另一个是个人心理因素。本研究从个人因素和社会因素出发,兼顾“今日头条”的用户体验(易用性、有用性)等方面,总结了用户使用“今日头条”的若干动机。本调查将用户使用今日头条的需求分为三个维度:媒介需求,社交需求,体验需求。
中介变量
本研究以用户对“今日头条”的使用态度(满意度)为中介变量。在理性行为理论和技术接受模型(TAM)中,中介变量包括两个方面:使用态度和行为意向。使用态度包含个人对某种使用行为所持的正面或负面的看法;行为意向反映个人从事某项行为的意愿。但在社会心理学中,“态度”界定为个体对事物的反应方式,已经涵盖了行为意向的层面,通常体现在个体的信念,感觉或者行为倾向中。可见,“态度”已经涵盖了行为意向层面。所以本研究只以使用态度为中介变量,这里的“使用态度”是用户根据对“今日头条”的认知和使用经历对“今日头条”持有的正面或负面的看法。
因变量
因变量是“今日头条”用户的“使用行为”。这里的行为包括使用时长、使用频率、使用时间等问题。
统计分析
通过以下统计方法进行描述和分析:
统计描述分析(Descriptive Statistics):统计各变量的频数、比例、标准差和频率,来描述被测用户对“今日头条”的使用情况、使用动机、态度和行为等。
信度分析(Reliability Analysis):验证研究模型中的变量的信度分析,以衡量问卷的可靠性、一致性和稳定性。
相关分析(Correlation Analysis):用于分析两个或两组随机变量的关系,可以检测变量之间密切程度的一种统计方法。
交叉列表分析(Crosstabs):将两个或两个以上有一定联系的变量及其变量值按照一定的顺序交叉排列在一张统计表内,使各变量值成为不同变量的结点,从中分析变量之间的相关关系。
结论
整体来说用户使用今日头条动机为新闻推送的实时性,时效性,把握了当下的“短平快”的碎片化阅读趋势,信息类型以短消息、图片、视频为主。
从个人心理因素的角度来看,今日头条流行的主要原因是抓住了受众对个性化需求的心理。对用户需求的研究结果表明,“个性化推荐”(60.79%)、“更新速度快”(60%)、“推送内容多(45.26%)是用户最为强烈的三种动机。而“互动性强,评论转发收藏活跃”“操作方便阅读舒适”“离线下载,节省流量”占比较少,说明大部分用户不倾向于同意这是他们使用“今日头条”的动机。
这个结论也与“今日头条”的“个性化新闻推荐”的宣传理念和定位相符合。“今日头条”与其他新闻客户端相比,最大的优势就是它能够精确分析用户的阅读兴趣,并针对用户兴趣和需求对内容做更精细的传播,进行个性化推荐新闻。本研究结果也正说明,用户是基于个性化、实时性等方面的需求而选择“今日头条”。
本研究对“今日头条”用户的使用态度进行了均值比较。用户对“今日头条”积极态度的认同度均值为 3.77。从数据中看,“今日头条”的“更新速度快”“推送内容丰富”和“操作方便,阅读舒适”三项特性是最被用户所认可的。其中,“更新速度快”为全表最高均值项3.87 分,证明“今日头条”注重新闻时效性,满足了用户第一时间看到新闻事件的需求。作为用户使用动机最强烈“个性化推荐精准”的均值仅为 3.69,低于3.77 的水平分,可见用户对“个性化推荐精准”的认同度不高。而此项也与动机的考察结果并不一致。
因为个性化推荐存在冷启动的弊端,即新用户刚开始没有可以利用的行为信息,无法了解用户的特点和需求,很难给出精确的推荐。所以不排除是用户在使用初期个性化推荐并不精准,但随着使用时间增加,系统有了用户的行为数据,个性化推荐会越来越精准的假设。
为了验证这个假设,本研究设计了使用态度与使用时间的交叉分析,探究是否随着使用时间的增加,对个性化推荐的满意度会有所提高。根据实验数据,使用今日头条一周以内的用户,对“个性化推荐精确”的满意度均值为3.64,使用三到六个月的用户满意度均值为3.73,而使用一年以上的用户满意度均值为 3.87,满意度均值随着使用时间的增长而整体呈上升趋势。可见,使用时间越长,用户对“个性化推荐精准”的满意度越高。而且不只是“个性化推荐精准”这一项,“智能搜索快速全面”“操作方便,阅读舒适”两项都存在随着使用时间的增长,用户满意度增长的现象, 用户对“今日头条”消极态度的认同度为3.21。其中,“推广、广告太多”“标题党现象严重”“推送内容同质化严重,信息渠道变窄”三项是最被用户所认同的。用户最不认同的三项分别是“图片过于血腥”“吐槽言辞过于激烈”“栏目划分缺乏个性”都低于 3.21的平均水平。可见,“今日头条”在监管黄色、暴力、血腥新闻方面卓有成效。
其中“推广、广告太多”为全表最高均值3.47,可见用户对“今日头条”的“推广、广告太多”感受颇为明显。根据笔者亲身试验,在“今日头条”的信息流中每六七条新闻中会参杂一条广告,感受还是比较强烈的。
同样,本研究也将消极态度与使用时间做了交叉分析。分析得出对“推广、广告太多”的认同度均值均随着使用时间的增长而整体呈下降趋势。可见,使用时间越长,越不觉得推广、广告太多。不排除是个性化推荐了解用户所需,调整了广告数量。不只是“推广、广告太多”这一项,其余“标题党现象严重”
“推送内容同质化严重,信息渠道变窄”“栏目划分缺乏个性”“吐槽言辞过于激烈”“订阅内容更新不及时”“图片过于血腥”都存在随着使用时间的增长,用户的认同度整体下降的趋势。
附录4 推荐系统中的常用方法
基于内容推荐
基于内容的推荐是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机 器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象 的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。 基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。
基于内容推荐方法的优点是:
不需要其它用户的数据,没有冷开始问题和稀疏问题。
能为具有特殊兴趣爱好的用户进行推荐。
能推荐新的或不是很流行的项目,没有新项目问题。
通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。
已有比较好的技术,如关于分类学习方面的技术已相当成熟。
缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户的判断情况。
协同过滤推荐
协同过滤推荐技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后 利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优 点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影。
协同过滤是基于这样的假设:为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。其基本 思想非常易于理解,在日常生活中,我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来,基于其他用户对某一内 容的评价来向目标用户进行推荐。
基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而且是自动的,即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格等。
和基于内容的过滤方法相比,协同过滤具有如下的优点:
能够过滤难以进行机器自动内容分析的信息,如艺术品,音乐等。
达内太原it培训共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念(如信息质量、个人品味)进行过滤。
有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别,基于内容的过滤推荐很多都是用户本来就熟悉的内容,而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。
能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加快个性化学习的速度。
虽然协同过滤作为一种典型的推荐技术有其相当的应用,但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题和可扩展问题。
基于关联规则推荐
基于关联规则的推荐是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性,在零 售业中已经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y,其直观的意义就是用户在购 买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。
算法的第一步关联规则的发现最为关键且最耗时,是算法的瓶颈,但可以离线进行。其次,商品名称的同义性问题也是关联规则的一个难点。
基于效用推荐
基于效用的推荐是建立在对用户使用项目的效用情况上计算的,其核心问题是怎么样为每一个用户去创建一个效用函数,因此,用户资料模型很大 程度上是由系统所采用的效用函数决定的。基于效用推荐的好处是它能把非产品的属性,如提供商的可靠性和产品的可得性等考虑到效用计算中。
基于知识推荐
基于知识的推荐在某种程度是可以看成是一种推理技术,它不是建立在用户需要和偏好基础上推荐的。基于知识的方法因 它们所用的功能知识不同而有明显区别。效用知识是一种关于一个项目如何满足某一特定用户的知识,因此能解释需要和推荐的关系,所以用户资料可以是任何能支持推理的知识结构,它可以 是用户已经规范化的查询,也可以是一个更详细的用户需要的表示。
组合推荐
由于各种推荐方法都有优缺点,所以在实际中,组合推荐经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法 去产生一个推荐预测结果,然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法,但在某一具体问题中并不见得都有效,组合推荐一个最重要原则就是通 过组合后要能避免或弥补各自推荐技术的弱点。
在组合方式上,有研究人员提出了七种组合思路:
加权:加权多种推荐技术结果。
变换:根据问题背景和实际情况或要求决定变换采用不同的推荐技术。
混合:同时采用多种推荐技术给出多种推荐结果为用户提供参考。
特征组合:组合来自不同推荐数据源的特征被另一种推荐算法所采用。
层叠:先用一种推荐技术产生一种粗糙的推荐结果,第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。
特征扩充:一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。
元级别:用一种推荐方法产生的模型作为另一种推荐方法的输入。
达内时代科技集团致力于培养面向电信和金融领域Java、C++、C#/.Net、3G/Android、3G/IOS、PHP、嵌入式、软件测试、UID、网络营销、网络工程、会计、UED、web、Unity3D、大数据、童程童美等17大方向中高端软件人才课程与少儿教育课程。选择达内太原it培训,不再孤军奋战,轻轻松松做IT高薪白领。太原达内培训带领有明确目标的学子迈向成功之路!想找工作的求职者可以加QQ:3373924515(太原达内就业服务部)咨询了解。