课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
内容运营一直以来都是互联网新媒体在传递信息和维护用户的主要方法之一,但是随着互联网的飞速发展,我们在内容的选择上花样和话题性也越来越多。在这种情况下,如何才能维护互联网内容的安全呢?下面我们就一起来了解一下吧。
一、引言
随着互联网、智能设备及各种新生业务的飞速发展,互联网上的数据呈现爆炸式增长,图片、视频、发文、聊天等互动内容已经成为人们表达感情、记录事件和日常工作不可或缺的部分。
这些日益增长的内容中也充斥着各种不可控的风险因素,比如不雅不良评论、垃圾广告、违法违规交易/宣传、低俗不文明等垃圾内容,需要各网站及平台亟待认真对待和管理的工作。
二、内容安全现状
不良不雅评论,违规违法交易严重影响主营业务的健康发展 。面对此类问题,企业主该如何解决呢?
一种方法是投入人力加大审核力度,此种方式的特点如下:
垃圾评论占比较小,人力逐条审核容易漏审
UGC评论数据规模巨大,每日多达数十亿、百亿等,人力成本太高
审核人员的招聘成本,管理成本较高
另外一种方式是招聘专业的AI工程师自建识别模型,此种方式特点如下:
AI工程师非常昂贵
内容安全一般不属于主营业务,投入较少
识别模型的效果受限于样本规模和样本质量,在数据标注上需要持续投入
后一种途径是购买保险:将内容安全问题交给专业的公司来解决,从而实现“四两拨千斤”。
三、现有解决方案
当前识别此类垃圾内容的主流方法有:关键词过滤模式、关键词文法过滤模式、在打标数据上训练垃圾识别模型的机器学习模式,或融合关键词与机器学习的混合模式,其特点分析如下:
基于关键词过滤模式:该模式的优点是立竿见影生效快,但是由于分词歧义问题导致误杀,对未登录的case泛化能力弱,词库的维护成本高
基于关键词文法的过滤模式:由于考虑了关键词的上下文,此种方式相比关键词过滤拥有了一定的消歧义能力,但是关键词文法需要人工总结归纳,再加上上下文不易枚举,使得人力成本成倍上升,于此同时随着变种不断涌现,从变种中挖掘拦截文法,人力成本不可控
静态机器学习模型或融合了关键词文法过滤的混合模式:由于模型是静态的,上线之后,应对不了变种问题,使得模型很快失灵
新变种不断涌现,会快速绕过当前垃圾识别方法,使得当前的方法“失灵”,各公司不得不投入大量人力研究变种,归纳拦截策略或标注新样本,于此同时每个业务平台上的垃圾内容存在较大差异,同一垃圾类型,客户的尺度也存在较大差别。在节约人力成本的条件下,如何解决此类对抗性的问题,并做到客户级的个性化定制,成为困扰业界一大难题。
作者:王国印
节选:infoq
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。