课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,机器学习算法在各个领域中都有不同的应用方式,而今天我们就一起来了解一下,机器学习算法在知识图谱设计中的应用表现。
在实体识别和关系识别的过程中都会使用到有监督的机器学习算法,而很多训练模型所必须的海量数据在很多领域中都是难以获取的,是解决实际问题面临的挑战之一。迁移学习被认为是解决少训练数据问题的方法之一,但从其成熟度和在实际应用中遇到的限制来讲,越来越多的解决方案开始关注如何高效地标注行业数据来解决训练数据的问题,来降低实施成本和提高应用能力。
a、高效地标注行业数据
在实际应用中,尤其是企业服务中,领域问题使用的文本在用词和语言习惯都与公开文本数据有着较大的差异。在迁移学习等技术没有成熟的当今,通过对现有数据进行标注效果要好于调整算法。标注后的数据可以生成大量的数据集,这些数据集密切关系着训练出来的NLP模型的优劣,模型的质量则关乎文本挖掘和自然语言处理的质量。目前为止,数据标注依旧是一个需要花费大量人力和物力的工作。所以高效的标注工作可以很好地加速知识构建,还可以在极大地节省人力物力。
提升标注效率可以采用使用词典、使用深度学习模型和使用主动学习技术等方法实现。一般来讲,成熟的标注工具都会提供丰富的词典来帮助用户进行自动标注。深度学习模型也是标注工具中常用的技术,深度学习模型除了帮助用户标注以外,还可以帮助用户快速建立某领域模型,帮助用户解决领域文本挖掘问题。
另外,引入了主动学习技术。主动学习技术其实就是把采用一种学习算法来计算出哪些数据更具有价值,率先让标注人去进行标注,然后,再将这些数据加入到训练样本集中对算法进行训练。引入主动学习技术后可以更广泛地发现标注价值更大的数据,花费同样时间的情况下,采用主动学习技术的用户标注的数据价值更高。
标注工作是处理领域中非结构化数据的基础工作,也是耗费人力和时间的工作,笔者所在的公司也针对这块工作开发了面向领域的高效标注工具Raptor。
b、尝试使用迁移学习
面对缺少训练数据,越来越多的工作尝试使用迁移学习的办法缓解训练数据的缺少。迁移学习的思路在预训练模型中找到能够输出可复用特征的层次,然后利用该层次的输出作为输入特征来训练那些需要参数较少的规模更小的网络。当前迁移学习已经逐渐成为了资源不足时使用的人工智能选技术,也在慢慢尝试应用在针对特定领域特定数据集的知识图谱构建中。在实际使用中,迁移学习往往会引入噪声和需要大量专业的参数调试过程,这都给实际应用带来了挑战。
c、构建隐性关系
在构建领域知识图谱的过程中,可以将关系分为显性关系和隐性关系。显性关系是指通过原始数据直接可以抽取出的关系,隐性关系是指需要通过复杂计算和数据挖掘计算出来的动态关系。在很多领域中,隐性关系的构建很大程度上决定了整个图谱对智能应用支撑的好坏,对提升图谱的分析、推理和挖掘效率起到关键作用。隐性关系可以有很多种,构建方法针对行业数据的特点有所不同,但多会涉及到使用行业规则,关系挖掘算法、图计算等技术手段。
在一些领域知识图谱构建的过程中,隐性关系的构建是为至关重要的一步。如果把知识库比做大脑,那隐性关系构建就像是大脑在通过思考不断学到新的知识的过程。在设计知识图谱整体系统架构时,可以将构建隐性关系的过程服务化,提升终知识图谱的质量。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!