课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
我们在前几期的文章中曾经给大家简单分析过知识图谱的设计方法以及数据采集来源等内容,而今天我们就一起来了解一下,知识图谱的应用都有哪些。
针对领域特点增强知识表示能力
领域知识图谱往往汇聚多种领域内特有的数据,通用知识表示在特定的领域存在限制和不足。
举个例子,在很多领域时间和空间都是重要的计算维度,对实体时序和空间属性的建模缺失会限制上层应用的发挥。比如在安防领域,除了实体和关系两种对象的数据外,还有一大类轨迹数据,具有更强的时空特征和时效性,数据总量也更大。这类数据,虽然对实体的构建和关系构建都提供了信息,但其本身强时空特征,无法直接体现在实体-关系的拓扑结构或属性中。
另外,时间和空间作为重要的维度,往往涉及大量的区间计算与聚合操作。因此,在安防知识图谱中,会设计三类对象:事件(event),将实体对象的行为数据,即:具备“主体”-“客体”-“时间”-“地点”-“时间段”-“事件内容”等多方面信息的数据,构造成为事件对象。事件对象往往描述了一个现实世界中一个实体在一个时间点(段)或空间点(范围)发生的一个行为,其一个重要的特点就是数据的属性值不会发生改变,这个特点可以使得系统在针对事件数据的存储和计算都可以进行优化。
批量结构化数据处理
行业知识图谱的核心实体、属性、关系和事件多来源于行业的内部的结构化数据。由于各种历史原因,这些系统中的数据通常存在数据质量差、数据标准不统一、元数据描述缺乏、数据字典不全、数据一致性不完备等问题。批量结构化数据知识图谱构建的挑战主要来自于如何做到工程化。越来越多的系统需要一整套完整的工程化的方案解决批式和流式的知识构建过程,通过数据探查、数据理解、数据清洗、数据标准化、数据映射、数据关联、数据融合等几个阶段的工作,完成从质量不一的原始结构化数据到终知识图谱的过程。
实体识别与关系抽取
实体识别是利用非结构化数据构建知识图谱的关键步骤。实体识别后需要进行实体链接。实体链接是识别出实体与已有知识库中对应实体进行链接,以补充知识图谱的内容。
传统的基于规则统计和成熟算法的手段已经可以很好的处理部分实体的抽取问题,很多领域实体识别都采用多种方法混合的实体识别流水线。例如,在某个领域使用CWS负责识别人名、地名、组织机构名;用基于规则的开源组件负责对时间、温度、频次等通用实体,以及难度较大的领域实体进行识别以及标准化;使用biLSTM/CRF负责酒店、网吧等机构名进行语料学习训练,提升识别精度等。
除了传统的实体识别方法,目前也有越来越多的深度学习算法被用于解决实体识别问题。例如利用CNN/LSTM来学习词位置处的向量表示,用滑动窗口分类的思想,使用神经网络学习句子中的每个ngram的表示,预测目标实体。深度学习方法训练是一个端到端的过程,无需人工定义相关的特征。如何先验知识融入深度学习方法提高识别准确率是当前的研究的热点之一。在目前阶段使用深度学习出比较好的效果需要相对大量的训练数据,所以在处理实际问题的时候要根据实际数据情况进行判断。
实体识别与链接是知识图谱构建与知识应用的核心技术。在抽取实体的同时,我们往往也会在非结构化数据中抽取关系。关系抽取是一项更有挑战的任务。领域知识图谱往往会先解决预定义关系抽取,因为在不同的领域中会存在领域特有的关系,而预定义关系抽取的技术难度也会低于开放式关系抽取。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!