整体结构
一.知识图谱逻辑结构
数据层
模式层
主要内容为知识的数据结构,包括实体(Entity)、关系(Relation)、属性(Attribute)等知识类的层次结构和层级关系定义,约束数据层的具体知识形式。在复杂的知识图谱中,一般通过额外添加规则或公理表示更复杂的知识约束关系。
------------(分割)
二.知识表示
知识表示是一种对知识的描述方式,利用信息技术将真实世界中的海量信息转化为符合计算机处理模式的结构化数据。
- 分为两种类型,符号型知识表示和向量型知识表示。
- 符号型知识表示有很多种,如下图的都属于符号性,但目前我们使用或正在学习的是(实体,关系,实体)的三元组,但是由于便于利用计算机处理,所以我们采用了向量型知识表示,从而使得使用更多计算机算法处理,进行比如知识推理(知识补全,知识预测是同一个意思,都是获得新的三元组)等应用,因为多以三元组存储,所以处理之前要先映射到向量域,这一步我们称之为知识图谱嵌入
三.知识抽取
在知识表示之前,我们必须要从自然语言中获取到其中的“知识”,只有获取了知识,才能将知识表示为三元组或向量进行处理。
- 相比早期基于规则的知识抽取,基于神经网络的知识抽取将文本作为向量输入,能够自动发现实体、关系和属性特征,适用于处理大规模知识,已成为知识抽取的主流方法。
实体识别
有三种抽取方法
- 早期的NER方法一般是基于规则的方法和基于统计模型的方法
关系抽取
通过获取实体之间的某种语义关系或关系
的类别,自动识别实体对及联系这一对实体的关系所构成的三元组
-
基于卷积神经网络的关系抽取
CNN通过将嵌入表示和文本信息等数据组织为类似图像的二维结构,使用卷积核提取特征信息并用于关系抽取。 -
基于循环神经网络的关系抽取
RNN可以很好地利用内部的记忆机制处理时序相关信
息,适用于处理和表示短语及句子的组合向量。 -
基于注意力机制的关系抽取
ATT能够基于权重筛选上下文相关性强的信息,提高关系抽取的质量。目前已有多种根据不同的ATT进行关系抽取的方法。 -
基于图卷积网络的关系抽取
-
基于对抗训练的关系抽取
基于神经网络的模型通常忽略了输入数据中的噪声,导致模型效果不佳。将对抗训练AT引入关系抽取,对训练数据产生对抗噪声来优化分类算法,能够有效提升模型鲁棒性。 -
基于强化学习的关系抽取
强化学习(RL)是一类学习、预测和决策的方法框架,通过训练策略网络选择最优实例,结合神经网络进行关系抽取。
属性抽取
属性抽取是知识库构建和应用的基础,通过从不同信息源的原始数据中抽取实体的属性名和属性值,构建实体的属性列表,形成完整的实体概念,实现知识图谱对实体的全面刻画。
属性抽取方法一般可分为传统的监督、无监督和半监督属性抽取,基于神经网络的属性抽取和其他类型(如元模式、多模态等)的属性抽取。
四.知识融合
知识融合是融合各个层面的知识,包括融合不同知识库的同一实体、多个不同的知识图谱、多源异构的外部知识等并确定知识图谱中的等价实例、等价类及等价属性,实现对现有知识图谱的更新
五.知识加工
知识抽取、知识融合的基础上,对基本的事实进行处理,形成结构化的知识体系和高质量的知识,实现对知识的统一管理。
本体构建
本体构建是指在模式层构建知识的概念模板,规范化描述指定领域内的概念及概念之间的关系,其过程又包括概念提取和概念间关系提取两部分。
知识推理
知识推理是针对知识图谱中已有事实或关系的不完备性,挖掘或推断出未知或隐含的语义关系。知识推理的对象可以为实体、关系和知识图谱的结构等。
质量评估
知识图谱质量评估通常在知识抽取或融合阶段进行,对知识的置信度进行评估,保留置信度高的知识,有效保障知识图谱质量。质量评估的研究目的通常为提高知识样本的质量,提升知识抽取的效果,增强模型的有效性
知识更新
知识推理是最重要的部分
包括多种方法,其中有基于向量的嵌入表达
嵌入表达中,基于距离模型的是一个重要部分