当前位置:首页 > 知识图谱 > 正文

知识图谱的三大技术

∩^∩基础知识-知识图谱

知识图谱构建形式:
自上而下:首先定义知识图谱的本体和数据模型,然后将实体添加到知识库中。
自下而上(常用):从一些开放链接数据中提取实体,选择置信度较高的实体添加到知识库中,然后构建顶层本体模型。
(1)语义信息提取;(2)多元数据的整合与验证(知识整合);Freebase、维基数据、DBpedia、YAGO。 包含大量的半结构化和非结构化数据。
垂直行业知识库(特殊领域):IMDB(影视)、MusicBrainz(音乐)、ConceptNet(概念)等。

基于规则和字典的方法(为目标实体编写模板然后进行匹配):编写大量规则或模板,覆盖范围有限,难以适应新的需求
基于机器学习统计的方法(机器学习、训练模型、实体识别):监督学习算法受训练集限制,准确率和召回率都不理想
(召回率:真阳性/真阳性+假阳性准确率:真阳性+真阴性/真阳性+假阳性+真阴性+假阴性)
开放域的提取方法(针对大型Web语料库):通过少量示例实体建立特征模型,然后将其应用于新的数据集,对新的实体进行分类和分组。 (迭代扩展)

早期:人工构建规则和语义模板;
实体关系模型取代早期人工构建;
开放的面向领域的信息抽取框架(OIE):提取隐式关系的性能较低。
(隐式关系抽取:一种基于马尔可夫逻辑网络和本体推理的深度隐式关系抽取方法)

实体属性抽取问题可以转化为关系抽取问题

分布式表示的目的是用一个综合向量来表示实体对象的语义信息,这种形式在知识图谱的计算、补全和推理中发挥着重要作用:
1实体之间的语义关联为自然的语义关联提供了极大的便利。 语言处理(NLP)。
2.

消除实体冲突和性问题中不明确的指针等不一致之处。
(1)数据分区索引进行对齐;
(2)使用相似度函数或相似度算法查找匹配出现;
(3)对齐算法(配对实体的对齐,全局(局部))集合实体的对齐)例如连接。

实体对齐后,得到一系列基本的事实表达。 事实并不等同于知识,它们只是知识的基本单位。

本体相当于知识库模板,赋予其强大的层次结构和少量的冗余。

可分为手动构建和数据驱动自动构建。
数据驱动本体自动构建:
①垂直概念间并列关系计算:计算两个实体间并列关系的相似度,分析它们在语义层面是否属于同一概念。
②实体上下关系的提取。
③本体生成:将每个阶段获得的概念进行分组,并为每一类实体指定一个或多个公共上位词。

它通常与实体对齐任务一起进行:衡量知识的可信度,保留置信度较高的知识,丢弃置信度较低的知识。

主要包括模型层更新和数据层更新。

一阶谓词逻辑、描述逻辑、规则等
(1)一阶谓词逻辑:基于命题,命题包括个体(实体)和谓词(属性或关系)。
(2)基于描述逻辑的规则推理:在(1)的基础上发展起来,目的是追求知识表示能力和推理复杂度之间的平衡。
(3)通过本体概念层面进行推理。

如果目标节点可达,则判断源节点与目标节点之间存在关系。
(关系路径建模研究尚处于起步阶段,有待进一步探索)

参考文献:
[1]徐增林、盛永攀、何立荣、王亚芳知识综述图技术的发展[J].中国电子科技大学学报,2016,45(04):589-606。

ˋ0ˊ技术|知识图谱构建关键技术点梳理本文主要内容由两篇代表知识图谱的综述整理而成:
1中国电子科学与技术(第4期):589-606。
2.刘巧,李阳,段红,等研究与发展,2016(3):582-600,共19页。
文章从知识图谱的定义和技术架构入手,并对构建知识图谱所涉及的关键技术进行了全面的自下而上的分析。 本文是把涉及到的技术点罗列一下,个别技术点后面会一一解决。
1.1解决的问题
如何从半结构化和非结构化数据中提取实体、关系和实体属性等结构化信息。
1.2涉及的关键技术
1.2.1实体提取
又称NamedEntityRecognition(NER),是指从集中式文本数据中提取数据自动识别命名实体。
1.2.2关系抽取
关系抽取是指从相关语料库中抽取实体之间的关系,通过关系将实体(概念)连接起来。
1.2.3属性提取
指从不同信息源采集某些实体属性信息,如提取某个数值的昵称、生日、国籍、教育背景等公开信息和其他信息
2.1解决的问题
将现实世界中不同类型的知识表达成计算机可以存储和计算的结构。
2.2涉及的关键技术
传统的知识表示方法主要使用RDF(ResourceDescriptionFramework资源描述框架)三种SPO(主体、属性、客体)来符号化来描述实体之间的关系,以深度学习为代表的表征学习技术近年来也取得了重要进展。
3.1问题解决
信息抽取结果可能包含大量冗余和不正确的信息,而且数据之间的关系也是扁平的,没有层次和逻辑结合起来,可以消除概念模糊,消除冗余和误解,保证知识质量。
3.2​​​​​​主要技术
3.2.1实体链接
指将从文本中提取的实体对象链接到操作知识基于正确的实体对象匹配。 主要涉及两个方面:
▪实体消歧
用于解决同名实体歧义问题的技术。 例如,“李娜”(参考)可以匹配作为歌手的实体李娜,也可以匹配作为网球运动员的实体李娜。
▪EntityResolution引用解析
又称为对象对齐、实体匹配、实体同义词等,用于解决多个引用项匹配同一实体对象的问题。 例如,在新闻稿,“巴拉克奥巴马”、“奥巴马总统”、“总统”和其他所指代都可以指代同一实体“奥巴马”。
3.2.2知识融合
指从第三方知识库产品或现有的结构化数据中获取知识输入。
4.1问题解决
信息抽取和知识融合可以获得一系列基本事实的表达。 但事实并不等同于知识,最终获得一个组织化、网络化的知识体系,还需要经过知识加工的过程。
4.2涉及的关键技术
4.2.1本体提取
本体是对概念和描述进行建模的规范,是事物的客观抽象模型正式明确定义概念及其之间关系的世界。
4.2.2知识推理
是指从知识库中已有的实体关系数据出发,通过计算机推理建立实体之间新的关联,从而扩展和丰富知识网络。
4.2.3质量评估
衡量知识的可信度,通过丢弃置信度较低的知识来保证知识的基本质量。
5.1解决的问题
知识图谱的内容需要跟随时间的推移,构建过程是一个不断迭代更新的过程。 主要包括概念层更新和数据层更新。
▪更新数据层:主要添加或更新实体、关系、属性值等。
▪更新模式层:即添加新数据后得到新的模式,新的模式会自动添加到知识库的模式层中。