知识图谱构建形式:
自上而下:首先定义知识图谱的本体和数据模型,然后将实体添加到知识库中。
自下而上(常用):从一些开放链接数据中提取实体,选择置信度较高的实体添加到知识库中,然后构建顶层本体模型。
(1)语义信息提取;(2)多元数据的整合与验证(知识整合);Freebase、维基数据、DBpedia、YAGO。 包含大量的半结构化和非结构化数据。
垂直行业知识库(特殊领域):IMDB(影视)、MusicBrainz(音乐)、ConceptNet(概念)等。
基于规则和字典的方法(为目标实体编写模板然后进行匹配):编写大量规则或模板,覆盖范围有限,难以适应新的需求
基于机器学习统计的方法(机器学习、训练模型、实体识别):监督学习算法受训练集限制,准确率和召回率都不理想
(召回率:真阳性/真阳性+假阳性准确率:真阳性+真阴性/真阳性+假阳性+真阴性+假阴性)
开放域的提取方法(针对大型Web语料库):通过少量示例实体建立特征模型,然后将其应用于新的数据集,对新的实体进行分类和分组。 (迭代扩展)
早期:人工构建规则和语义模板;
实体间关系模型取代早期人工构建;
开放的面向领域的信息抽取框架(OIE):提取隐式关系的性能较低。
(隐式关系抽取:一种基于马尔可夫逻辑网络和本体推理的深度隐式关系抽取方法)
实体属性抽取问题可以转化为关系抽取问题
分布式表示的目的是用一个综合的向量来表示实体对象的语义信息,这种形式在知识图谱的计算、补全和推理中发挥着重要作用:
1实体之间的语义关联为自然的语义关联提供了极大的便利。 语言处理(NLP)。
2.
消除实体冲突和性问题指标不明确等不一致之处。
(1)数据分区索引进行对齐;
(2)使用相似度函数或相似度算法查找匹配出现;
(3)对齐算法(配对实体的对齐,全局(局部))集合实体的对齐)例如连接。
实体对齐后,得到一系列基本的事实表达。 事实并不等同于知识,它们只是知识的基本单位。
本体相当于知识库模板,赋予它们强大的层次结构和很少的冗余。
可分为手动构建和数据驱动自动构建。
数据驱动本体自动构建:
①纵向概念之间并列关系计算:计算两个实体之间并列关系的相似度,分析它们在语义层面是否属于同一概念。
②实体上下关系的提取。
③本体生成:将每个阶段获得的概念进行分组,并为每一类实体指定一个或多个公共上位词。
它通常与实体对齐任务一起运行:衡量知识的可信度,保留置信度较高的知识并丢弃置信度较低的知识。
主要包括模型层更新和数据层更新。
一阶谓词逻辑、描述逻辑、规则等
(1)一阶谓词逻辑:基于命题,命题包括个体(实体)和谓词(属性或关系)。
(2)基于描述逻辑的规则推理:在(1)的基础上发展起来,目的是追求知识表示能力和推理复杂度之间的平衡。
(3)通过本体概念层面进行推理。
参考文献:
[1]徐增林,盛永攀,何立荣,王亚芳。 图技术的知识研究[J].中国电子科技大学学报,2016,45(04):589-606。