当前位置:首页 > 知识图谱 > 正文

知识图谱设计思路


一、从零搭建行业知识图谱及应用(一)
随着数据红利的消耗,早期由少量数据驱动的计算机智能(数值优化、数字模拟等)走向感知智能(语音识别、意图识别、消息识别图像等)已经无法实现。 满足企业的需求。 知识图谱。 所代表的认知智能将成为下一代人工智能发展的中心。
认知智能是智能的关键,因此机器可以真正像人类一样思考。
自动数据理解的本质是将数据映射到知识库中的实体、概念和关系。
现象自动解释的本质是:利用知识库中的实体、概念和关系来解释现象的过程。
知识图谱按领域分为:1)通用领域知识图谱2)行业知识图谱3)企业知识图谱。
目前通用领域知名的知识图谱有:维基百科、谷歌百科、百度百科等。
行业知识图谱应结合行业特点。 与一般领域知识图谱相比,它具有知识范围窄、深度深、粒度细、专家程度高的特点。 参与和复杂的应用。 然而,行业知识图谱并不是针对行业量身定制的。 企业创造的价值是不可估量的。
知识图谱的主要内容由三元组组成。 三元组是“主语、属性、宾语”形式的表达,例如“姚明,职业球员,篮球运动员”。 主体和客体之间存在多对一和一对多的关系。
存储整个行业提取的所有三元组,并整理它们之间的关系,形成行业的知识图谱。
整体的三元组提取流程是词汇发现->实体识别->关系提取。 本文主要讲解词汇发现的过程,后续系列将继续深化实体识别和关系抽取的过程。
三重抽取模型根据监督类型可以分为监督学习、无监督学习和半监督学习。
如果已有类似的标注语料库,可以直接使用深度学习模型进行训练。 模型准确性与语料库质量正相关。
但是,由于业界高质量的对应语料库资料很少,如果要使用这种方法,需要花费大量的工作来标注语料库,并且由于质量参差不齐标注者之间,会有同一个语料可以标注出不同的结果,这会导致模型训练不收敛或者精度低。
本文的主要内容是为读者提供一种更便宜的提取实体的方式,而不需要大量的语料和人力成本。
在没有标注语料的前提下,我们重点关注三元组的构成:<实体、关系、实体>或者<实体、属性、值>等。 可以看出,基本上可以分为两个部分,实体识别和关系抽取。
基于深度学习模型,我们可以看到行业主要分为两类:多分类模型和序列标注模型。
分类模型主要在Bi-LSTM的输出结果后使用全连接Softmax作为解码器,选择概率分布最高的结果,对每个词或单词进行分类,独立预测对每个字符或词进行分类词并得到分类结果。
序列标注模型利用Softmax概率分布和概率转移矩阵(即CRF)来显示Bi-LSTM输出结果后的每个词或单词的结果。
序列标注模型的优点是模型输出结果是连续的。 CRF会考虑前后标签之间的关系,而分类模型的结果可能与常见标签不一致。 感觉。 因此,业界普遍使用序列标注模型以及CRF来进行实体识别。
深度学习模型必须经过训练,无论是分类模型还是序列标注模型,都必须事先对语料进行标注。
如何利用传统机器学习方法提取特征?
通过使用专业的预定义模型来提取和识别文档中的高质量单词,生成的单词的质量非常高,但使用手动定义的规则非常昂贵且难以详尽覆盖。
首先,我们使用N-gram方法进行分词并统计词频,得到候选词列表和词频得分。
如果这是唯一的方法,我们统计的句子中会包含很多“我们”、“今天”等无意义的单词,所以我们必须结合TF-IDF、PMI等工程特征来提取所要求的高质量、高频率的真实词义。
然后结合候选词的频率和TF-IDF计算出的特征来加权最终的词得分,然后通过人工判断选择topK,这样得到的词的质量为相对较高。
常用的特征工程包括:
通常,创建知识图谱最困难的情况是在没有高质量标注语料的情况下如何大规模、高质量地提取数据。 只有词汇量足够了,我们才能进行进一步的实体识别和关系抽取工作。 作者后续会继续分享同义词发现、关系抽取等后续任务。