基础知识-知识图谱

如题所述

第1个回答 2022-06-14

知识图谱的构建形式：
自顶向下：先为知识图谱定义好本体与数据模式，再将实体加入到知识库。
自底向上（常用） ：从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式。
（1）语义信息抽取；（2）多元数据集成与验证（知识融合）；（3）知识图谱补全

知识库分类：
开放链接知识库：Freebase、Wikidata、DBpedia、YAGO。包含大量半结构化、非结构化数据。
垂直行业知识库（特定领域）：IMDB（影视）、MusicBrainz（音乐）、ConceptNet（概念）等。

基于规则与词典的方法（为目标实体编写模板，然后进行匹配）：编写大量规则或模板，覆盖领域有限，难以适应新需求
基于统计机器学习的方法（机器学习，训练模型，识别实体）：监督学习算法受训练集限制，准确率和召回率不够理想
（ 召回率：真阳性 / 真阳性 + 假阳性；准确率：真阳性 + 真阴性 / 真阳性 + 假阳性 + 真阴性 + 假阴性 ）
面向开放域的抽取方法（面向海量的Web语料）：通过少量实体实例建立特征模型，再通过它应用于新的数据集，给新实体做分类与聚类。（迭代扩展）

早期：人工构造语义规则以及模板的方式；
实体间的关系模型代替了早期的人工构造；
面向开放域的信息抽取框架（OIE）：对隐含关系抽取性能低下。
（ 隐含关系抽取：基于马尔科夫逻辑网、基于本体推理的深层隐含关系抽取方法 ）

可以将实体属性的抽取问题转换为关系抽取问题

分布式表示 目的在于用 一个综合的向量来表示实体对象的语义信息 ，这种形式在知识图谱的计算、补全、推理等方面起到重要的作用：
1、语义相似度计算：实体间的语义关联程度，为自然语言处理（NLP）等提供了极大的便利
2、

消除异构数据中实体冲突、指向不明等不一致性问题。
（1）待对齐数据分区索引；
（2）利用相似度函数或相似性算法查找匹配实例；
（3）对齐算法（成对实体对齐、全局（局部）集合实体对齐）进行实例融合。

经过实体对齐后得到一系列的基本事实表达，然后事实并不等于知识，它只是知识的基本单位。

本体相当于知识库的模具，使其具有较强的层次结构和较小的冗余程度。

可分为人工构建和数据驱动自动构建。
数据驱动的本体自动构建：
①纵向概念间的并列关系计算：计算两个实体间并列关系的相似度，辨析他们在语义层面是否属于同一个概念。
②实体上下位关系抽取。
③本体生成：对各层次得到的概念进行聚类，并为每一类的实体指定1个或多个公共上位词。

通常是与实体对齐任务一起进行：对知识可信度进行量化，保留置信度较高的，舍弃置信度较低的。

主要包括模式层的更新与数据层的更新。

一阶谓词逻辑、描述逻辑以及规则等
（1）一阶谓词逻辑：以命题为基本，命题包含个体（实体）和谓词（属性或关系）。
（2）基于描述逻辑的规则推理：在（1）的基础上发展而来，目的是在知识表示能力与推理复杂度之间追求一种平衡。
（3）通过本体的概念层次推理。

一些算法主要是 利用了关系路径 中的蕴涵信息：
通过图中两个实体间的多步路径来预测它们之间的语义关系，即从源节点开始，在图上根据路径建模算法进行游走，如果能够到达目标节点，则推测源节点和目标节点间存在联系。
（ 关系路径的建模研究仍处于初期阶段，需要进一步探索完成 ）

参考文献：
[1]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(04):589-606.

你可能感兴趣的内容

大家正在搜

非常风气网www.verywind.cn

基础知识-知识图谱

相关了解……

你可能感兴趣的内容