知识图谱(Knowledge Graph, KG)

来源: 日期:2021-05-03

主要内容:
1、知识图谱的概念
2、典型知识库介绍(简)
3、知识图谱技术概览
4、典型案例简介


知识图谱(KG)的概念

知识图谱(KG)得益于Web的发展(更多的是数据层面),有着来源于KR、NLP、Web、AI多个方面的基因。知识图谱(KG)的概念演化如图:
KG的概念演化图

知识图谱是2012年后的提法,基础还是语义网本体论

知识图谱的本质包含:
一、 知识表示——Knowledge Representation
二、 基于知识表示的知识库——Knowledge Base
知识库的来源:知识构建、知识抽取、知识融合
知识库怎么用:语义搜索、知识问答

知识图谱由文本(Texts、Documents)的链接到对象(Objects)的链接。

知识图谱(KG)的作用:
1、辅助搜索
2、辅助问答
3、辅助决策
4、辅助AI:常识推理

知识图谱的深度学习的区别:
人的大脑依赖所学的知识进行思考、逻辑推理、理解语言。
可以将深度学习知识图谱比作是“聪明的AI”和“有学识的AI”。
1、深度学习:主要是【学习】能力,通过强大的计算能力,感知、识别、判断来进行学习。
2、知识图谱:主要是【推理】能力,通过已有的规则和知识,思考、语言、推理来进行学习。
深度学习VS知识图谱


典型知识库介绍(简)

典型知识库有:
CYC知识库:常识知识库,最初目标是建立人类最大的常识知识库。
Wordnet:词典知识库,主要用于词义消歧。
ConceptNet:常识数据库,最早源于MIT媒体实验室,主要依靠互联网众包、专家创建和游戏三种方法来构建。知识库以三元组形式的关系型知识构成。侧重词与词之间的关系。ConceptNet完全免费开放,并支持多种语言。
Freebase:完全免费并允许商业化的开放许可协议。通过开源免费吸引吸引用户贡献数据,增值的应用及技术服务收费。
Wikidata:目标是构建全世界最大的免费知识库,但是仍然面临知识缺失严重的问题。
DBPedia:早期的语义网项目,意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集。
YAGO:集成了Wikipedia、WordNet、GeoNames三个来源的数据。YAGO还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。
Babelnet:类似于WordNet的多语言词典知识库,目标是解决WordNet在非英语语种中数据缺乏的问题。
NELL:是卡内基梅隆大学开发的知识库,主要采用互联网挖掘的方法从WEB自动抽取三元组知识。
微软的Concept Graph:以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,Concept Graph是以概念定义和概念之间的IsA关系为主。
OpenKG:中文知识图谱资源库。
cnSchema:开放的中文知识图谱Schema


知识图谱技术概览

知识图谱的技术体系如图:
知识图谱的技术体系

1、知识表示

知识表示研究怎样用计算机符号来表示人脑中的知识,以及怎样通过符号之间的运算来模拟人脑的推理过程。

知识图谱的离散式表示:
RDF、RDF Graph、RDFS、RDF的序列化格式、OWL、OWL extends RDF Schema、SPARQL、JSON-LD(数据交换格式)、RDFa HTML5 MicroData(在网页中嵌入语义数据)、
知识图谱的分布式表示:
KG Embedding

2、知识抽取:NLP+KR

知识抽取的主要方法:
(1).知识工程:正则表达式、模板匹配、规则约束
(2).基于本体的抽取:知识挖掘(推理)
(3).基于模型的抽取:模型、训练

3、知识存储

知识比数据的结构更加复杂,知识的存储需要综合考虑图的特点、复杂的知识结构存储、索引和查询(支持推理)的优化等问题。

典型的知识存储引擎分为基于关系数据库的存储和基于原生图的存储

在实践中,多为混合存储结构,图存储并非必须

4、知识问答

KBQA(Knowledge-Based Question Answering,基于知识库的问题回答)以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜素引擎的基本形态。

5、知识推理

简单而言,推理是指基于已知事实推出未知的事实的计算过程。

大部分搜索引擎目前都已经支持了一定的推理能力。例如:在百度搜索中输入“姚明的女儿的妈妈的老公”,会发现搜索结果还是姚明。

知识推理可以按照解决方法推理类型进行分类。如图:
知识推理类型
基于描述逻辑的推理:本体推理

描述逻辑(description logic)是一种用于知识表示的逻辑语言和以其为对象的推理方法,主要用于描述概念分类及其概念之间的关系。
描述逻辑是当前语义网发展中本体的理论基础。

基于统计规则挖掘的推理
基于表示学习的推理-Representational Learning

6、知识融合

知识融合是指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。

知识融合的典型工具:Dedupe

Dedupe,基于Python的工具包,实现了包括fuzzy matching,deduplication,entity resolution在内的常见任务。主要处理流程是先对所有records通过Clustering/Blocking的方法进行分组,然后在组内部通过计算相似度特征和机器学习分类模型对任意一对records进行预测是否为同一实体。

适合于两个数据集有相似的结构,如果两个数据集的实体属性个数差异很大,不建议采用。

知识融合:典型工具-LIMES

专门针对链接数据Linked Data设计的链接框杂,不要求两个数据集的实体具有相似的结构。可灵活配置匹配规则,自定义距离计算模型,也支持基于Active Learning的机器学习方法

7、知识众包

Wikibase
Schema.ORG


典型案例简介

知识图谱的案例涉及:医疗健康、金融、电商、出版、农业、政府、电信、数字图书馆等领域。

下面以图片的形式进行展示:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

以上是学习王昊奋的《知识图谱》课程的第一课的总结学习笔记。

    A+
声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。