目录
1 知识图谱概念
1.1 深度学习与知识图谱
1.2 知识图谱 VS 传统知识库 VS 数据库
1.3 知识图谱本质
1.4 知识表示一语义网络(Semantic Network)
1.5 知识表示-框架(Frame)
1.6 知识表示-概念图(Conceptual Graph ):
1.7 语义网(Semantic Web)
2 经典知识图谱
2.1Cyc
2.2 WordNet
2.3 ConceptNet
2.4 Freebase
2.5 Wikidata
2.6 DBPedia
2.7 ZhiShi.me
2.8 CN-DBPedia
2.9 BabelNet
3 知识图谱应用
3.1 应用场景
3.1.1 辅助搜索-精准回答
3.1.2 辅助问答--人机互动.
3.1.3 辅助数据集成-智能数据整合
3.1.4 辅助决策一一智能决策
3.2 知识图谱技术的核心价值
3.3 阿里巴巴的知识图谱
3.4 美团知识图谱-美团大脑
3.5 百度知识图谱
4 构建知识图谱是一项复杂的系统工程
4.1 知识抽取与挖掘:任务和问题
5 学术前言的知识图谱论文
6 小结
7 参考文献
一个知识图谱的例子
图表示形式:
包括:实体、属性、惯性系
节点是实体
节点有属性标签(可以包含类型)
两个节点的边是实体间关系 强调实体,但也可以描述概念
人类的信息组织革命
Google Knowledge Graph
语义网络:表示概念间语义关系的网络
1956年提出,最初目的用于语言翻译和自然语言处理
1960s, 1980s, 2000s得到不断发展经典语义网络项目: WordNetA Framework for Representing Knowledge, 1974, Marvin Minsky 框架是人工智能中使用的一种数据结构
有数学和逻辑支撑的知识表示John F. Sowa ( 1980s) 一阶逻辑的图接口 基于图的知识表示和推理模型. (exists ((x Sitting) (y Mat)) (and (Cat Elsie) (agent x Elsie) (location x y)))
形式化概念分析(Formal Concept Analysis)Rudolf Wille,1980 格(Lattice): https://en. wikipedia.org/wikiFormal concept analysis偏序集合 广泛被应用在数据挖掘、机器学习、语义Web.....
Web=文档+超链接=Data+Link
本体( Ontology ) :领域共享知识的描述方式,是语义Web、语义搜索、知识工程和很多人工智能应用的基础。(后面第三个笔记会进行叙述)
理论上,本体论是一种“共享概念化的正式的、明确的规范”
What is Description Logic(描述逻辑) ?
描述逻辑是一种知识表示语言,表达能力强于命题逻辑,弱于一阶逻辑。描述逻辑成为了语义网语言的逻辑基础,其推理有正确性和完备性(soundnessandcompleteness)保证。语义网的发展过程中先后制定了基于描述逻辑的不同语言规范:DAML,RDF,OWL,OWL2等等链接数据
主要是知道有哪些经典的知识图谱以及提供怎么形式的数据,这样我们后面在做实验的时候就可以直接进行使用了。
WordNet是最著名的词典知识库,主要用于词义消歧。WordNet由普林斯顿大学认识科学实验室从1985年开始 开发WordNet主要定义了名词、动词、形容词和副词之间的语义关系。例如名词之间的上下位关系(如:“猫科动物”是“猫”的上位词),动词之间的蕴含关系(如:打鼾”蕴含着“睡眠”)等 WordNet3.0已经包含超过15万个词和20万个语义关系
●ConceptNet源于MIT媒体头验至的OpenMind Common Sense (OMCS)项目。OMCS项目是由著名人工智能专家Marvin Minsky于1999年建议创立 ●ConceptNet主 要依靠互联网众包、专家创建和游戏三种方法来构建。新版本导入大量开放的结构化数据,如DBPedia、 Wikinary, Wordnet等 ●ConceptNet知识库 以三元组形式的关系型知识构成。ConceptNet5版本已经包含有2800万关系描述。与Cyc相 比, ConceptNet采用了非形式化、更加接近自然语言的描述,而不是像Cyc那样采用形式化的谓词逻辑与链接数据和谷歌知识图谱相比,ConceptNet比较侧重于词与词之间的关系。从这个角度看,ConceptNet 更加接近于WordNet,但是又比WordNet包含的关系类型多。此外,ConceptNet完全免费开放,并支持多种语言
Freebase由Metaweb开发,并于2007年3月公开运营,2010年7月16日被谷歌收购。Freebase致力于打造一一个允许所有人快捷访问的开源知识库。目标包含19亿三元组,提供了多种语言的查询接口
Wikidata是一个人人可编辑的知识库。其核心概念是entity,可以指一一个现实中的对象或一个抽象概念。每个tem都有标签(label) 、描述(description) 、别名(aliases)使不同的item得以区分。而item中的具体数据被称为statement,一个item可以有许多statement. statement的具体结构图中已经表示的很明白了,由属性 (property)、数值(value) 、修饰成分(qualifier) 、参考资料(reference)等部分组成。
ZhiShi.me是以百度百科,互动百科,维基百科中文部分为基础构建的中文知识图谱。
CN-DBpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科。CN-DBpedia主 要从中文百科类网站(如百度百科互动百科、中文维基百科等)的纯文本页面中提取信息,经过滤、融合、推断等操作后,最终形成高质量的结构化数据,供机器和人使用。
CN-DBpedia自2015年12月份发布以来已经在问答机器人、智能玩具.、智慧医疗、智慧软件等领域产生数亿次API调用量。CN-DBpedia提供全套API,并且免费开放使用。大规模商务调用,提供由IBM、华为支持的专业、稳定服务接口。
提高搜索精度
语义搜索
搜索意图理解多模态搜索辅助搜索精准回答提高问答精度
改善问答体验
引导对话走向多轮对话收集和整理数据
建立数据间关联
知识挖掘知识发现知识推理知识图谱辅助自然语言理解辅助各种AI场景广泛用于国防、金融、制造、商务、政府●集成异构数据源 知识图谱构建基于分布和异构数据源 知识图谱的图模型是对异构数据的一种灵活集成 ●描述数据间的关联 实体关系 事件 ●实现实体链接 建立知识和实体间的桥梁 更理智的智能 ●大规模知识推理 发现隐含的知识 可解释的智能(可推理数据缺失/稀疏,任重道远)
百度的3类知识图谱
实体图谱(entity graph):用于精准回答关注点图谱(attention graph):用于文本理解意图图谱(intentgraph):用于对话百度知识图谱技术
JCA12017最杰出论文奖 Foundations of Declarative Data Analysis Using Limit Datalog Programs
描述性数据(知识)分析的逻辑基础
AAAI2017杰出 论文奖
Label-Free Supervision of Neural Networks with Physics and Domain Knowledge
先验领域知识可提高卷积神经网络的训练效率 PROMPT: Algorithm and Tool for Automated Ontology Merging and Alignment (AAAI 2000)知识(本体)融合的开创性工作IJCA] 2017早越论又奖 BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network多语言的语义网络 -YAGO2: A spatially and temporally enhanced knowledge base from WikipediaYAGO2是YAGO的扩展版,增加了时空知识IJCAI2018卓越论文奖 -From Conjunctive Queries to Instance Queries in Ontology-Mediated Querying本体查询 -Commonsense Knowledge Aware Conversation Generationwith Graph Attention将大规模常识知识图谱用于对话生成
这部分主要将一个概述,后面会对其中重要内容作补充,同时当过完笔记的时候建议把论文读一下