知识图谱:认知智能理论与实战pdf下载pdf下载

知识图谱:认知智能理论与实战百度网盘pdf下载

作者:
简介:本篇主要提供知识图谱:认知智能理论与实战pdf下载
出版社:电子工业出版社京东自营官方旗舰店
出版时间:2022-06
pdf下载价格:9.00¥


预览


内容介绍

产品特色

编辑推荐

全彩印刷,图解精致:一百余张精美彩图,详细解析数十个知识图谱前沿算法。

理论完备,应用丰富:创新提出知识图谱建模方法论——六韬法及模式设计工程模型。在理论方面,本书深入每个概念、理论和算法的本质,给出推导、解析和阐述,便于读者理解概念与算法背后的逻辑;在应用方面,完整涵盖知识计算、知识推理等方面内容,并系统梳理了三大行业应用场景。

内容全面,结构有序:全面涵盖知识图谱模式设计、构建、存储和应用技术,对应大脑学习、记忆和使用知识的模式,符合在实践中应用知识图谱的通常做法。

各章独立,主题明确:各章主题相对独立,既可以作为行业参考资料,也适合作为高校教材;读者既可以系统性地学习,也可以有选择性地学习知识图谱。


内容简介

知识图谱作为认知智能的核心技术正蓬勃发展。本书系统全面地介绍了知识图谱的核心技术,既有宏观整体的技术体系,也有关键技术和算法细节,内容包括:知识图谱模式设计的方法论——六韬法;知识图谱构建中的实体抽取和关系抽取;知识存储中的属性图模型及图数据库,重点介绍了JanusGraph分布式图数据库;知识计算中的图论基础,以及中心性、社区检测等经典图计算算法;知识推理中的逻辑推理、几何变换推理和深度学习推理,及其编程实例。最后,本书以金融、医疗和智能制造三大行业的应用场景为例,梳理了知识图谱的应用价值和应用程序形态。

本书既适合人工智能行业从业者和研究人员系统学习知识图谱,也适合一线工程师和技术人员参考使用,并可作为企业管理人员、政府人员、政策制定人员、公共政策学者的参考材料,以及高等院校计算机、金融和人工智能等相关专业师生的参考资料和培训学校的教材。


作者简介

王文广,浙江大学计算机科学与技术硕士,高级工程师,知识图谱与认知智能领域知名专家。

现任达观数据副总裁,专注于自然语言处理、知识图谱、图像与语音分析、认知智能、大数据和图分析等方向的技术研究、产品开发和产业应用,为金融、智能制造、医疗与生物医药、半导体等行业提供认知智能产品和技术服务。

现为上海市人工智能技术标准化委员会委员,上海市科学技术委员会评审专家、人工智能领域标准编制专家,CCF 高级会员,CIPS语言与知识计算专委会委员,CAAI深度学习专委会委员。主导或参与过百余个人工智能科学研究和产业应用项目,曾获得国际、国内多个算法竞赛奖项,申请人工智能领域国家发明专利数十项,并参与编制人工智能领域的多个国家标准、行业标准和团体标准。


内页插图

精彩书评

知识图谱是人工智能领域的前沿技术方向,在许多行业具有广泛的应用前景。本书系统介绍了知识图谱基础理论方法,同时提供了丰富的应用实例和代码,真正做到了理论与实践兼顾,对相关领域从业者具有很高的参考价值。

万小军

北京大学王选计算机研究所教授

中国计算机学会自然语言处理专委会秘书长


近年来,知识图谱一直是各通用搜索引擎及面向企业服务的公有云厂商激烈竞争的焦点之一。在概念和理论上,本书对知识图谱模式、内容构建和存储应用等方面内容覆盖全面且讲解深入;在实用性上,本书探讨了很多在企业界已经得到大规模数据验证的有效方法。因此,不论你是想了解知识图谱领域的理论知识,还是正积极准备在该领域大展拳脚,本书都是你不可错过的参考书之一!

于志伟

Staff Software Engineer,Google Search


近年来,知识图谱得到学术界和工业界越来越多的关注,不仅在大规模知识图谱构建与融合、知识问答与推理、图查询与计算一体化,以及各种可解释图神经网络等方面涌现出大量算法创新,而且在金融、医疗、智能制造等诸多行业产生了井喷式的赋能落地。在这样的大背景下,知识图谱的人才培养及各种配套教材就显得十分重要。

文广是知识图谱领域的资深从业者,不仅具备扎实的理论功底,更难能可贵的是,他在图谱落地过程中积累了很多宝贵经验。因此,当文广第一时间告诉我,他打算撰写一本理论结合实践的图书时,我就百分之百地支持并翘首以待这本新书的出版。最近,我有幸在第一时间阅读了本书的不少章节,发现其内容极其翔实,深入浅出,在呈现各种知识时不忘结合案例。

我真诚地向所有致力于知识图谱工作的研发工程师、在校师生,以及各行各业的从业者和决策者推荐此书,相信大家阅读后一定能对知识图谱的价值、技术趋势和应用案例有更全面的了解,并更好地在工作中运用知识图谱。

王昊奋

同济大学特聘研究员、博士生导师

OpenKG发起人


知识是宝贵的、稀缺的,拥有知识就拥有了竞争力。应用知识图谱这种新的人工智能技术,能够使工程师充分利用企业的集体智慧,提升企业知识的使用效率并激发创新,形成可持续的竞争优势。本书系统介绍了知识图谱技术,既有完备的理论,又很好地融合了作者的实践经验,并提供了大量的应用实例;既是知与行的统一,又是企业应用知识图谱的ji佳参考书籍。

乐承筠

微创投资控股有限公司商业发展与项目管理资深副总裁


从人工智能技术诞生开始,知识表示和推理一直是一个核心课题,但因受限于算力和数据而没有重大突破,直到谷歌提出了知识图谱,并成功将其用于改进搜索质量。从此,知识图谱开始得到业界的关注,并随着深度学习技术的蓬勃发展而突飞猛进,开始在不同行业得到广泛应用。市面上不少介绍知识图谱的书籍,或是偏于理论,或是偏于科普。文广的这本书很好地结合了理论和实践,深入浅出,可以帮助工程师、产品经理、AI技术爱好者等不同行业的人掌握知识图谱的关键技术,并快速用它来解决实际问题,这是一本不可多得的参考书。

Alex Lu

百度商业平台前技术总监

盛大集团前副总裁


知识图谱是人工智能发展的重要基础设施之一。随着知识图谱应用的日益深化,从应用实战角度总结知识图谱的落地经验,对于进一步推广知识图谱技术,以及进一步推动基于知识图谱的行业认知智能发展具有更加重要的意义。本书是作者多年深耕知识图谱行业应用与实践,并持续反思与系统总结的成果,其中不乏犀利独特的视角,多有精彩惊奇的类比。读此书如同与好友品茶论道,愿读者能从中有所启发,有所感悟。

肖仰华

复旦大学教授

知识工场实验室负责人


作为人类知识的z新载体,知识图谱正驱动着人工智能在迈向认知智能的征途中飞速发展。作者以通俗易懂的语言解析了什么是知识图谱,并从全局视角概览了知识图谱技术体系。同时,本书全面介绍了知识图谱构建、存储和应用技术体系,契合人类大脑的知识获取、记忆和使用的方式。

在构建方面,作者以自然语言处理技术为核心介绍了知识抽取;在存储方面,知识图谱的很多技术来源于工程应用实践,本书体现了作者在知识图谱产业中耕耘多年的丰富经验和思考,涵盖了知识图谱构建、存储和应用等方面的内容,理论简炼完备,图示和算法实例丰富,是一本非常实用的知识图谱技术图书,既可以作为高校师生的教科书,也可以作为学术研究和工程应用的参考书。

陈华钧

浙江大学计算机科学与技术学院教授

OpenKG 发起人


知识图谱是认知智能中的一项关键性技术,我们对海量的数据、文本、图像等进行加工提炼,将知识萃取出来填入图网络,并进行充分地挖掘、推理、分析和应用。这个从信息变为数据,然后提炼知识,并最终转化为智慧的过程,有力地促进了人工智能的行业应用。

王文广和他所在的达观数据知识图谱产品团队,一直在负责达观数据知识图谱的产品构建和行业应用,不仅研发了很多图谱算法,也为众多客户解决了工程实践问题。在处理知识图谱落地应用的各类疑难问题中,文广积累了非常丰富的工程实践经验,也对达观知识图谱的产品理念有了更深刻的感悟。在写作本书的过程中,文广仔细查阅了很多行业z新论文,引用了大量相关技术资料,并细致地提供了算法源代码,对大家学习和掌握知识图谱技术有很好的启发。

知识图谱是对人类专家经验的提炼总结,是促进人工智能落地应用的一把金钥匙,是大数据相关产品的核心发动机。我们需要满怀精益求精的底层技术钻研精神、脚踏实地的务实态度,以及一点一滴的积累,才能最终达成知识图谱的成功应用。我相信这也是这本著作创作的初衷和愿景!

陈运文

达观数据董事长

国家“万人计划”专家


本书系统介绍了分布式图数据库的底层逻辑和应用实例;在应用方面,本书不仅完整涵盖知识计算、知识推理等方面的内容,还系统梳理了行业应用场景。

本书内容丰富,视野开阔,语言生动,阅读起来流畅亲切,可见作者王文广先生深厚的技术与文字功底、精湛的专业知识,以及丰富的技术实践。这是一本对知识图谱产业实践非常有价值的教科书及参考书。

陈宏刚

微软亚洲研究院前部门总经理

微软亚洲互联网工程院前资深总监


人工智能正迈向认知智能的发展阶段,而知识图谱为认知智能提供了知识的基础设施,是前沿的技术和研究方向。本书选取了知识图谱核心内容进行讲解,理论和技术体系完整,实践案例丰富。本书通过精粹流畅的语言来描述理论,并配以精心编写的程序实例,为理论与实践搭起了一座桥梁,是一本令人印象深刻的好书,既可作为高校教材,也是工程实践的ji佳参考书。

李涓子

清华大学教授

清华大学人工智能研究院知识智能中心主任


十年前,我就对知识图谱在搜索领域产生的影响十分感兴趣,但一直没有机会学习相关的知识。在阅读此书及与作者的交流过程中,我认识到了知识图谱技术的巨大价值,并学习了相关的实现原理与应用方法。本书系统介绍了知识图谱技术,其中的“六韬法”更是令人耳目一新。书中引用了不少文学典籍,令我十分享受整个阅读过程。推荐大家阅读此书,深入掌握知识图谱。

桑文锋

神策数据创始人兼 CEO

《数据驱动:从方法到实践》作者


这是一本难得的关于知识图谱的经典之作。全书高度概括、专业清晰,读下来受益匪浅。作者以深厚的文化底蕴生动描绘了知识图谱技术框架体系,以及与知识图谱相关技术之间的关系,为读者打开了一扇轻松了解知识图谱的大门。人类正在探索和打造与现实世界平行的数字空间(元宇宙),作为人工智能进步阶梯的知识图谱,展示出越来越丰富的应用前景,为我们带来无尽的发展和想象空间。

郭敏

中国平安集团采购管理中心总经理

中国金融学会金融采购专业委员会专家


这是一本从应用实践视角出发,系统介绍知识图谱技术体系和实战经验的书籍。全书不仅完整地涵盖了知识图谱构建、存储和应用技术,而且梳理了大量的知识图谱应用方法和应用场景。本书语言生动流畅,不少见解令人印象深刻。对学生、企业工程师、行业研究者及决策者来说,这是一本不错的参考书。

黄萱菁

复旦大学计算机科学技术学院教授、博士生导师

自然语言处理领域著名学者


目录

第1章 知识图谱概述 0

1.1 从李白的《静夜思》开始 2

1.2 什么是知识图谱 3

1.3 DIKW模型 6

1.4 从DIKW模型到知识图谱 8

1.5 知识图谱技术体系 9

1.5.1 知识图谱模式设计与管理 11

1.5.2 知识图谱构建技术 11

1.5.3 知识图谱存储技术 13

1.5.4 知识图谱应用技术 14

1.5.5 用户接口与界面 17

1.6 知识图谱辨析 17

1.6.1 知识图谱与自然语言处理 18

1.6.2 知识图谱与图数据库 20

1.6.3 知识图谱与语义网络 20

1.6.4 知识图谱与搜索引擎 21

1.6.5 知识图谱与深度学习 21

1.7 知识图谱是人工智能进步的阶梯 22

1.7.1 明鉴历史 23

1.7.2 预见未来 26

1.8 本章小结 27

第2章 知识图谱模式设计 30

2.1 知识图谱模式 32

2.2 模式与本体 35

2.2.1 本体 35

2.2.2 模式与本体辨析 37

2.3 本体概论 38

2.3.1 本体的构成要素 39

2.3.2 本体分类 40

2.3.3 资源描述框架RDF 41

2.3.4 网络本体语言OWL 42

2.3.5 知名本体介绍 44

2.4 模式设计的三大基本原则 52

2.4.1 赋予一类事物合适的名字 53

2.4.2 建立事物间清晰的联系 54

2.4.3 明确、正式的语义表达 55

2.5 六韬法 56

2.5.1 场景 58

2.5.2 复用 59

2.5.3 事物 63

2.5.4 联系 65

2.5.5 约束 67

2.5.6 评价 71

2.6 模式设计的工程模型 72

2.6.1 瀑布模型 72

2.6.2 螺旋模型 74

2.7 本章小结 76

第3章 实体抽取 78

3.1 实体、命名实体和实体抽取 80

3.2 基于规则的实体抽取 82

3.2.1 基于词典匹配的实体抽取方法 83

3.2.2 编写正则表达式抽取实体 84

3.2.3 基于模板的实体抽取方法 85

3.3 如何评价实体抽取的效果 88

3.4 传统机器学习方法 91

3.4.1 概率图模型 92

3.4.2 朴素贝叶斯模型 93

3.4.3 最大熵模型 95

3.4.4 隐马尔可夫模型 100

3.4.5 条件随机场 102

3.4.6 标记方法 106

3.4.7 用CRF++进行实体抽取 108

3.5 深度学习方法 114

3.5.1 基于深度学习的通用实体抽取框架 114

3.5.2 BiLSTM-CRF模型 117

3.5.3 预训练模型用于实体抽取 122

3.6 弱监督学习方法 134

3.7 本章小结 136

第4章 关系抽取 138

4.1 关系和关系抽取 140

4.2 基于规则的关系抽取方法 145

4.2.1 词法分析与依存句法分析 146

4.2.2 基于语法结构的关系抽取 149

4.3 基于深度学习的关系抽取方法 154

4.3.1 关系分类 154

4.3.2 基于BERT的关系分类 158

4.4 实体-关系联合抽取的方法 161

4.4.1 实体-关系联合抽取方法 162

4.4.2 基于片段预测的实体-关系联合抽取 165

4.5 弱监督学习与关系抽取 171

4.5.1 引导法 171

4.5.2 远程监督 174

4.5.3 弱监督学习与Snorkel 176

4.5.4 Snorkel用于关系抽取 179

4.6 本章小结 184

第5章 知识存储 186

5.1 数据与知识存储 188

5.1.1 数据存储模型 188

5.1.2 知识存储极简史 189

5.2 图数据库模型 193

5.2.1 属性图模型 193

5.2.2 完整性约束 196

5.2.3 事务、ACID与BASE 200

5.2.4 查询语言 202

5.3 JanusGraph分布式图数据库 202

5.3.1 JanusGraph的存储模型 205

5.3.2 JanusGraph的属性图模式 209

5.3.3 事务和故障恢复 220

5.3.4 图查询语言Gremlin 221

5.3.5 JanusGraph和Gremlin入门指南 222

5.4 其他图数据库介绍 235

5.4.1 Neo4j 236

5.4.2 Dgraph 239

5.4.3 NebulaGraph 243

5.4.4 图数据对比一览表 246

5.5 本章小结 248

第6章 知识计算 250

6.1 知识计算及其数学基础 252

6.1.1 知识图谱与图 252

6.1.2 图论 253

6.1.3 邻接矩阵 256

6.1.4 谱图理论 257

6.2 遍历与最短路径算法 258

6.2.1 广度优先搜索 258

6.2.2 深度优先搜索 260

6.2.3 Dijkstra单源最短路径 262

6.2.4 最短路径快速算法 265

6.2.5 Floyd算法 268

6.3 中心性 270

6.3.1 度中心性 270

6.3.2 亲密中心性 272

6.3.3 中介中心性 274

6.3.4 特征向量中心性 279

6.3.5 PageRank 281

6.4 社区检测 284

6.4.1 模块度 286

6.4.2 GN社区检测算法 290

6.4.3 Louvain社区检测算法 291

6.5 知识计算工具与系统 297

6.5.1 图数据库计算框架 297

6.5.2 分布式图计算引擎 298

6.5.3 图分析工具包 298

6.6 本章小结 299

第7章 知识推理 300

7.1 知识的表示与推理 302

7.1.1 因果推理 303

7.1.2 演绎推理 303

7.1.3 归纳推理 304

7.1.4 概率推理 305

7.1.5 知识图谱的推理技术 306

7.2 基于规则和逻辑的知识推理方法 308

7.2.1 基于规则的方法 308

7.2.2 基于逻辑的方法 311

7.2.3 定性时空推理 313

7.3 几何空间嵌入的知识推理方法 316

7.3.1 欧几里得空间的平移变换方法 317

7.3.2 复数向量空间的RotatE模型 330

7.3.3 双曲空间嵌入的知识推理方法 334

7.4 知识推理的深度学习方法 353

7.4.1 卷积神经网络的知识推理方法 353

7.4.2 图神经网络模型 358

7.5 本章小结 368

第8章 知识图谱行业应用 370

8.1 行业知识图谱 372

8.1.1 行业知识图谱的特点 372

8.1.2 行业知识图谱的应用价值 376

8.2 知识图谱行业应用范式 382

8.3 共通的应用程序 385

8.3.1 数据与知识中台 385

8.3.2 可视化与交互式分析 388

8.3.3 智能问答 391

8.3.4 认知推荐 396

8.3.5 辅助决策模型 400

8.4 金融 400

8.4.1 反洗钱和反恐怖融资 400

8.4.2 个人信用评估与风险控制 402

8.4.3 企业风险识别、控制与管理 404

8.4.4 系统性金融风险 406

8.4.5 审计 407

8.4.6 证券分析与投资研究 408

8.4.7 保险 410

8.5 医疗、生物医药和卫生健康 411

8.5.1 基因知识图谱 411

8.5.2 生物医药 412

8.5.3 智慧医疗 414

8.5.4 公共卫生 416

8.5.5 中医药知识图谱 418

8.6 智能制造 418

8.6.1 设计研发 419

8.6.2 质量与可靠性工程 420

8.6.3 设备的管理、维护与维修 422

8.6.4 BOM物料清单管理 425

8.6.5 供应链管理 427

8.6.6 售后服务 428

8.7 本章小结 429


精彩书摘


序一

《知识图谱:认知智能理论与实战》一书深入浅出地介绍了知识图谱的知识,并且指出“知识图谱是人工智能发展的阶梯”。人工智能的目的在于处理知识,有知识图谱这种形式化的知识表示方式作为阶梯,人工智能当然会取得蒸蒸日上的进步。我同意王文广的这个观点。

早在1956年于美国的达特茅斯学院召开的达特茅斯会议上,学者们就提出了“人工智能”的设想,此后人工智能迅速地发展起来。自然语言处理是人工智能的重要研究领域,在自然语言处理的研究中,学者们开始构建自动推理模型对问题进行求解,提出了语义网络、框架、脚本等一系列知识描述的理论和方法。

Sowa等人在1983年提出了“概念网络”,对知识进行描述。根据符号主义的原则,学者们将实体之间的关系局限于“拥有、导致、属于”等特殊的基本关系,并定义了一些在图谱上推理的规则,希望通过逻辑推理的方式实现人工智能。

在这些知识描述理论和方法的基础上,领域专家开始使用人工的方式编写实例数据,建立知识库,这些研究在一些受限的领域获得成功。学者们开始关注知识资源的研究。

互联网出现之后,人们在与自然和社会的交互中创造了大规模的数据,人类社会进入了大数据时代,这些大数据以文字、图片、音频、视频等不同的模态存在。怎样让计算机自动识别、阅读、分析、理解这些庞杂而海量的大数据,从中挖掘出有价值的信息,为用户提供精准的信息服务,成为下一代信息服务的核心目标之一。

2001年,Tim Berners Lee提出了语义网的概念,定义了一种描述客观世界的概念化规范,通过一套统一的元数据,对互联网的内容进行详细的语义标注,从而给互联网赋予语义,把网页互联的万维网(WWW)转化为内容互联的语义网。在语义网思想的影响下,亿万网民协同构建了“维基百科”(Wikipedia),促进了知识资源的迅速增长,使知识类型、覆盖范围和数据规模都达到了空前的水平。

1972年的文献中就出现了“知识图谱”(Knowledge Graph)这个术语。2012年5月,谷歌公司明确提出了知识图谱的概念并构建了一个大规模的知识图谱,开启了知识图谱研究之先河。从此,知识图谱便在自然语言处理的研究中普及开来,成为自然语言处理研究的一个重要内容。

知识图谱用节点(Vertex)表示语义符号,用边(Edge)表示符号与符号之间的语义关系,因而构成了一种通用的语义知识形式化描述框架。在计算机中,节点和边等符号都可以通过“符号具化”(Symbol Grounding)的方式表征物理世界和认知世界中的对象,并作为不同个体对认知世界中信息和知识进行描述和交换的桥梁。知识图谱使用统一形式的知识描述框架,便于知识的分享和学习,因而受到了自然语言处理研究者的普遍欢迎。

自谷歌构建知识图谱,并在2012年发布了包含507亿个实体的大规模知识图谱以来,不少互联网公司很快跟进,纷纷构建各自的知识图谱。例如,微软建立了Probase,百度建立了“知心”,搜狗建立了“知立方”。金融、医疗、司法、教育、出版等各个行业也纷纷建立起各自垂直领域的知识图谱,大幅提高了这些行业的智能化水平。Amazon、eBay、IBM、LinkedIn、Uber等公司相继发布了开发知识图谱的公告。与此同时,学术界也开始研究构建知识图谱的理论和方法,越来越多的关于知识图谱主题的书籍和论文被出版和发表,其中包括新技术及有关知识图谱的调查。知识图谱得到了产业界和学术界的广泛认可和关注。

知识图谱技术的发展有着深厚的历史渊源,它源于对人工智能中自然语言的语义知识表示的研究,并经历了互联网信息服务不断深化需求的洗礼,现在已经发展成为互联网知识服务的核心工具。

以语义网络(Semantic Network)为代表的知识表示的相关理论研究,对互联网智能化信息处理的应用实践,以维基百科为代表的网络协同构建知识资源的创举,这些因素共同推动了知识图谱的进一步发展。

目前,大规模的知识图谱有DBpedia、YAGO、Freebase、Wikidata、NELL、Knowledge Vault等,它们用丰富的语义表示能力和灵活的结构来描述认知世界和物理世界中的信息和知识,是知识的有效载体。

《知识图谱:认知智能理论与实战》一书系统全面地介绍了知识图谱的核心技术,既有宏观整体的技术体系介绍,也深入关键技术和算法细节;既适合作为高等学校人工智能课程的参考资料,也可以作为产业界系统开发的指南。

冯志伟

中国中文信息学会会士

中国计算机学会 NLPCC杰出贡献奖获得者

2022年2月10日



序二

随着数字化日渐成熟,知识图谱的应用正在广泛渗透到C端用户生活的方方面面,比如智能搜索。实际上,“知识图谱”概念最早由谷歌在2012年提出,它能够在反馈正确结果、给出全面总结、更深入广泛探索三大方面优化搜索效果。再比如电商智能推荐,阿里巴巴从2017年开始搭建电商认知图谱,将用户需求表达为图中的节点,并将需求点和电商领域的商品、类目、电商外部的通用领域知识等关联起来,从中挖掘客户的购物偏好和潜在的感兴趣的商品,使客户与商品和场景更好地连接。此外,还有O2O领域线上线下生活场景图谱,以美团为例,美团点评从2018年开始建立基于知识图谱的美团大脑,在客户、线下店铺和商品及不同的消费场景之间构建知识关联,从而优化客户的使用体验。

在B端,知识图谱在企业关联和企业分析方向也有很好的应用。比如对企业的法人或高管、企业之间的投资关系和关联风险进行分析,呈现在图谱上会非常直观。这种方式能够使海量信息以十分有效的方式在短时间内触达使用者。

知识图谱是企业将核心业务竞争能力和隐形数字资产融合形成新发展模式并获得持续竞争优势的关键技术,其应用领域日趋广泛,尤其在金融、医疗、制造等领域应用中发挥了极其重要的作用。王文广的这本书将知识图谱核心内容与深度学习技术融合,体系合理,理论完备,实践丰富,语言深入浅出,是研究与应用知识图谱的优秀参考书。

朱琳

微软人工智能和物联网实验室前首席执行官

微软-仪电人工智能创新院总经理

2022年3月13日


前言/序言

近些年来,我一直在做计算机视觉、自然语言处理和知识图谱等人工智能领域相关的理论研究和产品开发工作,针对不同行业的业务场景,为企业和机构提供智能化的咨询服务和应用系统。同时,我也与颇多的高校和研究所共同合作,与不同研究方向的老师探讨前沿技术和未来的发展方向。这些工作使我有足够多的机会与不同背景、不同行业、不同工作方向和不同诉求的人进行交流,了解他们对人工智能,特别是知识图谱相关的理论、技术和产品应用等方面的看法和观点。这些不同的见解也促使我对知识图谱理论及其应用进行思考,既有面向未来的理论发展方向,也有面向实践的技术落地应用。

在思考的过程中,我萌生了写书的念头,而持续不断的交流与思考则是鞭策我完成本书的原始动力。一方面,编写技术图书能够让我系统地总结前沿技术和应用实践,梳理以往深度思考的结果;另一方面,我也希望通过此书与更多不同行业、不同研究方向的人们进行交流——有关知识图谱与认知智能的前沿研究成果、未来发展方向,以及技术应用实践等。

在有关知识图谱的交流与思考中,我常常会联想到人类自身是如何学习、记忆和使用知识的。事实上,认知智能本身就希望赋予机器像人类一样的认知能力,特别是与人类一样获得知识和应用知识的能力,而知识图谱则是当前认知智能研究的核心。知识图谱构建、存储和应用知识的机制,与人类学习、记忆和使用知识的机制有诸多共通之处。那么,什么是知识图谱呢?

事实上,不同背景的人们对知识图谱的理解大相径庭。比如,有些人认为带标签的搜索是知识图谱,这与他们见过的搜索引擎和知识库的印象相符合,并且更为高级一些;有些人则认为图数据库就是知识图谱,他们通常使用Neo4j 或 JanusGraph 等图数据库来存储数据,并使用Cypher 或 Gremlin 等检索语言实现多跳查询、路径查询等;有些人则认为自然语言处理是知识图谱,他们从语言和文本的角度来看待知识图谱,重点关注了实体抽取、关系抽取、知识的消歧与融合、知识链接、知识问答等;还有一些人认为复杂的逻辑推理才是知识图谱,他们认为知识图谱需要具备时空逻辑演算、一阶逻辑、链接预测等各类规则与算法。

这些角度各异的观点使我想起了我的学生年代。当亲戚和朋友知道我读的是计算机专业时,逢年过节,他们便把电脑的各种疑难杂症都交给我,比如怎么给电脑杀毒、word怎么用、看电影没声音了怎么办、QQ号被偷了怎么找回来、斗地主怎样才能一直赢,问题不一而足。他们可能并不完全清楚计算机专业是做什么的,但问题确实都与计算机专业相关。将这些不同的问题进行扩展、综合、归纳、总结和抽象,也能大致得到一个计算机专业的全景图。同样的,将不同行业、背景和研究方向的人对知识图谱的不同看法进行综合、归纳和抽象,大致就是知识图谱的全貌,也是人们对知识图谱在各自领域和方向的期待。第1章将深入探讨什么是知识图谱。

基于对不同维度的知识图谱的综合,结合神经生物学、认知神经科学和脑科学等学科的粗浅知识,我将知识图谱技术体系的核心总结为知识图谱的构建、存储和应用,对应的正是人们对知识的学习、记忆和使用。如果把知识图谱比作认知智能的大脑,那么构建知识图谱的过程就是人们学习知识的过程,知识图谱的存储系统对应于人类大脑中的记忆系统(海马体—前额叶),而知识图谱的应用系统则对应人们对知识的使用(比如回忆、复杂推理等)。人们可以很自然地将知识的学习和使用分离开来,这也是知识图谱致力于实现的目标。经过类比与思考,我认为类似知识图谱这样的认知方法是实现认知智能的关键。未来的知识图谱形态可能与当前有很大的不同,但应当还是这种将知识的获得和使用相分离的模式。

因此,我对当前基于深度学习的超大模型的能力局限性也有了更为清晰的认识。许多人可能认为类似GPT-3等超大规模深度学习模型的能力非常强大,同时相比于知识图谱所需要的专业知识或领域经验的支撑,其基于巨量训练样本的端到端的应用更加便捷,效果也非常好。确实,如果不考虑成本、应用场景等限制条件,这么说也不算错。但在现实中,这种方式一方面成本过高,不可接受,比如训练一个GPT-3这样的超大规模模型的花费以数千万元计,并且知识是不断更新的(比如原始版本的 GPT-3不存在新冠病毒相关的知识,需要重新加入相关语料进行训练,方可实现相关应用),随时随地重新训练的成本更是天价;另一方面,许多应用场景的样本量非常少,无法支撑超大规模深度学习模型的训练,而人类在学习知识的时候并不需要大量的样本,这也是诸多学者批评深度学习的关键原因之一。

回到知识图谱技术体系本身。试想人们是如何学习知识的,这有助于我们理解知识图谱模式。知识图谱模式是指导知识图谱构建、存储和应用的有效工具,好比人们在学习知识时的大纲——小学、中学及大学中各个不同学科的知识体系。这样的思考促使我更加深刻地认识到知识图谱模式的必要性,我花了许多时间进行实践与思考,并系统总结了与知识图谱模式有关的内容,这些内容体现在第2章中。当然,构建知识图谱所需的抽取工作,包括实体抽取(第3章)和关系抽取(第4章),都属于常规的内容。

在知识图谱的存储系统方面,目前业界所认同的当属图数据库(第5章)。不过,我倒觉得图数据库并非真正实现认知智能时所采用的存储方式,那时的存储系统更可能是深度学习与图数据库的结合,比如图向量数据库、向量图数据库、神经元数据库,或者别的什么。并且,基于存储系统的变革,未来的知识图谱构建技术和应用也会与现在有所不同。在应用层面,本书总结了目前学术研究和行业实践中最常见的方法,分为知识计算(第6章)和知识推理(第7章)进行介绍。知识推理应当是未来认知智能的重点发展方向,也是人类具备强大能力的关键。对于推理理论方面的研究,如果深入本质,则应当是人工智能与认知科学、神经科学、脑科学及哲学等学科的跨学科融合。

事实上,在人类的神经系统和大脑中,知识的学习、记忆和使用并非割裂的,而是有机的一体。同样的,知识图谱的构建、存储和应用也是相互依赖、相互影响的。对于一个具体的应用来说,必然涉及知识图谱的构建和存储,否则应用就是无源之水、无本之木。第8章从实践角度系统总结了行业应用的特点,梳理了金融,医疗、生物医药和卫生健康,以及智能制造三大行业的应用场景。针对知识图谱整体的学术研究还比较少,我在近几年的思考中,认为应当结合人类大脑的情况,将知识图谱的构建、存储和应用作为一个整体进行研究,可能这是真正实现认知智能的一条途径。

上面大致介绍了近年来我对知识图谱的一些思考。知识图谱是认知智能的基石,是现阶段赋予机器一定认知能力的核心技术,但这并不代表未来的知识图谱一定还是现在的知识图谱的样子。知识图谱的前沿理论研究成果、实践应用经验,以及我对知识图谱的思考和总结形成了本书的全部内容。希望本书能够为学术研究和产业落地提供借鉴,为知识图谱乃至认知智能领域的研究人员提供参考,为在产业实践中开发知识图谱系统的工程师提供指导。

“彼节者有间,而刀刃者无厚;以无厚入有间,恢恢乎其于游刃必有余地矣”,祝愿每一位读者都能在知识图谱领域游刃有余!