知识图谱:概念与技术(博文视点出品)pdf下载pdf下载

知识图谱:概念与技术(博文视点出品)百度网盘pdf下载

作者:
简介:本篇主要提供知识图谱:概念与技术(博文视点出品)pdf下载
出版社:
出版时间:2019-11
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

编辑推荐

适读人群 :本书可作为高年级本科生、硕士生或者博士生的教材,也适合企业与行业智能化的从业人员阅读。

· 有深度也有广度,力求涵盖知识图谱相关的基本概念与关键技术。

· 梳理前沿成果,总结了十多个知识图谱工程项目的落地经验。

· 写作团队成员均为国内知名高校和研究所AI相关专业教师和研究员。

· 内容历经一年打磨,并曾在多所高校试讲,根据听众反馈迭代改进。


内容简介

知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。知识图谱也成为大规模知识工程的代表性实践,其学科日益完善。

本书是一本系统介绍知识图谱概念、技术与实践的书籍。全书共5篇,由16 章构成,力求涵盖知识图谱相关的基本概念与关键技术。“基础篇”介绍知识图谱的基本概念、内涵与外延、历史沿革、应用价值,以及相关的基础知识。“构建篇”重点介绍大规模高质量知识图谱的自动化构建技术,涵盖词汇挖掘、实体识别、关系抽取及概念图谱构建、百科图谱构建、众包构建与质量控制等专题。“管理篇”系统地阐述了知识图谱建模与存储、查询与检索,以及图数据管理系统。“应用篇”对于基于知识图谱的关键应用技术展开介绍,包括搜索与推荐、自然语言问答,以及基于知识图谱的自然语言理解。“实践篇”介绍知识图谱实践中的基本原则和有用实践,初步讨论了知识图谱实践中的开放性问题。

本书可作为高年级本科生、硕士生或者博士生的教材,也适合企业与行业智能化的从业人员阅读。


作者简介

肖仰华

博士,复旦大学教授、博士生导师、复旦大学知识工场实验室创始人。曾担任多家企业高级技术顾问与首席科学家。曾获得十多个国家、省/市、企业级的研究奖项,曾承担三十多项国家、省/市、企业级研发项目。在*级学术会议与期刊(包括SIGMOD、VLDB、ICDE、IJCAI、AAAI、ACL、TKDE等)发表论文百余篇,授权近20项知识图谱专利。担任多个国际期刊编委,百余次为国际/国内学术机构/会议提供学术服务工作。领导构建了知识工场平台,发布了一系列知识图谱包括CN-DBpedia、CN-Probase等。


目录

第1篇 基础篇

第1章 知识图谱概述... 2

1.1 知识图谱的基本概念... 2

1.1.1 知识图谱的狭义概念... 3

1.1.2 知识图谱的广义概念... 8

1.2 知识图谱的历史沿革... 10

1.2.1 知识图谱溯源... 10

1.2.2 大数据知识工程... 13

1.3 知识图谱的研究意义... 16

1.3.1 知识图谱是认知智能的基石... 16

1.3.2 知识引导成为解决问题的重要方式之一... 19

1.4 知识图谱的应用价值... 20

1.4.1 数据分析... 20

1.4.2 智慧搜索... 21

1.4.3 智能推荐... 22

1.4.4 自然人机交互... 23

1.4.5 决策支持... 23

1.5 知识图谱的分类... 24

1.5.1 知识图谱中的知识分类... 25

1.5.2 知识图谱的领域特性... 26

1.5.3 典型知识图谱... 30

本章小结 38

思考题... 39

参考文献 40

第2章 基础知识... 43

2.1 概述 43

2.2 知识表示... 45

2.2.1 基本概念... 45

2.2.2 知识图谱的图表示... 47

2.2.3 知识图谱的数值表示... 49

2.2.4 其他相关知识表示... 54

2.3 机器学习... 64

2.3.1 机器学习的基本概念... 65

2.3.2 深度学习概述... 67

2.3.3 卷积神经网络... 70

2.3.4 循环神经网络... 71

2.3.5 注意力机制... 72

2.4 自然语言处理... 73

2.4.1 基本概念... 74

2.4.2 文本的向量化表示... 76

本章小结 78

思考题... 79

参考文献 80

第2篇 构建篇

第3章 词汇挖掘与实体识别... 84

3.1 概述 84

3.2 领域短语挖掘... 86

3.2.1 问题描述... 87

3.2.2 领域短语挖掘方法... 88

3.2.3 统计指标特征... 91

3.3 同义词挖掘... 95

3.3.1 概述... 95

3.3.2 典型方法... 96

3.4 缩略词抽取... 101

3.4.1 缩略词的概念与形式... 101

3.4.2 缩略词的检测与抽取... 103

3.4.3 缩略词的预测... 105

3.5 实体识别... 109

3.5.1 概述... 109

3.5.2 传统的NER方法... 110

3.5.3 基于深度学习的NER方法... 114

3.5.4 近期的一些方法... 120

本章小结 121

思考题... 122

参考文献 122

第4章 关系抽取... 127

4.1 概述 127

4.1.1 关系抽取的问题和方法分类... 128

4.1.2 关系抽取常用数据集... 130

4.1.3 关系抽取评估方法... 131

4.2 基于模式的抽取... 133

4.2.1 基于字符模式的抽取... 134

4.2.2 基于语法模式的抽取... 135

4.2.3 基于语义模式的抽取... 135

4.2.4 自动化模式获取:自举法... 136

4.2.5 基于模式抽取的质量评估... 138

4.3 基于学习的抽取... 139

4.3.1 基于监督学习的关系抽取... 140

4.3.2 基于远程监督学习的关系抽取... 142

4.3.3 基于深度学习的关系抽取... 144

4.4 开放关系抽取... 150

4.4.1 TextRunner 151

4.4.2 ReVerb. 152

4.4.3 Ollie. 154

本章小结 154

思考题... 156

参考文献 157

第5章 概念图谱构建... 160

5.1 概述 160

5.1.1 常见的概念图谱... 163

5.1.2 概念图谱的应用... 166

5.2 isA关系抽取... 168

5.2.1 基于在线百科的方法... 169

5.2.2 基于模式的方法... 170

5.2.3 中文概念图谱的构建... 172

5.3 isA关系补全... 175

5.3.1 isA关系缺失的成因... 176

5.3.2 基于isA关系传递性的概念图谱补全... 177

5.3.3 基于协同过滤思想的概念图谱补全... 179

5.4 isA关系纠错... 181

5.4.1 错误的成因... 182

5.4.2 基于支持度的纠错... 183

5.4.3 基于图模型的纠错... 184

本章小结 185

思考题... 186

参考文献 187

第6章 百科图谱构建... 189

6.1 概述 189

6.1.1 什么是百科图谱... 189

6.1.2 百科图谱的意义... 190

6.1.3 百科图谱的分类... 191

6.2 基于单源的百科图谱构建... 192

6.2.1 数据获取... 193

6.2.2 属性抽取... 195

6.2.3 关系构建... 200

6.2.4 概念层级体系构建... 201

6.2.5 实体分类... 201

6.3 基于多源的百科图谱融合... 207

6.3.1 基于多个知识图谱的融合方法... 207

6.3.2 基于多源异构数据的融合方法... 215

本章小结 216

思考题... 217

参考文献 217

第7章 知识图谱的众包构建... 221

7.1 概述 221

7.2 知识型众包的基本概念... 223

7.3 知识型众包研究的问题... 226

7.3.1 What(对什么任务进行众包)... 226

7.3.2 Whom(将任务交予谁完成)... 229

7.3.3 How(如何完成众包)... 230

7.4 基于众包的知识图谱构建与精化... 235

7.4.1 本体构建阶段的人工介入... 235

7.4.2 知识图谱构建阶段的人工介入... 237

7.4.3 知识图谱精化阶段的人工介入... 242

本章小结 244

思考题... 245

参考文献 246

第8章 知识图谱的质量控制... 250

8.1 概述 251

8.1.1 知识图谱质量评估的维度... 251

8.1.2 知识图谱质量评估的方法... 253

8.1.3 知识图谱质量控制全周期概览... 254

8.2 缺失知识的发现与补全... 260

8.2.1 类型补全... 260

8.2.2 关系补全... 263

8.2.3 属性值补全... 268

8.3 错误知识的发现与纠正... 270

8.3.1 错误实体类型检测... 271

8.3.2 错误实体关系检测... 271

8.3.3 错误属性值检测... 273

8.4 过期知识的更新... 274

8.4.1 基于更新频率预测的更新机制... 275

8.4.2 基于时间标签的更新机制... 276

8.4.3 基于热点事件发现的更新机制... 277

本章小结 278

思考题... 279

参考文献 280

第3篇 管理篇

第9章 知识图谱的建模与存储... 286

9.1 概述 286

9.2 知识图谱的数据模型... 287

9.2.1 知识图谱的三元组模型... 287

9.2.2 知识图谱的图模型... 291

9.3 知识图谱的物理存储... 296

9.3.1 知识图谱数据的基本操作... 296

9.3.2 知识图谱的关系表存储... 297

9.3.3 知识图谱的图存储... 302

9.3.4 分布式计算环境下的知识图谱数据存储... 305

本章小结 309

思考题... 310

参考文献 310

第10章 知识图谱的查询与检索... 314

10.1 概述 314

10.2 查询语言:SPARQL. 315

10.2.1 简单查询... 315

10.2.2 SPARQL查询机制及知识图谱上的推理... 321

10.3 子图查询... 324

10.3.1 子图查询基本知识... 324

10.3.2 近似子图查询... 326

10.3.3 Top-k查询... 331

10.3.4 索引结构... 334

10.4 其他查询... 335

10.4.1 路径查询... 335

10.4.2 关键词查询... 337

10.4.3 社团搜索... 339

本章小结 342

思考题... 343

参考文献 343

第11章 图数据管理系统... 347

11.1 概述 347

11.2 知识图谱与图数据管理系统... 348

11.2.1 大图管理的挑战... 350

11.2.2 图数据管理系统的重要性... 352

11.2.3 图数据管理系统管理知识图谱的挑战... 354

11.3 图数据管理系统的基本架构和设计原则... 357

11.4 典型的图数据管理系统... 360

11.4.1 通用图数据管理系统... 361

11.4.2 知识图谱专用图数据管理系统... 364

11.4.3 图数据管理系统使用实例... 366

本章小结 370

思考题... 371

参考文献 371

第4篇 应用篇

第12章 基于知识图谱的语言认知... 374

12.1 概述 375

12.1.1 语言理解的挑战... 375

12.1.2 语言理解需要知识图谱... 376

12.1.3 语言理解的任务... 377

12.2 实体理解... 378

12.2.1 基本模型... 379

12.2.2 局部实体链接分数... 380

12.2.3 全局实体链接分数... 381

12.2.4 模型计算... 382

12.2.5 短文本实体链接... 388

12.2.6 跨语言实体链接... 389

12.3 概念理解... 391

12.3.1 单实例概念理解... 391

12.3.2 多实例概念理解... 393

12.3.3 短语概念理解... 395

12.3.4 关系对概念理解... 397

12.3.5 概念理解应用举例... 398

12.4 属性理解... 399

本章小结 401

思考题... 402

参考文献 402

第13章 基于知识图谱的搜索与推荐... 405

13.1 概述 405

13.2 基于知识图谱的搜索... 408

13.2.1 搜索概述... 408

13.2.2 搜索意图理解... 411

13.2.3 目标查找... 413

13.2.4 结果呈现... 413

13.2.5 实体探索... 414

13.3 基于知识图谱的推荐... 419

13.3.1 推荐的基本问题与挑战... 419

13.3.2 基于知识图谱的物品画像... 422

13.3.3 基于知识图谱的用户画像... 427

13.3.4 基于知识图谱的跨领域推荐... 429

13.3.5 基于知识图谱的可解释推荐... 432

本章小结 433

思考题... 435

参考文献 435

第14章 基于知识图谱的问答... 438

14.1 概述 438

14.1.1 问答系统... 438

14.1.2 KBQA.. 441

14.2 基于模板的KBQA.. 449

14.2.1 基于模板的意图识别... 449

14.2.2 基于模板的属性关联... 451

14.3 基于图模型的KBQA.. 453

14.3.1 监督学习方法... 453

14.3.2 无监督方法... 455

14.4 基于深度学习的KBQA.. 457

14.4.1 表示学习... 458

14.4.2 分类模型... 459

14.4.3 生成模型... 461

本章小结 462

思考题... 463

参考文献 464

第5篇 实践篇

第15章 知识图谱实践... 468

15.1 概述 468

15.1.1 知识图谱应用的推动力... 469

15.1.2 知识图谱应用与产业现状... 471

15.1.3 知识图谱实践的系统工程观念... 472

15.1.4 知识图谱助力行业智能化的演进路径... 474

15.2 知识图谱系统... 476

15.2.1 知识图谱系统的外部环境... 476

15.2.2 知识图谱系统的关键要素... 477

15.2.3 知识图谱系统的典型架构... 479

15.3 知识图谱工程... 485

15.3.1 基本原则... 486

15.3.2 过程模型... 489

15.3.3 可行性分析... 491

15.3.4 实践建议... 495

本章小结 499

思考题... 499

参考文献 500

第16章 开放性问题... 501

16.1 知识表示... 501

16.1.1 与其他知识表示相联合的语义增强... 501

16.1.2 过程语义增强... 502

16.1.3 时空语义增强... 503

16.1.4 跨模态语义增强... 504

16.2 知识获取... 504

16.2.1 低成本知识获取... 505

16.2.2 复杂知识的获取... 506

16.2.3 知识获取中的人机协作与评测... 508

16.3 知识应用... 509

16.3.1 知识图谱上的推理... 509

16.3.2 符号知识增强机器学习... 510

16.3.3 基于知识图谱的可解释人工智能... 511

16.3.4 知识图谱的个性化问题... 511

本章小结 512

思考题... 513

参考文献 513


前言/序言


自2012年Google发布知识图谱以来,知识图谱技术飞速发展,其理论体系日趋完善,应用效果日益明显。在知识图谱技术的引领下,知识工程新的历史篇章——大数据知识工程已初具轮廓;在知识图谱技术的推动下,各行各业的智能化升级与转型的宏伟画卷正逐步展开。回溯半个多世纪,以物理符号系统为代表的人工智能符号主义理论思潮与以专家系统建设为核心的知识工程实践相得益彰、大放异彩。再回溯到2000多年前,追根溯源,古希腊哲学三贤开创了伟大的逻辑思维时代,其思想直接或间接地影响了从符号主义到知识工程再到知识图谱的历史延承与发展。

发生在当下的以大数据、人工智能为代表的一系列技术革命很可能是人类诞生以来最为宏大也是影响最为深远的技术革命。站在当下这一重要时间节点,回望过去,展望未来,每个亲历者都不免心潮澎湃,感慨时代变迁之伟大,个人沉浮之渺小。然而,伟大的时代往往是由星星点点的思想与细小而坚实的实践铸就而成的。本书就是这样一支涓涓细流,愿其最终汇入时代的大江大河。

从鸦片战争时国门被迫打开,到五四运动时民众自发觉醒,再到新中国成立后西方优质思想被积极引进,西学东渐的进程绵延不绝、持续至今。直到今天,我们对于整个西方思想的吸收与消化仍在进行。在某种程度上,知识图谱技术及其背后的思想也源自西方人工智能思想。在当下中国的知识图谱技术实践过程中,简单地消化与吸收西方人工智能思想已经难以满足国家与社会的发展需求。在越来越多的应用领域和核心技术方面,我们需要来自中国的创新,需要形成中国自身的话语权与主导权。我国各行业的智能化发展对于原创性理论与技术提出了迫切需求,我国的研发不仅需要面向实际问题,更需要足够前沿,才有可能支撑行业的智能化发展。我们必须从西方思想的传声筒转变成自己思想体系的架构者与践行者,言必称西方应该成为过去时。研究环境的这一变化对于本书的编写提出了全新的要求。本书希望在梳理西方思想体系与应用实践的基础之上,对发生在当下中国的一些前沿实践、关键技术、实用方法,以及这些实践背后的思想体系,进行全面的总结,为一线的从业人员、教学人员提供必要的理论与技术论支撑。

可以言说的即是可以思考的,可以思考的问题终究是简单的问题。随着人工智能的发展,越来越多难以言说的“难题”逐渐浮出水面,比如意识难题。突破思维的边界对于解决人工智能难题而言显得日益重要。纵观历史,任何一家之言终究会湮没在历史洪流之中。在此成书之际,笔者提醒读者不要将自己的思维囿于任何一隅,即便某个思潮、某种技术、某个方法在当下如火如荼。如果将人工智能的实现视作一场旷日持久的战争,我们可能还要发起很多次冲锋才能取得这场战争的决定性胜利。而每一次冲锋都将是某一种思想、某一类技术在人工智能发展史中的一次华丽亮相。

肖仰华

2019年11月于复旦大学



前言

近年来,随着知识图谱技术研究与应用的深化,知识图谱技术吸引了来自工业界与学术界的广泛关注。知识图谱领域涌现出大量的理论与技术研究成果,以及一批优秀的工程实践案例。一方面,对于这些理论工作与工程实践,需要进行系统性的梳理;另一方面,随着研究与应用的深入,业界也迫切需要一本系统性的知识图谱教材。鉴于此,本书编写团队投入巨大的资源与精力完成了本书。

本书的内容体系基本成型于2018年8月,从2017年到2019年,其先后两次在复旦大学相关课程中进行讲授,2018年8月和12月其分别在上海财经大学和北京理工大学面向全国公开讲授,累计近千人次完成了课程的学习。从2018年年底至今,本书编写组完成了书稿,并经多轮修改,最终形成大家手中的这个版本。

下面将对本书的编写动机、行文思路、内容架构、内容选择与使用方式等做简要的介绍,以方便读者了解本书的成书背景和使用方式。

编写动机

大量的应用实践需要有专业的图书作为参考和指导,大量的学术成果需要有图书进行系统的梳理,这些是作者团队编写本书的直接原因。除此之外,还有以下几点原因需要说明。首先,知识图谱已经成为一门独立学科,设置在我国新增的人工智能学学科目录下。建设一门新兴学科,首先需要厘清这门学科的知识体系。而完成这一任务的第一步即是编写一本系统性的知识图谱教材。其次,知识图谱作为一门工程学科,其具体方法大都来自计算机或人工智能的其他领域,比如自然语言处理、机器学习、数据库,那么还有什么知识是这些传统技术领域没有涵盖的呢?如果不澄清这一问题,知识图谱图书的编写便是无源之水,我们只需要学习各个分支领域的知识即可;如果不澄清这一问题,知识图谱图书的编写很容易变成言知识图谱之名,行其他技术之实。下面对这一问题进行简要回答。

知识图谱作为一个大规模知识工程,是面向应用落地的,也是系统工程。这两点决定了知识图谱是典型的应用学科。一门面向应用的学科旨在解决现实世界的复杂问题。工程落地中最重要的问题在于选择,在于策略。这就好比厨师做菜,食材原料多种多样,至于每种食材是如何培育出来的,不是厨师主要关心的问题。厨师关心的是如何选择好的食材,如何利用这些好的食材做出可口的菜肴。对于同样的问题,不同的学科有着不同的解法。在当前的技术条件下,哪一个方法能更经济、务实地解决问题,就是我们选择“食材”的最高标准。有了食材之后,如何做成一道美味佳肴,则是摆在厨师面前的第二个问题。此时,策略、过程,也就是菜肴制作的工艺过程,则是决定最终成品质量的关键。因此,我们需要一本系统性的知识图谱图书,讲授技术选型、策略选择、过程优化、系统架构等内容。

也正因此,本书作者在构思以及行文写作时,时刻提醒自己紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科(特别是自然语言处理、语义网与数据库等学科)的差别。如果不能清晰地界定知识图谱与各分支学科的根本不同,毋宁少一本浪费读者时间与金钱的读物。

行文思路

本书的编写力求体现以下基本原则。

重视对过程的阐述。

教学的过程不但需要陈述,更需要解释。有些书强调对结果或者结论的传授,侧重于对知识体系的清晰梳理与知识的高效灌输,但很少顾及学生的学习方式,忽略了对过程的阐述。因此,作者试图在勾勒出知识图谱学科知识体系的同时,尽可能地呈现出相关概念与技术发展的脉络。

重视对架构的叙述。

从人才培养的角度而言,知识图谱的落地不仅需要解决具体问题的工程师,更需要能做出合理抉择与规划的管理性人才,需要熟知人工智能领域各分支技术并能熟练掌握和利用这些技术的综合性人才。知识图谱的知识体系不仅包含模型与算法,更涉及思想与方法、策略与过程。技术细节固然重要,但是对于知识图谱学科而言,对宏观架构的把握更是不可或缺。为此,本书单列出第15章介绍具体技术之外的流程、策略与过程。每章的“概述”部分大多是对于该章内容宏观基本面的介绍,阅读这部分内容能对知识图谱的全貌有基本的把握。

循序渐进、逐步深入。

本书在编写时采取了逐层递进的思路。比如在词汇挖掘、实体识别、关系抽取等很多模块中,都会涉及类似的模型与思路(诸如基于模式的抽取、基于学习模型的抽取等),那么先出现的章节往往侧重于阐述这些问题的基本模型,而当后面的章节再次提及相关模型时,则会进一步深入介绍一些技术细节与数学细节。

问题驱动、应用引领。

全书坚持问题驱动的写作思路,侧重对于问题本身的分析与阐述。从问题出发阐释所需的技术,便于读者明确每个模型、技术、方案所能解决的问题范畴。每章开始的“内容提示”部分会告诉读者,这一章将回答什么问题,其中的概念与技术能够解决怎样的实际问题。

内容架构

全书共五篇,由16章构成,其架构如图1所示,力求涵盖知识图谱相关的基本概念与关键技术。

第1篇 基础篇

包含前两章。第1章介绍知识图谱的基本概念、历史沿革、研究意义、应用价值等。第2章介绍知识图谱所必需的基础知识,主要介绍与知识图谱密切相关的知识表示、机器学习、自然语言处理的基本概念。

第2篇 构建篇

介绍知识图谱的构建。大规模高质量知识图谱的构建是整个知识图谱技术落地的核心,因此也是整本书的重点。本篇的核心是第3章与第4章。在这两章中,我们介绍了知识图谱中知识获取的两个核心问题。其中一个是点的识别与建立,知识图谱中的点可以是词汇与实体,因此第3章重点介绍了词汇挖掘与实体识别。有了知识图谱中的点之后,建立点之间的关系是知识图谱构建的核心问题。为此,第4章主要介绍了关系抽取(从文本中获取关系实例)。

在此基础上,第2篇进一步对两类重要的知识图谱,即概念图谱(第5章)与百科图谱(第6章)的构建展开了具体介绍。这两类知识图谱在知识图谱技术发展历程中有着突出地位,有很多实际应用。最后,第2篇再对其中的两个专题:众包构建(第7章)与质量控制(第8章)展开介绍。当前的知识图谱构建还离不开人,如何把人力用好是第7章的主题。质量控制是知识图谱构建的核心,第8章从质量视角再次盘点整个知识图谱构建的全流程。

可以看出,我们在构建部分浓墨重彩,从构建的关键环节(词汇挖掘、实体识别、关系抽取)、两类重要知识图谱的构建,以及构建的两个专题等三个切面对知识图谱构建进行了全方位的论述。其目的在于向读者立体式地呈现知识图谱构建的完整体系。这也从一个侧面说明了知识图谱知识体系的庞杂。

第3篇 管理篇

介绍知识图谱的建模与存储(第9章)、查询与检索(第10章)以及图数据管理系统(第11章)。这一篇旨在从数据管理的角度系统阐述知识图谱如何建模、如何存储、如何查询、如何检索,以及如何实现系统性的高效管理。

第4篇 应用篇

把知识图谱构建好、管理好的目的还是为了应用好。第4篇对于基于知识图谱的应用技术展开介绍,包括搜索与推荐(第13章)、自然语言问答(第14章)。这些应用本质上都依赖基于知识图谱的自然语言理解,因此这一专题也单独成章(第12章)。

第5篇 实践篇

知识图谱实践有哪些基本原则和最佳实践(第15章),以及在知识图谱应用过程中还存在哪些挑战(第16章),都会在这一篇中回答。

内容选择

本书力求全面介绍知识图谱相关的重要概念与关键技术。选材的第一个考虑因素是内容与知识图谱是否密切相关。本书将知识图谱视作一类大数据驱动的、以自动化知识获取为根本特点的新型知识工程。因此,尽量回避了属于传统知识工程范畴或者其他领域的内容,读者可以参考其他相关图书来学习它们。选材的第二个考虑因素是相关技术能否落地,或者具有落地的可能性。但凡前景不明、尚无明确落地可能性的技术,本书都选择了刻意回避,以免误导读者。本书有两项内容未涵盖,特此说明如下。

第一,知识图谱上的推理尚未单独成章。符号知识的一个重要优点在于可以实现符号化推理,但是知识图谱上的推理在本书中并未以单独一章的篇幅加以介绍,这样的处理出于以下几点考虑。首先,本书对知识图谱上的推理并非完全没有讨论,在书中的知识图谱向量化表示以及知识图谱上的查询语言部分略有涉及。但是基于向量化表示的推理只是一种弱语义的推理,只能用作相关关系推理,无法胜任复杂语义推理任务。也正因此,大部分基于知识图谱表示学习的推理只能用于是否存在关联关系的预测(也就是链接预测)。其次,有些专家曾建议对于传统符号推理展开介绍以弥补这一不足,然而知识图谱作为大数据知识工程的代表有其应有之义,知识图谱不应该盗用基于传统符号的推理。因此,总体上作者倾向于认为知识图谱上的推理还是一个有待深入研究的问题,其在实际应用落地中并未超出传统知识工程的推理范畴,读者可以参考传统符号推理的相关图书。

第二,知识图谱上的结构挖掘尚未单独成章。在很多领域,特别是金融、安全等相关领域,会建立实体之间的关联网络,并通过图结构分析、识别风险因素。一些学者或者从业人员将其归为知识图谱的一种应用。事实上,这一思路是图数据分析、复杂网络分析领域的经典研究问题,早在“知识图谱”一词出现之前其就已经得到广泛研究。只不过因为最近几年各行业大数据准备工作完成,平台基本成型,使得大规模图分析成为可能。因此,本书并未涵盖这一内容。读者若对其感兴趣,可以参考图分析、复杂网络分析相关的专业图书。

使用方式

本书在内容编排上,力求每章均具备独立性,同时各章之间又能组成有机整体。这一编排方式旨在让每章能够独立地解决一类问题,而全书内容又不失系统性与完整性。除了第1章是基础,其他任何一章,读者都可以根据自身情况进行选择性阅读。比如,对于第2章,有相关基础的读者就可以直接跳过。“构建篇”的第3章和第4章是核心,而对于第5章和第6章,读者则可以根据需要进行选择性学习。书中的第7章、第8章、第12章、第16章是相对较新的专题,适合研究生、博士生层次的研讨性教学。这几章的内容很多都还只是一家之言,有着巨大的研究空间。

对于不同的读者群体,本书可以有不同的阅读方式。对于学生群体,高年级本科生可以选择第1~4章、第9章、第10章、第13章、第14章进行学习。对于硕士生或者博士生,则可以进一步阅读第5~8章、第12章、第16章。对于工业界从业人员,完全可以根据自己的业务需要选择感兴趣的内容阅读,比如可以跳过第9章、第10章的技术介绍,直接了解图数据管理系统的使用方法,也就是第11章的内容。知识图谱涉及企业与行业的智能化转型,这将是企业战略决策的重要内容。对于很多从事此类工作的人员而言,急需在尽可能短的时间内对知识图谱的全貌以及知识图谱能解决什么问题有所了解。此类人员可以选择第1章、第3~14章的概述,以及第15章、第16章进行学习。

最后需要说明的是,知识图谱是一门综合性强、涉及多学科的新型交叉学科。不同学科背景的学者看待知识图谱有着不同的视角,很容易得出不同的观点与结论。我们对待知识图谱这样的新兴学科应该秉持开放包容、兼收并蓄的心态,静待时间来检验真理。


致谢

本书是整个编写团队通力合作的结果。全书由复旦大学肖仰华教授策划、组织并负责统稿,共有10位作者参与了本书的编写工作,其分工如下。复旦大学肖仰华教授完成了第1、2、3、4、5、12、15、16章的编写,东华大学徐波博士负责第6章,华东师范大学林欣研究员负责第7章,苏州大学李直旭副教授负责第8章,湖南大学彭鹏博士负责第9章,复旦大学郑卫国研究员负责第10章,微软亚洲研究院何亮博士与邵斌博士负责第11章,复旦大学阳德青副教授负责第13章,上海财经大学崔万云博士负责第14章。此外,复旦大学知识工场实验室的博士研究生梁家卿、刘井平、陈砺寒、蒋思航、蒋海云、陈江捷,硕士研究生王丽、冯桫、周元辅、杜雨燕、陈金栋、程浩、黄君扬对相关章节材料的组织与选编做了大量细致工作。知识工场实验室的其他研究生以及《知识图谱:概念与技术》课程的很多学员对本书给予了很多有益的反馈,在此一并致谢。

肖仰华

2019年11月10日