推荐序
近年来,随着大数据的出现和计算资源的飞速发展,深度学习成为人工智能领域一个重要的研究热点,各种深度学习的模型、算法层出不穷,深度学习也在图像、声音和文本等应用领域取得了众多革命性的突破与进展。图数据是一种具有强大表达能力的数据类型,其应用范围十分广泛,小至纳米级别的蛋白质分子,大到数亿级别的社交网络,都可以很自然地用图数据表示。然而,由于图数据的结构特殊性,给各大应用领域带来深刻变革的深度学习技术并不能直接应用到图数据领域,为了解决这一问题,图深度学习应运而生。
图深度学习旨在研究如何在图上应用深度学习技术,学习优质的图表示,以较好地完成图上的各类任务。到目前为止,图深度学习的研究已经取得了不少重大突破,这些研究成果给图上的任务解决模式带来了巨大变革,并极大地推进了图表示学习和图机器学习的发展。在图深度学习中,各类图神经网络模型在各大计算机相关领域的应用都取得了巨大成功,比如数据挖掘领域中的社交网络分析任务、交通网络预测任务,以及计算机科学领域的程序分析任务等。除此之外,图神经网络模型还为各类跨学科领域的研究带来了革命性的突破,比如生物化学领域的蛋白质性质分析和药物发现任务,以及物理科学领域的系统状态预测任务等。
本书对图深度学习进行了全面系统的介绍,结构清晰,内容丰富,深入浅出。本书共4 篇,包括基础理论、模型方法、实际应用和前沿进展,构成了一个非常全面、系统的知识框架。其内容涵盖了学习图深度学习必须了解的基础知识,图深度学习中经典的模型方法,图深度学习在实际中的应用方法,以及图深度学习的研究热点和前沿进展。同时,本书各章的结构也都非常优美,从背景介绍、理论细节,到实际应用,再到总结与拓展,深入浅出,引人入胜。本书的作者在图深度学习领域耕耘多年,拥有丰富的一线教学和研究经验。本书凝结了作者团队多年的教学及研究心得,极具阅读和学习价值。
本书适合计算机科学、人工智能和机器学习等相关专业各个阶段的学生学习,也可供信息领域相关从业者,包括工程师和研究人员阅读。本书还适合跨学科研究者阅读,可为其领域研究提供有价值的参考。
俞士纶
伊利诺大学芝加哥分校(UIC)计算机科学系特聘教授,国际计算机领域著名学者,ACM/IEEE 会士
前言
图(Graph)经常用来表示包括社会科学、语言学、化学、生物学和物理学在内的很多不同领域的数据。同时,许多现实世界的应用都可以视为图上的计算任务,例如特定地点的空气质量预测可以视为节点分类任务,社交网络中的朋友推荐可以视为链接预测任务,蛋白质性质预测可以视为图分类任务。为了更好地利用现代机器学习模型完成图上的计算任务,有效地学习图的表示至关重要。表示图的特征提取方法一般可分为两种——特征工程和表示学习。特征工程依赖于手工设计的特征,这个过程很费时,而且手工设计的特征对于给定的下游任务通常不是最佳的。相对而言,表示学习可以自动地从图上学习特征,这个过程需要最少的人力并可以灵活适用于给定的下游任务。因此,图上的表示学习被大家广泛研究。
在过去的几十年中,图表示学习领域取得了巨大的进展。这些进展大致可以划分为图表示学习的三个时代,即传统图嵌入、现代图嵌入和图深度学习。传统图嵌入作为第一代图表示学习,是在经典的基于图的降维技术的背景下研究的。传统图嵌入包括IsoMap、LLE 和eigenmap 等方法。Word2vec 是从大量文本中学习词的表示的一种方法,这些生成的词表示已推进了许多自然语言处理任务的进展。Word2vec 在图域的成功扩展开启了第二代图表示学习——现代图嵌入。鉴于深度学习技术在图像和文本领域表示学习中取得的巨大成功,研究者已努力地将其推广到图域,从而开启了图表示学习的新篇章——图深度学习。
越来越多的证据表明,第三代图表示学习,尤其是图神经网络(GNN),极大地促进了包括侧重于节点和侧重于图的各种图上计算任务的发展。GNN 带来的革命性进展也极大地促进了图表示学习在现实场景中的广泛应用。在推荐系统和社交网络分析等经典领域中,GNN 带来了最好的性能并为它们带来新的研究课题。同时,GNN也不断地应用到新的领域,例如组合优化、物理和医疗健康。GNN 的这些广泛应用为研究者提供了不同学科的多种贡献和观点,并使该研究领域真正成为跨学科领域。
图表示学习是一个快速发展的领域,它吸引了来自不同领域研究者的大量关注,并已经积累了大量的文献。因此,现在是系统地调查和总结该领域的好时机,本书的写作动机就是实现这一目标。本书基于笔者在该领域多年的教学和研究经验,旨在帮助研究人员了解图表示学习的基本知识、进展、广泛的应用及研究前沿成果。
全书概要
本书全面介绍了图表示学习,重点讲解图深度学习尤其是GNN。本书由4 篇组成:基础理论、模型方法、实际应用和前沿进展。基础理论篇介绍了图和深度学习的历史背景和基本概念。模型方法篇涵盖的主题包括现代图嵌入、用于简单图和复杂图的GNN、GNN 的健壮性和可扩展性及GNN 之外的图深度模型。其中,每个主题都用一章介绍,内容包括有关该主题的基本概念和代表性算法的技术细节。实际应用篇介绍了GNN 在典型领域的应用,包括自然语言处理、计算机视觉、数据挖掘、生物化学和医疗健康,每个应用领域将用一章介绍。前沿进展篇讨论了涌现的新方法和新的应用领域,每一章最后都包括针对更高级主题和新趋势的扩展阅读,感兴趣的读者可以进一步阅读相关参考文献。
目标读者
尽管图论、微积分、线性代数、概率论和统计学的基本背景可以帮助读者更好地理解书中的技术细节,但本书的目的是尽可能地做到自成体系。因此,本书广泛地适用于具有不同背景和不同阅读目的的读者。本书可以作为学习工具和参考书,供相关研究领域的高年级本科生或研究生学习。希望从事该领域研究的研究人员可以将本书作为起点。项目经理和从业人员可以从本书中学习如何在产品和平台中应用GNN。计算机科学领域以外的研究人员可以从本书中找到大量将GNN 应用于不同学科的示例。
由于编者水平有限,书中不足之处在所难免,肯请广大读者批评指正。
马耀
汤继良
东兰辛,密歇根州
2021 年4 月
致谢
本书在翻译、校对和出版过程中,得到国内外众多专家学者和出版人员的大力支持和帮助,我们衷心地感谢为本书做出了卓越贡献的各位朋友:
感谢为本书撰写推荐序的伊利诺伊大学芝加哥分校的俞士纶教授。
感谢为本书撰写推荐语的多位专家学者,他们是(按照姓氏拼音排序):清华大学崔鹏副教授、国防科技大学刘新旺教授、得克萨斯农工大学姬水旺教授、西蒙弗雷泽大学裴健教授、蒙特利尔大学唐建助理教授、清华大学唐杰教授、康奈尔大学王飞副教授、万人计划国家教学名师殷建平教授、悉尼科技大学张成奇教授、南京大学周志华教授和国防科技大学祝恩教授。
感谢为本书的校对和修改提出宝贵意见的各位老师和同学们,他们是(按照姓氏拼音排序):桂林电子科技大学蔡国永教授及其团队、重庆大学高旻副教授及其团队、中国科技大学何向南教授及其团队、南宁师范大学黄江涛副研究员及其团队、北京理工大学礼欣副教授及其团队、解放军理工大学潘志松教授及其团队、吉林大学王鑫副研究员及其团队、山东大学余国先教授及其团队、南京航空航天大学袁伟伟教授及其团队、国防科技大学周思航老师及博士生涂文轩。
感谢为本书付出巨大努力的电子工业出版社的宋亚东编辑以及全体工作人员。
感谢一直以来关注本书出版进展的热心人士。
感谢正在阅读此书的你。
最后,衷心地感谢我们的亲人挚友,感谢你们一路温暖的相伴、真挚的理解和坚强的支持。
祝大家学有所得,心想事成!
王怡琦,金卫,马耀,汤继良
2021年4月