推荐序
杨强教授嘱我为其和陈凯教授的新作《隐私计算》作序,深感荣幸,欣然允之。杨教授是大数据和人工智能领域的国际知名学者,特别是近年来作为“联邦学习”理念的倡导者和先行者之一,做出了很多杰出的工作。我曾拜读过其著作《联邦学习》并撰写了一段推荐语。著作中,杨教授既呈现了深厚的学术造诣,又展示了高超的文字驾驭能力,深入浅出,分享了他及其团队在产业界一线实践的宝贵经验,使著作兼具很强的可读性、知识性和实用性,给我留下了深刻的印象。
我自己主要从事软件技术领域的研究工作,在安全和隐私保护领域实属外行。就大数据而言,我和团队主要致力于面向大数据的软件技术研究,专注于系统软件和工具层面。近几年,我自己也比较关注数据治理体系建设方面的工作,有一些心得。拜读《隐私计算》,我更多的是站在学习者的视角,收获颇丰。这里,我仅从大数据治理的维度,分享若干认识和思考。
当今时代,人类数字文明正在拉开帷幕,数字化转型已成为时代大势。在我国,建设数字中国、发展数字经济、实施国家大数据战略已成为国家的战略选择。“大数据”正是这个时代呈现的独特现象!数据作为基础性战略资源的地位日益凸显,已形成充分共识;数据作为核心生产要素的角色基本确立,正引发各界关注和研究。我理解,在强化数据安全和保护个人隐私的前提下,追求数据价值的最大化释放是这个时代应有之义。数据价值的充分释放源于多源(元)数据的碰撞融合,基于数据的开放、共享和流通,赖于健康的大数据产业生态。然而,要发挥大数据的作用、做大做强大数据产业、更好地实施国家大数据战略,大数据治理体系的建设就成为重要保障。针对大数据治理的研究和实践现状,我提出了一个治理体系的“434 模型”,即在国家、行业、组织等三个层次,针对数据资产地位确立、管理体制机制、数据共享开放、安全与隐私保护等四方面内容,基于制度法规、标准规范、应用实践、支撑技术等四类方法手段,构建大数据治理体系。就我的认识,《隐私计算》一书正是针对其中的一项非常重要内容的技术手段的探索!
隐私计算是近年来发展迅速,同时关注度和活跃度很高的一个研究领域。隐私计算以密码学为理论基础,融合统计学、人工智能、大数据、计算机系统,以及法律、伦理学等多个学科,形成了一系列理论和技术。隐私计算的目的是有效挖掘数据中的价值,同时不侵害数据本身的安全和隐私,实现“数据可用不可见”,从而支持数据的可信共享和流通。从这个意义上看,隐私计算将会是大数据治理体系中非常有前景的核心支撑技术之一。
本书呈献给读者的是兼顾广度和深度的关于隐私计算的系统性介绍:从广度上看,涵盖了隐私计算的基础理论和关键技术,如秘密共享、同态加密、不经意传输、混淆电路、差分隐私、联邦学习和可信执行环境等,介绍了多个知名的隐私计算平台,并辅以大量产业界的应用案例;从深度上看,本书对现有隐私计算技术及其在应用中存在的问题进行了深入分析,并分享了解决这些问题的思路。特别地,本书从不同应用案例的特点出发,分析了相关技术的适用范围和场景,方便读者理解这些技术各自的优点和局限性,对实践者而言也具有很高的参考价值。我非常高兴地看到,这本书兼具理论价值和实用价值,是隐私计算领域的一部优秀著作。可喜可贺!
本书可作为计算机科学、大数据和人工智能等相关专业的学生,以及对隐私计算感兴趣的相关从业人员的入门参考书,也适合相关方向的研究人员,以及在工业界进行程序开发且有隐私保护需求的工程人员阅读。
相信本书能为推动我国大数据和人工智能领域人才培养、产业发展和生态建设做出积极贡献。
是为序。
梅宏
辛丑年孟冬于北京
前言
身处“数据时代”,如何有效挖掘数据中蕴藏的智能而不侵害数据本身的隐私和安全,是我们推动社会进步和生产力发展需要共同思考和实践的一个课题。隐私计算的本质就是在实现“数据可用不可见”这一目标的过程中产生的一系列理论和技术。
从二十世纪七八十年代诞生的基于隐藏部分信息来保护数据隐私的安全多方计算理论,到近年来围绕“数据不动模型动”理念发明的联邦学习技术,隐私计算的发展已经历40 余年。在这个进程中,产生了大量的理论、算法、协议和技术,例如秘密共享、混淆电路、不经意传输、差分隐私、同态加密和可信执行环境等,也融合了多个学科知识,包括密码学、统计学、人工智能和计算机体系结构等。同时,隐私保护技术近年来也被逐步应用到越来越多的任务(如数据分析、数据库、机器学习)和场景(如金融、医疗、政务)之中,对这些行业的发展起到了一定的积极推动作用。
然而,我们观察到,目前尚未有一本相对全面且系统地介绍隐私计算理论、技术和应用的图书。相关的研究成果和实践经验大多分散在学术论文、会议报告、技术博客和白皮书之中,还未构成一个相对完整的知识体系。这在一定程度上影响了隐私计算的学科发展和应用普及。我们在与许多老师、同学及相关行业从业者的交流中也有所体会:
• 在一次由中国计算机学会举办的隐私保护机器学习学科前沿讲习班上,我们分享了一个题为《隐私计算理论和效率》的讲座。班上学员大多是来自国内各高校的老师和同学,他们对这个主题非常感兴趣。三个小时的课堂讨论很激烈,课后也有不少学员问了许多问题。从这些提问中我们可以观察到,尽管大家对隐私计算很有热情,但理解还处在相对初级、碎片化的阶段,对隐私计算涵盖的范围、分类相对模糊,对隐私计算各个具体技术的性质、性能、优缺点,以及在实际平台和应用中的使用情况也相对陌生。
• 在推进产学研落地的过程中,我们遇到不少对隐私计算既热情又陌生的群体或机构。香港科学园就有这样的一个例子,他们拥有十几家机构的数据,希望赋能园区内几百家科创企业,但又有泄露数据隐私的担忧。了解到联邦学习能够在保护数据隐私的情况下推进人工智能应用,他们就找到了我,问了许多问题,例如:联邦学习的原理是什么,为什么能保证数据不被泄露,若搭建一个联邦学习平台需要什么样的设备,能支持多少客户,需要多少预算,项目周期大概多久,等等。从聊天中可见,他们对隐私计算很好奇,但充满疑惑。
在国外,有一本叫A Pragmatic Introduction to Secure Multi-Party Computation的书,于今年夏天刚刚被翻译成《实用安全多方计算》引入国内,但该书的内容专注于安全多方计算理论,缺少对联邦学习技术和可信硬件计算技术的阐述和分析,所以还未能构成完整的隐私计算知识体系。此外,该书也没有包含近年来出现的前沿隐私计算平台、隐私保护落地实践案例等,对“产学研”落地的指导意义相对有限。
因此,为构建一个相对完整的隐私计算知识体系,并对其科研落地产生一定的指引,我们编写了这本书。从决定要写到成稿,只用了短短六个多月的时间。香港科技大学智能网络与系统实验室(iSING Lab)的很多同学都参与到了这个过程中,我们阅读整理了大量的研究文献和参考资料,其中也包括一些我们自己发表的相关学术论文,努力用较为通俗易懂的语言讲解隐私计算的基础知识和技术、隐私计算平台、隐私计算落地案例。最后,我们展望了隐私计算的未来,也特别邀请了观韬中茂律师事务所王渝伟和陈刚两位律师帮助解读当前最新的中国数据安全法规,希望对读者有所启发。
如上所述,我们希望通过这部《隐私计算》为学术界和产业界构建一个相对完整的隐私计算知识体系。同时,我们也深知,本书的内容可能并不能包含隐私计算的每个方面,或许与一部“隐私计算全书”还有一定的距离;尽管如此,我们仍希望在这条路上迈出坚实的第一步。
本书主要内容
本书内容大致分为层层递进的三个部分:
第一部分:隐私加密计算技术(第2~5 章)。该部分旨在用通俗的语言介绍各种与隐私加密计算和隐私保护计算相关的各种密码学技术,包括秘密共享、同态加密、不经意传输和混淆电路。这些密码学技术是实现隐私计算的基石。每个章节包含相应的技术基础知识和简单的应用举例。
第二部分:隐私保护计算技术(第6~8 章)。该部分旨在介绍除密码学技术之外的隐私保护计算技术,这部分技术脱离出隐私加密计算的密码学范畴,在更加广泛的技术和应用场景下研究计算过程中对数据隐私的保护、管理与度量的可能性,包括差分隐私、可信执行环境和联邦学习。
第三部分:隐私计算平台和实践案例(第9~10 章)。介绍基于以上隐私计算技术构建的隐私计算平台,主要包括面向联邦学习的FATE 平台和加密数据库的CryptDB 系统等五个平台。同时,也介绍了隐私计算平台的效率问题和常见的加速策略。在实践案例部分,主要介绍包括金融营销与风控、广告计费、广告推荐、数据查询、医疗、语音识别及政务等领域的应用案例。
此外,第11 章展望了隐私计算未来的研究和落地方向。最后,附录中提供了当前最新的中国数据保护法律概况。
致谢
为协助完成本书的撰写,一群非常优秀的博士研究生、学者和工程师付出了大量的时间和精力。在此,我们首先感谢以下参与各章节编写的同学:
• 第2 章:杨柳,柴迪。
• 第3 章:田晗,金逸伦。
• 第4 章、第5 章:任正行,金逸伦。
• 第6 章:金逸伦,田晗。
• 第7 章:张骏雪,任正行。
• 第8 章:金逸伦,任正行。
• 第9 章:程孝典,胡水海。
• 第10 章:柴迪,杨柳,任正行,田晗,郭昆,陈天健。
此外,在编写过程中我们参阅了大量的著作和相关文献,在此对这些著作和文献的作者一并表示感谢。由于水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。
最后,我们要感谢家人对我们的理解与支持!
陈凯,杨强
2021 年12 月,中国香港