制定多种匿名化解决方案,覆盖多种应用场景,满足对可识别性的不同要求。
解决方案跟所用数据、数据接收方和分析目标相匹配。
为数据采集模式量身定制匿名化流水线,覆盖不同业务需求。
为原始数据生成匿名化版本或用分析平台生成匿名化输出。
检查匿名数据使用的伦理问题。
Luk Arbuckle是Privacy Analytics公司首席方法官,为负责任地使用和分享数据提供策略指导,为隐私增强技术和方法提供创新。Luk曾担任加拿大隐私专员办公室主任。
Khaled El Emam是Replica Analytics公司合伙人和CEO,该公司致力于开发合成数据。他还是加拿大渥太华大学医学院教授、东安大略儿童医院研究所资深研究员。
目录前言1第1章简介11可识别性12术语介绍13法律法规15数据状态18匿名化作为数据保护措施21许可或同意23目的说明25重识别攻击27匿名化落地31小结34第2章可识别性范围37法律环境37披露风险39披露类型40数据隐私的维度42重识别科学46确定群体48匹配方向51数据结构54总体可识别性57小结59第3章风险管理实用框架61“五个安全”匿名化框架62安全项目65安全人员68安全环境71安全数据74安全输出78“五个安全”框架落地81小结83第4章明识数据85需求收集86应用场景87数据流91数据和数据主体93从主要到次要用途97处理直接标识符99处理间接标识符100从明识到匿名102明识数据和匿名数据相混合105将匿名化应用于明识数据109小结112第5章伪匿名数据113数据保护和法律权威113伪匿名化服务114法定权力116合法权益117匿名化第一步119重新反思“从主要到次要用途”122分析平台123合成数据127生物统计特征标识符133小结135第6章匿名数据137再思考可识别性范围138源头匿名化141汇总匿名数据145从源头采集数据的利弊146从源头采集数据的方法147安全汇总149访问存储数据151反哺源头匿名化151小结153第7章安全使用155信任基础156信任算法158AIML技术159技术难点161信任失控的算法164负责任AIML技术的原则168管理和监督169隐私伦理170数据监控171小结172作者介绍173封面介绍174
前言几年前,我们和O’Reilly公司合编一书。该书研究健康数据匿名化的相关案例,带读者过了一遍匿名数据集的实际生成方法。这些方法覆盖多种应用场景。自打那时起,各数据分析组织,数据用量不断增加,却又面对隐私法案不断演进、日益严苛的形势。他们既希望获得隐私监管组织的信任,又因其收集和处理的数据有的是来源于私企和公民,所以也希望获得其信任。在这样的背景下,数据分析组织对数据匿名化(也称“去标识化”)的兴趣随之增加。写作缘由分享数据,用于数据分析和研究,益处颇多。但与此同时,人们对数据拥有权和数据隐私抱有顾虑,持有不同观点,遂引发辩论,其意义深远。O’Reilly公司在2019年1月2日发布的“数据通信”(https://oreil.ly/TMWre)中透露,O’Reilly雷达捕获到隐私保护和以此为前提的数据分析成为趋势。于是,我们萌生一个想法:写本书指导读者利用可识别性范围(identifiabilityspectrum),实现在多种场景,分离数据和个人身份信息,提升隐私保护力度,且不影响数据使用。本书就是我们为之努力的结果,其中探讨多种端到端解决方案,以削减数据可识别性。我们讲解多种不同数据采集模型和源自真实业务的案例。它们借鉴自人们迫切需要的数据环境的工作,所用方法久经考验。我们经常被问及的核心问题是:如何利用数据,才能既保护个人隐私,又能保证数据粒度足够细,以确保对其分析既有用又有意义。数据分析组织整合匿名化方法,减少可识别性,可创建安全和可复用的匿名化流水线,并以可持续方式,将其整合到自己的数据流和分析工作。我们将介绍多种不同匿名化技术,通过数据泛化、数据抑制译注1或数据随机化等技术,削减可识别性,生成所需数据或统计信息。我们还将介绍这些技术是如何契合“基于风险”方法这一更为宏大的主题,根据数据分享环境,确定数据转换的程度。基于风险方法,旨在用一种更具指导性的决策方法,替代主观评估。该方法可扩展,取舍得当,所得解决方案能确保数据有用且保护充分。该方法利用统计估计量,为决策结果提供客观支持,决策过程更看重经验证据。我们加起来在数据隐私领域有着30年从业经验。我们做过学术研究,开发过培训课程,主持过研讨会,做过演讲,带过高水平研究者、数据科学家和数据从业者团队。关于如何实践隐私保护技术,我们学到很多,并将持续学到更多。我们想把这些知识分享给读者,帮助推进最佳实践,我们想论证数据隐私保护是能做到“双赢”的,就像前任隐私保护专员AnnCavoukian博士在她非常有影响力的“PrivacybyDesign”注2(通过设计保护隐私)概念中所提倡的那样。很多隐私倡导者认为,我们能够而且应该将隐私当作社会财产,隐私保护应予以鼓励甚至可强制推行,并且,我们能够采取切实可行的方法来保护隐私,同时满足当代社会对数据的需求。然而,本书重策略而非理论。请将本书当成你的顾问,遇到匿名化工具和流程的规划和使用问题,尽可咨询它。本书指导你将数据用于不同目的,这些目的可能有别于采集数据的原目的。本书所提供方法,可确保数据不仅丰富,而且其使用合法、有理有据。我们将过一遍不同应用场景,这些场景是根据所分析数据三种迥然不同的可识别性程度而设置的,并提供相关细节,帮你理解一些策略方面的注意事项,这正是数据分析组织努力解决的问题。我们的目标是帮你建立隐私注意事项和技术解决方案之间的联系。本书虽非专著,但还是涉及多个匿名化相关主题。请注意,法律法规的解释因环境而异,遇到相关问题,我们强烈建议你咨询法律和隐私团队!本书所提供资料仅仅是起告知信息的作用,而非向你提供法律咨询服务。我们已给出免责声明,终于可松口气了。目标读者本书构思之际,我们将读者分成两个群体:需要策略支持的读者(主要读者群)和需要理解决策的读者(第二大读者群)。不论在官方机构还是产业界工作,交付数据分析成果,都是数据分析岗位的要求。我们假定读者除了要遵守数据隐私和保护法律外,还准备好利用数据大干一场。而且我们假定他们正在寻找数据访问模式,以便安全和负责任地使用数据。主要读者群(关心如何精心构思愿景,并确保该愿景成功实现):•执行团队:关心如何充分利用数据,如提升效率、获取新洞察力、新品上市,所有这些都是为了拓宽其服务范围并提升服务质量,同时更好地保护数据主体的隐私。这类读者很可能会快速浏览本书内容,以确定其愿景,找到合适的方式,将匿名化融入愿景。•数据架构师和工程师:需将其问题跟解决方案联系起来,以便安全分析数据,并保护数据主体的隐私。他们更可能聚焦于特定细节和注意事项,这些内容有助于决策,并找到其应用场景所需具体方法。第二大读者群(关心愿景的理解和执行方式):•数据分析师和数据科学家:他们想理解数据访问相关决策。作为以细节为导向的群体,其问题远多于本书所提到的!以经验来看,这也许会让他们有兴趣理解更广泛的隐私保护内容(当然是好事)。•隐私专家:他们想为组织的分析职能提供支持。他们虽熟悉隐私保护领域,并有技术背景,但可能还想深入钻研特定章节和注意事项,寻找自己能为应用场景提供什么方式的支持,以发挥其扎实的知识储备,对隐私的深入理解的优势。写本书介绍安全和负责任的数据使用策略,其难点在于如何取得语言和内容范围之间的最佳平衡。本书涵盖隐私、数据科学和数据处理这些主题。尽管我们尝试向读者介绍这些领域一些基本概念,但我们意识到这样做对某些读者可能有难度。我们希望本书将成为一本重要参考书,读者感到内容有用,可深入学习。内容编排本书先带你理解可识别性,根据数据中的可识别特征和攻击的可能性,合理估计聚类结果,从而为理解匿名化打下概念基础。本书用两章的篇幅来完成这一目标,第2章先介绍可识别性范围,以便你理解数据中的可识别性内容。第3章接着给出一个管理框架,解释数据分享环境,理解潜在威胁。我们从数据和环境两个密切相关的方面评估可识别性。可识别性范围,也随之从数据可识别性概念,演进到包括数据和环境在内的大概念。我们在可识别性概念基础上,接着探讨数据处理步骤,创建流水线需要这些步骤。第4章从明识数据和隐私工程概念出发,思考如何设计内置隐私保护功能的系统。特别地,数据用途不同于原采集目的,用该系统处理,可削减数据可识别性。数据持有方既有明识数据又有匿名数据这种情况,我们也会讲到。我们确定明识数据相关要求之后,将考虑另一类数据,其直接可识别内容已被删除,我们将其作为伪匿名数据来解释。减少可识别性的第一步是,删除数据中的人名及其地址。第5章起,我们开始明确为实现数据匿名化目标而工作。我们首先探讨伪匿名化为什么能作为一种数据保护方法,并介绍匿名化的第一步。我们还将思考伪匿名数据分析技术,以及它们对匿名化有何意义。第6章将全部精力放在匿名化上(因此完全是关于数据的次要用途),这是数据流水线的最后环节。我们先介绍更为传统的方法,将在源头匿名化的数据推给接收者。接着我们来个大翻转,考虑由接收方来拉取匿名数据。这种思考方式,为我们根据一组不同要求来利用匿名化,提供非常有趣的机会,并为构建数据湖开辟道路。我们以前几章所讲概念为基础,提出构建匿名化流水线的新方法。第7章以对数据安全使用的讨论结束本书。我们将讨论责任和伦理这些主题。深度学习和人工智能及机器学习领域相关方法的实际使用,为数据隐私领域带来新顾虑。我们建议用多种框架和指导原则来管理这些担忧,而且我们希望总结并给出构建匿名化流水线应注意的一些事项。排版约定本书在排版上遵循以下约定:斜体(Italic)表示新术语、URL、邮件地址、文件名和文件扩展名。等宽字体(ConstantWidth)表示程序片段和正文中出现的编程元素,如变量、函数名、数据库、数据类型、环境变量、语句和关键字。O’Reilly在线学习平台(O’ReillyOnlineLearning)近40年来,O’ReillyMedia致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。我们有一群独家专家和创新者,他们通过图书、文章、会议和在线学习平台分享知识和技术。O’Reilly的在线学习平台提供按需访问的直播培训课程、详细的学习路径、交互式编程环境,以及由O’Reilly和其他200多家出版社出版的书籍和视频。详情请访问http://oreilly.com。联系方式请将你对本书的评价和问题发给出版社:美国:O’ReillyMedia,Inc.1005GravensteinHighwayNorthSebastopol,CA95472中国:北京市西城区西直门南大街2号成铭大厦C座807室(100035)奥莱利技术咨询(北京)有限公司我们为本书做了一个网页,将勘误信息、示例和其他附加信息列在上面。其地址是https://oreil.ly/building-anonymization-pipeline。对本书的评论或技术性问题,请发电子邮件至:bookquestions@oreilly.com。如欲了解O’Reilly图书、培训课程的新闻和更多信息,请访问网站:http://www.oreilly.com。我们的Facebook:http://facebook.com/oreilly。我们的Twitter:http://twitter.com/oreillymedia。我们的YouTube:http://www.youtube.com/oreillymedia。致谢倘若没有隐私分析领域多位专家的支持,就不可能有这本书。这些专家日复一日从事咨询、数据和软件的实现与交付工作。从理论上提出解决方案是一回事,跟大大小小的组织合作,将隐私保护实践和解决方案带到市场,并保证其足够灵活、能扩展,则是另一回事。真实有效的解决方案正是诞生和成长于跟客户的协同工作之中。我们必须给予技术审稿人以诚挚的谢意!他们阅读本书的全部初稿并提出宝贵反馈。其背景多样性为本书提供至关重要的洞察力。其反馈使我们能直接定位需进一步发挥的领域并着力解决问题。尽管本书中的看法和观点出自我们之手,但我们希望也成功将技术审稿人的反馈整合到本书最终版。按姓名首字母排序,我们想感谢标准和风险管理专家BryanCline、真实场景匿名化专家JordanCollins、商用技术专家LeroyRuggerio和数据保护技术专家MalcolmTownsend。我们还要感谢FelixRitchie制定并促成“五个安全”安全框架被业界所接纳,它带给我们灵感!本书用一整章篇幅介绍该框架。我们写完该章初稿之后就一直跟Felix一道工作,实在是非常幸运。我们很感激PierreChetelat在本书最后编辑工作所给予的帮助,这也为其了解我们所从事的法律和技术领域提供机会。最后,我们必须感谢O’Reilly公司为我们编写另一本面向实践的匿名化图书而提供机会。同样把感谢送给MelissaPotter,她是O’Reilly公司的内容开发编辑,她在本书的写作和编校方面给我们很多支持。恕我们无法一一列举O’Reilly公司其他幕后成员,我们还想感谢勤奋的文字编辑、设计师、技术支持,以及为本书上市而付出努力的其他人员。