《构建数据分析匿名化流水线》[48M]百度网盘|pdf下载|亲测有效

产品特色

内容简介

制定多种匿名化解决方案，覆盖多种应用场景，满足对可识别性的不同要求。

解决方案跟所用数据、数据接收方和分析目标相匹配。

为数据采集模式量身定制匿名化流水线，覆盖不同业务需求。

为原始数据生成匿名化版本或用分析平台生成匿名化输出。

检查匿名数据使用的伦理问题。

作者简介

Luk Arbuckle是Privacy Analytics公司首席方法官，为负责任地使用和分享数据提供策略指导，为隐私增强技术和方法提供创新。Luk曾担任加拿大隐私专员办公室主任。

Khaled El Emam是Replica Analytics公司合伙人和CEO，该公司致力于开发合成数据。他还是加拿大渥太华大学医学院教授、东安大略儿童医院研究所资深研究员。

目录
前言1
第1章简介11
可识别性12
术语介绍13
法律法规15
数据状态18
匿名化作为数据保护措施21
许可或同意23
目的说明25
重识别攻击27
匿名化落地31
小结34
第2章可识别性范围37
法律环境37
披露风险39
披露类型40
数据隐私的维度42
重识别科学46
确定群体48
匹配方向51
数据结构54
总体可识别性57
小结59
第3章风险管理实用框架61
“五个安全”匿名化框架62
安全项目65
安全人员68
安全环境71
安全数据74
安全输出78
“五个安全”框架落地81
小结83
第4章明识数据85
需求收集86
应用场景87
数据流91
数据和数据主体93
从主要到次要用途97
处理直接标识符99
处理间接标识符100
从明识到匿名102
明识数据和匿名数据相混合105
将匿名化应用于明识数据109
小结112
第5章伪匿名数据113
数据保护和法律权威113
伪匿名化服务114
法定权力116
合法权益117
匿名化第一步119
重新反思“从主要到次要用途”122
分析平台123
合成数据127
生物统计特征标识符133
小结135
第6章匿名数据137
再思考可识别性范围138
源头匿名化141
汇总匿名数据145
从源头采集数据的利弊146
从源头采集数据的方法147
安全汇总149
访问存储数据151
反哺源头匿名化151
小结153
第7章安全使用155
信任基础156
信任算法158
AIML技术159
技术难点161
信任失控的算法164
负责任AIML技术的原则168
管理和监督169
隐私伦理170
数据监控171
小结172
作者介绍173
封面介绍174

查看全部↓

前言/序言

前言
几年前，我们和O’Reilly公司合编一书。该书研究健康数据匿名化的相关案例，带读者过了一遍匿名数据集的实际生成方法。这些方法覆盖多种应用场景。
自打那时起，各数据分析组织，数据用量不断增加，却又面对隐私法案不断演进、日益严苛的形势。他们既希望获得隐私监管组织的信任，又因其收集和处理的数据有的是来源于私企和公民，所以也希望获得其信任。在这样的背景下，数据分析组织对数据匿名化（也称“去标识化”）的兴趣随之增加。
写作缘由
分享数据，用于数据分析和研究，益处颇多。但与此同时，人们对数据拥有权和数据隐私抱有顾虑，持有不同观点，遂引发辩论，其意义深远。O’Reilly公司在2019年1月2日发布的“数据通信”（https://oreil.ly/TMWre）中透露，O’Reilly雷达捕获到隐私保护和以此为前提的数据分析成为趋势。于是，我们萌生一个想法：写本书指导读者利用可识别性范围（identifiability
spectrum），实现在多种场景，分离数据和个人身份信息，提升隐私保护力度，且不影响数据使用。本书就是我们为之努力的结果，其中探讨多种端到端解决方案，以削减数据可识别性。我们讲解多种不同数据采集模型和源自真实业务的案例。它们借鉴自人们迫切需要的数据环境的工作，所用方法久经考验。我们经常被问及的核心问题是：如何利用数据，才能既保护个人隐私，又能保证数据粒度足够细，以确保对其分析既有用又有意义。数据分析组织整合匿名化方法，减少可识别性，可创建安全和可复用的匿名化流水线，并以可持续方式，将其整合到自己的数据流和分析工作。我们将介绍多种不同匿名化技术，通过数据泛化、数据抑制译注1或数据随机化等技术，削减可识别性，生成所需数据或统计信息。我们还将介绍这些技术是如何契合“基于风险”方法这一更为宏大的主题，根据数据分享环境，确定数据转换的程度。
基于风险方法，旨在用一种更具指导性的决策方法，替代主观评估。
该方法可扩展，取舍得当，所得解决方案能确保数据有用且保护充
分。该方法利用统计估计量，为决策结果提供客观支持，决策过程
更看重经验证据。
我们加起来在数据隐私领域有着30年从业经验。我们做过学术研究，开发过
培训课程，主持过研讨会，做过演讲，带过高水平研究者、数据科学家和数据从业者团队。关于如何实践隐私保护技术，我们学到很多，并将持续学到更多。我们想把这些知识分享给读者，帮助推进最佳实践，我们想论证数据隐私保护是能做到“双赢”的，就像前任隐私保护专员AnnCavoukian博士在她非常有影响力的“PrivacybyDesign”注2（通过设计保护隐私）概念中
所提倡的那样。很多隐私倡导者认为，我们能够而且应该将隐私当作社会财产，隐私保护应予以鼓励甚至可强制推行，并且，我们能够采取切实可行的方法来保护隐私，同时满足当代社会对数据的需求。
然而，本书重策略而非理论。请将本书当成你的顾问，遇到匿名化工具和流程的规划和使用问题，尽可咨询它。本书指导你将数据用于不同目的，这些目的可能有别于采集数据的原目的。本书所提供方法，可确保数据不仅丰富，而且其使用合法、有理有据。我们将过一遍不同应用场景，这些场景是根据所分析数据三种迥然不同的可识别性程度而设置的，并提供相关细节，帮你理解一些策略方面的注意事项，这正是数据分析组织努力解决的问题。我们的目标是帮你建立隐私注意事项和技术解决方案之间的联系。
本书虽非专著，但还是涉及多个匿名化相关主题。请注意，法律法规的解释因环境而异，遇到相关问题，我们强烈建议你咨询法律和隐私团队！本书所提供资料仅仅是起告知信息的作用，而非向你提供法律咨询服务。我们已给出免责声明，终于可松口气了。
目标读者
本书构思之际，我们将读者分成两个群体：需要策略支持的读者（主要读者群）和需要理解决策的读者（第二大读者群）。不论在官方机构还是产业界工作，交付数据分析成果，都是数据分析岗位的要求。我们假定读者除了要遵守数据隐私和保护法律外，还准备好利用数据大干一场。而且我们假定他们正在寻找数据访问模式，以便安全和负责任地使用数据。
主要读者群（关心如何精心构思愿景，并确保该愿景成功实现）：
•执行团队：关心如何充分利用数据，如提升效率、获取新洞察力、新品上市，所有这些都是为了拓宽其服务范围并提升服务质量，同时更好地保护数据主体的隐私。这类读者很可能会快速浏览本书内容，以确定其愿景，找到合适的方式，将匿名化融入愿景。
•数据架构师和工程师：需将其问题跟解决方案联系起来，以便安全分析数据，并保护数据主体的隐私。他们更可能聚焦于特定细节和注意事项，这些内容有助于决策，并找到其应用场景所需具体方法。
第二大读者群（关心愿景的理解和执行方式）：
•数据分析师和数据科学家：他们想理解数据访问相关决策。作为以细节为导向的群体，其问题远多于本书所提到的！以经验来看，这也许会让他们有兴趣理解更广泛的隐私保护内容（当然是好事）。
•隐私专家：他们想为组织的分析职能提供支持。他们虽熟悉隐私保护领域，并有技术背景，但可能还想深入钻研特定章节和注意事项，寻找自己能为应用场景提供什么方式的支持，以发挥其扎实的知识储备，对隐私的深入理解的优势。
写本书介绍安全和负责任的数据使用策略，其难点在于如何取得语言和内容范围之间的最佳平衡。本书涵盖隐私、数据科学和数据处理这些主题。尽管我们尝试向读者介绍这些领域一些基本概念，但我们意识到这样做对某些读者可能有难度。我们希望本书将成为一本重要参考书，读者感到内容有用，可深入学习。
内容编排
本书先带你理解可识别性，根据数据中的可识别特征和攻击的可能性，合理估计聚类结果，从而为理解匿名化打下概念基础。本书用两章的篇幅来完成这一目标，第2章先介绍可识别性范围，以便你理解数据中的可识别性内容。
第3章接着给出一个管理框架，解释数据分享环境，理解潜在威胁。我们从数据和环境两个密切相关的方面评估可识别性。可识别性范围，也随之从数据可识别性概念，演进到包括数据和环境在内的大概念。我们在可识别性概念基础上，接着探讨数据处理步骤，创建流水线需要这些步骤。
第4章从明识数据和隐私工程概念出发，思考如何设计内置隐私保护功能的系统。特别地，数据用途不同于原采集目的，用该系统处理，可削减数据可识别性。数据持有方既有明识数据又有匿名数据这种情况，我们也会讲到。
我们确定明识数据相关要求之后，将考虑另一类数据，其直接可识别内容已被删除，我们将其作为伪匿名数据来解释。减少可识别性的第一步是，删除数据中的人名及其地址。第5章起，我们开始明确为实现数据匿名化目标而工作。我们首先探讨伪匿名化为什么能作为一种数据保护方法，并介绍匿名化的第一步。我们还将思考伪匿名数据分析技术，以及它们对匿名化有何意义。
第6章将全部精力放在匿名化上（因此完全是关于数据的次要用途），这是数据流水线的最后环节。我们先介绍更为传统的方法，将在源头匿名化的数据推给接收者。接着我们来个大翻转，考虑由接收方来拉取匿名数据。这种思考方式，为我们根据一组不同要求来利用匿名化，提供非常有趣的机会，并为构建数据湖开辟道路。我们以前几章所讲概念为基础，提出构建匿名化流水线的新方法。
第7章以对数据安全使用的讨论结束本书。我们将讨论责任和伦理这些主题。深度学习和人工智能及机器学习领域相关方法的实际使用，为数据隐私领域带来新顾虑。我们建议用多种框架和指导原则来管理这些担忧，而且我们希望总结并给出构建匿名化流水线应注意的一些事项。
排版约定
本书在排版上遵循以下约定：
斜体（Italic）
表示新术语、URL、邮件地址、文件名和文件扩展名。
等宽字体（ConstantWidth）
表示程序片段和正文中出现的编程元素，如变量、函数名、数据库、数据类型、环境变量、语句和关键字。
O’Reilly在线学习平台（O’ReillyOnlineLearning）
近40年来，O’ReillyMedia致力于提供技术和商业培训、知识和卓越见解，来帮助众多公司取得成功。
我们有一群独家专家和创新者，他们通过图书、文章、会议和在线学习平台分享知识和技术。O’Reilly的在线学习平台提供按需访问的直播培训课程、详细的学习路径、交互式编程环境，以及由O’Reilly和其他200多家出版社出版的书籍和视频。详情请访问http://oreilly.com。
联系方式
请将你对本书的评价和问题发给出版社：
美国：
O’ReillyMedia,Inc.
1005GravensteinHighwayNorth
Sebastopol,CA95472
中国：
北京市西城区西直门南大街2号成铭大厦C座807室（100035）
奥莱利技术咨询（北京）有限公司
我们为本书做了一个网页，将勘误信息、示例和其他附加信息列在上面。其地址是https://oreil.ly/building-anonymization-pipeline。
对本书的评论或技术性问题，请发电子邮件至：bookquestions@oreilly.com。
如欲了解O’Reilly图书、培训课程的新闻和更多信息，请访问网站：http://www.oreilly.com。
我们的Facebook：http://facebook.com/oreilly。
我们的Twitter：http://twitter.com/oreillymedia。
我们的YouTube：http://www.youtube.com/oreillymedia。
致谢
倘若没有隐私分析领域多位专家的支持，就不可能有这本书。这些专家日复一日从事咨询、数据和软件的实现与交付工作。从理论上提出解决方案是一回事，跟大大小小的组织合作，将隐私保护实践和解决方案带到市场，并保证其足够灵活、能扩展，则是另一回事。真实有效的解决方案正是诞生和成长于跟客户的协同工作之中。
我们必须给予技术审稿人以诚挚的谢意！他们阅读本书的全部初稿并提出宝贵反馈。其背景多样性为本书提供至关重要的洞察力。其反馈使我们能直接定位需进一步发挥的领域并着力解决问题。尽管本书中的看法和观点出自我们之手，但我们希望也成功将技术审稿人的反馈整合到本书最终版。按姓名首字母排序，我们想感谢标准和风险管理专家BryanCline、真实场景匿名化专家JordanCollins、商用技术专家LeroyRuggerio和数据保护技术专家MalcolmTownsend。
我们还要感谢FelixRitchie制定并促成“五个安全”安全框架被业界所接纳，它带给我们灵感！本书用一整章篇幅介绍该框架。我们写完该章初稿之后就一直跟Felix一道工作，实在是非常幸运。我们很感激PierreChetelat在本书最后编辑工作所给予的帮助，这也为其了解我们所从事的法律和技术领域提供机会。
最后，我们必须感谢O’Reilly公司为我们编写另一本面向实践的匿名化图书而提供机会。同样把感谢送给MelissaPotter，她是O’Reilly公司的内容开发编辑，她在本书的写作和编校方面给我们很多支持。恕我们无法一一列举O’Reilly公司其他幕后成员，我们还想感谢勤奋的文字编辑、设计师、技术支持，以及为本书上市而付出努力的其他人员。