内容简介
当大数据资源变得越发复杂时,仅靠更强大的计算机已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关的学生阅读。
作者简介
朱尔斯·J 伯曼(Jules J Berman) 拥有麻省理工学院数学和地球与行星科学两个学士学位,天普大学哲学博士学位,以及迈阿密大学医学博士学位。撰写信息科学、计算机程序设计和病理学三个领域的著作近20本。2006年,伯曼博士成为美国病理信息学协会主席,2011年荣获该协会终身成就奖。
目录
译者序
*2版前言
*1版前言
作者简介
*1章 引言1
11 大数据的定义1
12 大数据与小数据2
13 大数据在哪里5
14 大数据常见的目的是产生小数据6
15 大数据是研究领域的中心话题6
术语表7
参考文献11
*2章 为非结构化数据提供结构13
21 几乎所有数据都是非结构化的、
不可用的原始形式13
22 词汇索引14
23 术语提取16
24 构建索引19
25 自动编码20
26 案例研究:宇宙中任意原子位置的快速定位(需要安装一些软件)24
27 案例研究():一个完整的自动编码器(12行Python代码)26
28 案例研究:以词汇索引进行文本转换28
29 案例研究():Burrows Wheeler变换30
术语表32
参考文献43
*3章 标识、去标识和重标识45
31 什么是标识符45
32 标识符和标识之间的区别46
33 生成标识符48
34 糟糕的标识方法50
35 注册对象标识符53
36 去标识和重标识55
37 案例研究:数据清理57
38 案例研究():图像标题中的标识符59
39 案例研究:单向散列函数61
术语表63
参考文献69
*4章 元数据、语义和三元组71
41 元数据71
42 可扩展标记语言71
43 语义和三元组72
44 命名空间74
45 案例研究:三元组的语法75
46 案例研究:Dublin Core77
术语表78
参考文献80
*5章 分类和本体论81
51 关于对象关系的全部81
52 分类:简单的本体84
53 本体:有多个父类的类86
54 分类模型选择88
55 类混合91
56 本体开发的常见陷阱92
57 案例研究:上层本体93
58 案例研究():悖论94
59 案例研究():RDF框架和类属性96
510 案例研究():可视化类关系98
术语表102
参考文献111
*6章 内省113
61 自我认知113
62 数据对象:每个大数据集合中基本的元素116
63 大数据如何使用内省117
64 案例研究:时间戳数据119
65 案例研究:TripleStore 简介121
66 案例研究():大数据必须是面向对象的证明125
术语表126
参考文献127
*7章 标准和数据集成128
71 标准128
72 规范与标准132
73 版本控制134
74 合规问题135
75 案例研究:标准化巧克力茶壶135
术语表136
参考文献137
*8章 不变性和性139
81 数据不变性的重要性139
82 不变性和标识符140
83 数据产生数据142
84 跨机构协调标识符143
85 案例研究:可信时间戳144
86 案例研究:区块链和分布式账本145
87 案例研究():零知识协调147
术语表148
参考文献150
*9章 评估大数据资源的充分性152
91 观察数据152
92 大数据的小必要属性158
93 附加条件的数据161
94 案例研究:用于查看和搜索大型文件的实用程序162
95 案例研究:数据扁平化164
术语表164
参考文献169
*10章 测量170
101 准确性与精度170
102 数据范围171
103 计数173
104 数据标准化和变换176
105 约简数据179
106 理解控制181
107 没有实际意义的统计意义182
108 案例研究:基因计数183
109 案例研究:早期生物特征和狭窄数据范围的意义184
术语表185
参考文献186
*11章 快速简单的大数据分析必不可少的技巧188
111 速度和可扩展性188
112 适用于大数据的快速操作,并且每台计算机都支持193
113 点积—一种简单快速的相关方法197
114 聚类199
115 数据持久性方法(不使用数据库)201
116 案例研究:爬升分类202
117 案例研究():数据库示例203
118 案例研究():NoSQL205
术语表205
参考文献209
*12章 寻找大型数据集中的线索211
121 分母211
122 词频分布212
123 异常值和异常215
124 封底分析216
125 案例研究:预测用户偏好218
126 案例研究:人口数据的多模态219
127 案例研究:大小黑洞220
术语表220
参考文献224
*13章 使用随机数将大数据分析问题的规模缩小225
131 (伪)随机数的显著效用225
132 重采样230
133 蒙特卡罗模拟法234
134 案例研究:中心极限定理的证明236
135 案例研究:发生一连串小概率事件的频率237
136 案例研究:臭名昭著的生日问题238
137 案例研究():蒙提霍尔问题239
138 案例研究():贝叶斯分析241
术语表242
参考文献244
*14章 大数据分析中的特殊注意事项246
141 数据搜索理论246
142 理论搜索中的数据247
143 巨大的偏差248
144 大数据的数据子集:不可加和不传递251
145 其他大数据陷阱252
146 案例研究():维数灾难254
术语表257
参考文献258
*15章 大数据的失败以及如何避免260
151 失败很常见260
152 失败的标准261
153 复杂性264
154 逐步走进大数据分析265
155 失败之后272
156 案例研究:癌症生物医学信息学网格—遥远的桥273
157 案例研究:高斯Copula函数277
术语表278
参考文献280
*16章 数据再分析:比分析更重要283
161 次分析(几乎)总是错的283
162 为什么再分析比分析更重要285
163 案例研究:旧JADE对撞机数据的再分析287
164 案例研究:通过再分析证明287
165 案例研究:从旧数据中寻找新行星288
术语表289
参考文献290
*17章 大数据再利用294
171 什么是数据再利用294
172 暗数据、废弃数据和遗留数据296
173 案例研究:从邮政编码到人口统计学基础297
174 案例研究:基因序列数据库的科学推断298
175 案例研究:将变暖与高强度飓风联系起来298
176 案例研究:用地质数据推断气候趋势299
177 案例研究:环月影像恢复工程299
术语表301
参考文献301
*18章 数据共享和数据安全303
181 什么是数据共享,为什么我们不共享更多数据303
182 常见的不满303
183 数据安全和加密协议308
184 案例研究:火星上的生命313
185 案例研究:个人标识符314
术语表315
参考文献317
*19章 合法性320
191 对数据的准确性和合法性负责320
192 创建、使用和共享资源的权利322
193 因使用标准而招致的版权和专利侵权行为324
194 对个人的保护325
195 许可问题326
196 未经许可的数据330
197 隐私策略332
198 案例研究:大数据的时效性333
199 案例:哈瓦苏派的故事334
术语表335
参考文献336
*20章 社会问题338
201 公众的大数据感知338
202 用大数据降低成本和提高生产效率340
203 公众的疑虑342
204 从自己做起343
205 谁是大数据344
206 傲慢和夸张349
207 案例研究:公民科学家351
208 案例研究:乔治·奥威尔的《1984》354
术语表354
参考文献355
前言/序言
*2版前言
都说过了,但因为大家都没有听,我们不得不回归原点,从头开始。
—Andre Gide
的科学作家总是抓住机会为早期的作品写一部*2版。无论多么努力地尝试,*1版总是会含有不准确,甚至产生误导的言论。随着时间的推移,那些在*1版中看起来很精彩的句子也变成了夸大智慧的例子。那些由于太过微不足道而在原始手稿中没有包含进去的部分现在似乎成了需要被完整阐释的深刻内容。*2版为懊恼的作者提供了纠正这些的机会。
当2013年本书*1版出版的时候,这个领域还很年轻,很少有科学家知道大数据能够做什么。在世界各处,无时无刻不断涌入的数据被存储起来,就像小麦被保存在筒仓中一样。对于数据管理者来说,很显然这些被存储起来的数据是没有任何科学价值的,除非它们通过元数据、标识符、时间戳和一组基本描述符恰当地注释。在这种情况下,本书*1版指出了在大数据收集、注释、组织并展开过程中那些适当且重要的方法。处理大数据的过程伴随着独特的挑战,*1版充满了警告和劝告,旨在引导读者远离灾难。
自*1版出版至今已有数年了,此后有数百本关于大数据主题的书籍相继出版。作为一名科学家,我很失望地发现,现今关于大数据的主题都聚焦于营销和预测分析(例如,“谁有可能购买产品x,由于他们两周前购买了产品y”),以及机器学习(例如,无人驾驶汽车、计算机视觉、语音识别)等问题上。机器学习在很大程度上依赖于那些大肆宣传的技术,如神经网络和深度学习,这两者并没有简化和拓宽我们理解自然界和物质世界的基本法则和原则。在大多数情况下,这些技术使用的都是相对较新的(即新收集的)、标注较差的(即仅提供一个特定的分析过程所需的小信息)、不被保存以便于公共评估或重复使用的数据。简而言之,大数据已经走上了阻力小的道路,避免了本书*1版中提出的大多数棘手问题,例如,与公众共享数据的重要性,探索数据对象之间关系(非相似性)的价值,以及创建鲁棒的、不变的且注释良好的数据这一沉重但不可避免的负担。
我当然希望大数据的伟大进步将成为医学、生物学、物理学、工程学和化学领域的根本性突破。为什么大数据的重点从基础科学转向了机器学习?这可能与这样一个事实有关,即包括本书*1版在内的所有书籍都没能为读者提供将大数据原理付诸实践的方法。回想起来,光描述理论,然后寄期望于读者开拓出自己的方法是不够的。
因此,在*2版中,在介绍理论的同时,亦将提供与之相应的实践手段。读者会发现用于实现大数据准备和分析的所有方法都非常简单。在大多数情况下,为了理解计算机方法,需要对编程语言有一些基本的了解。尽管会有疑虑,但Python将作为本书的语言。Python的优点如下:
Python是一种的、开源的编程语言,易于获取、安装、学习和使用,并且适用于所有主流的计算机操作。
Python目前非常受欢迎,并且其受欢迎程度似乎越来越高。
Python发行版(例如Anaconda)绑定了数百个非常有用的模块(例如numpy、matplot和scipy)。
Python有一个庞大而活跃的社群,这为Python方法和模块提供了大量的参考文档。
Python支持一些面向对象的技术,这些技术将在*2版中有所讨论。
事物都有其两面性,Python也有缺点:
新版本的Python并不向后兼容其早期版本。因此,本书中所包含的脚本和代码块适用于大多数Python 3.x版本,但可能不适用于Python 2.x版本及更早版本,除非读者准备花费一些时间来进行代码调整。当然,这些简短的脚本和代码块旨在作为概念的简单演示,不能用于构建应用程序的代码。
内置的Python方法有时优化了速度以利用随机存取存储器(RAM)来保存数据结构,包括通过循环构建的数据结构。对大数据进行迭代可能会耗尽可用的内存,从而导致那些在小数据集上运行良好的Python脚本失败。
Python面向对象的实现允许多类继承(即,类可以是多个父类的子类)。我们将解释为什么在使用Python对大型复杂数据进行编程操作时使用多类继承会引起麻烦,并且给出所对应的补救措施。
本书中描述的每个算法的核心概念都可以在现代计算机上通过任何操作、利用主流的编程语言通过几行代码加以实现。本书会提供许多Python代码,并讲解主流的操作上被广泛使用的开源应用。本书强调,对于大型复杂数据集上的数据分析,大部分都可以通过简单的方法加以实现,而不需要专门的软件(例如,并行化的计算过程)或硬件(例如,计算机)。同时,完全不熟悉Python的读者可能会惊奇地发现,当代码很简短并且附有注释的时候,他们能够轻易地读懂Python代码。当然,对于那些主要关注如何掌握大数据原理的读者,可以跳过代码段,不用担心会错过书中的任何理论概念。
*2版同时包含了那些被大数据分析领域的其他书籍所忽视的方法论,包括:
数据准备。如何使用元数据注释数据以及如何创建由三元组组成的数据对象。作为计算科学意义的基本延伸,三元组的概念将被全面地讲解。
与大数据相关的数据结构。涵盖诸如TripleStore、分布式账本、标识符、时间戳、一致性、索引、字典对象、数据持久性、用于数据存储和分布的单向
^_^:a6910140f21a2a98d11bb5b373992ac3