企业级数据与AI项目成功之道pdf下载pdf下载

企业级数据与AI项目成功之道百度网盘pdf下载

作者:
简介:本篇主要提供企业级数据与AI项目成功之道pdf下载
出版社:机械工业出版社自营官方旗舰店
出版时间:2021-11
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

内容简介

只有在可以一致地提供预测性的业务见解并在整个组织范围内扩展时-数据分析和AI才能产生价值。这也是众多企业所面临的巨大挑战。本书概述了有效且实用的组织、管理和评估数据的方法-因此有助于建立信息体系结构以更好地推动AI和数据科学的发展。本书主要包括以下内容:简化数据管理-使数据随时随地可用;缩短实现AI用例的价值实现时间;使整个企业都可以访问AI和数据洞察力;动态、实时地扩展复杂的AI场景;开发可带来可预测的、可重复的价值的信息体系结构。本书可以使包括架构师、开发人员、产品所有者和业务主管在内的各种角色受益。

作者简介

尼尔·菲什曼(Neal Fishman)是IBM的杰出工程师-并且是IBM全球业务服务组织内基于数据的病理学的首席技术官。尼尔也是Open Group认证的杰出IT架构师。
科尔·斯特莱克(Cole Stryker)是一名常驻洛杉矶的作家和记者。他是Epic Win for Anonymous和Hacking the Future的作者。

目录

题记
本书赞誉
序言
前言
致谢
关于作者
第1章 攀登人工智能阶梯1
11 人工智能的数据准备2
12 重点技术领域2
13 一步一个脚印地攀登阶梯3
14 不断适应以保持组织的相关性6
15 基于数据的推理在现代业务中至关重要8
16 朝着以人工智能为中心的组织迈进11
17 本章小结12
第2章 框架部分I:使用人工智能的注意事项14
21 数据驱动决策制定15
211 通过询问来获得洞见15
212 信任矩阵16
213 衡量标准和人类洞见的重要性18
22 使数据与数据科学民主化18
23 是的-先决条件:组织数据必须有先见之明20
24 促进变革之风:有组织的数据如何缩短反应时间23
25 质疑一切24
26 本章小结26
第3章 框架部分II:使用数据和人工智能的注意事项27
31 个性化每个用户的数据体验28
32 上下文的影响:选择正确的数据显示方式29
33 民族志研究:通过专业数据增进理解32
34 数据治理和数据质量33
341 分解数据的价值34
342 通过数据治理提供结构34
343 为训练进行数据策管35
344 创造价值的其他注意事项35
35 本体论:封装知识的手段36
36 人工智能成果的公平、信任和透明度38
37 可访问的、准确的、经过策管的和经过组织的数据41
38 本章小结42
第4章 分析回顾:不只是个锤子44
41 曾经的情况:回顾企业数据仓库44
42 传统数据仓库的缺点49
43 范式转变52
44 现代分析环境:数据湖53
441 两者对比55
442 本地数据56
443 差异属性56
45 数据湖的要素58
46 新常态:大数据即普通数据60
461 从单一数据模型的刚性中解放出来60
462 流数据61
463 适合任务的工具61
464 易访问性61
465 降低成本61
466 可扩展性62
467 人工智能的数据管理和数据治理62
47 Schema-On-Read与Schema-On-Write63
48 本章小结65
第5章 分析前瞻:不是所有事物都是钉子67
51 组织的需求67
511 暂存区域69
512 原始区域70
513 发现与探索区域71
514 对齐区域71
515 协调区域76
516 策管区域77
52 数据拓扑78
521 区域地图80
522 数据管道81
523 数据地形81
53 扩展、添加、移动和删除区域83
54 启用区域84
541 摄入84
542 数据治理86
543 数据存储和保留87
544 数据处理89
545 数据访问90
546 管理和监控91
547 元数据91
55 本章小结92
第6章 人工智能阶梯的运营准则93
61 时光流逝94
62 创建98
621 稳定性99
622 障碍99
623 复杂性99
63 执行100
631 摄入101
632 可见性102
633 合规性102
64 运行102
641 质量103
642 依赖104
643 可复用性104
65 xOps三重奏:DevOps MLOps、DataOps和AIOps105
651 DevOps MLOps105
652 DataOps107
653 AIOps109
66 本章小结111
第7章 最大化运用数据:以价值为导向112
71 迈向价值链113
711 通过关联链接116
712 启用操作117
713 扩大行动手段118
72 策管119
73 数据治理121
74 集成数据管理123
741 载入125
742 组织125
743 编目126
744 元数据127
745 准备128
746 预配129
747 多租户129
75 本章小结132
第8章 通过统计分析评估数据并启用有意义的访问133
81 派生价值:将数据当作资产进行管理133
82 数据可访问性:并非所有用户都是平等的139
83 向数据提供自助服务140
84 访问:添加控件的重要性141
85 为了数据治理-使用自底向上的方法对数据集进行排序142
86 各行业如何使用数据和人工智能143
87 受益于统计数字144
88 本章小结151
第9章 长期构建152
91 改变习惯的需要:避免硬编码152
911 过载153
912 锁定154
913 所有权和分解156
914 避免变化的设计156
92 通过人工智能扩展数据的价值157
93 混合持久化159
94 受益于数据素养163
941 理解主题165
942 技能集165
943 全部都是元数据167
944 正确的数据-在正确的上下文
 中-使用正确的接口168
95 本章小结170
第10章 终章:人工智能的信息架构171
101 人工智能开发工作172
102 基本要素:基于云的计算、数据和分析175
1021 交集:计算容量和存储容量180
1022 分析强度181
1023 跨要素的互操作性183
1024 数据管道飞行路径:飞行前、飞行中、飞行后186
1025 数据水坑、数据池和数据

前言/序言

“我想做的是交付结果。”
Lou Gerstner
Business Week
为何你需要此书
“19世纪末-谁也不会相信地球正受到智慧生命的密切注视”
1898年-H G Wells出版的《世界大战》(The War of the Worlds-Harper & Brothers)以此开场。在20世纪末-这样的怀疑也同样盛行。但与19世纪以来的虚构的注视者不同-20世纪晚期的注视者是真实存在的-而这些注视者就是具有开拓性的数字化公司。在《世界大战》中-单细胞细菌被证明是兼具进攻性和防御性的决定性武器。如今-这一武器便是数据。当数据被错误使用时-企业将会面临突然崩溃的局面;当数据被正确使用时-企业则会茁壮成长。
自象形文字和字母出现以来-数据已然开始发挥其作用。商业智能(Business Intelligence-BI)一词的出现-可以追溯至Richard Millar Devens 1865年出版的Cyclopaedia of Commercial and Business Anecdotes一书。尽管如此-直至制表机器公司(Tabulating Machine Company-IBM前身)创始人Herman Hollerith发明了打孔卡片-数据的大规模采集才得以实现。Hollerith最初是为1890年美国政府人口普查而发明的打孔制表技术。1937年-美国政府与IBM签署协议-运用其打孔卡读卡机-为涉及2600万个社会保障号码的大规模簿记项目提供服务和支持。
1965年-美国政府建立了第一个数据中心-以存储其742亿张纳税申报单和175亿套录有指纹信息的计算机磁带。随着互联网以及后来的移动设备和物联网的出现-私有企业能够基于日益增加的与消费者共享的触点数-建立大量的消费者数据存储-从而使大规模数据使用真正得以实现。平均而言-每个人每秒创建的数据量超过17MB-这样的信息量大致相当于154万亿张打孔卡片。通过将数据量与数据有效处理能力相结合-数据并不仅仅是被简单记录和保存-而是得以大规模使用。
显然-我们正处于大数据时代。企业正在争先恐后地整合各种能完成高级分析的能力-如人工智能和机器学习-从而最大限度地利用其自身的数据。如何通过具有前瞻性的预判来改善市场的商业表现-已然成为强制性需求。诸如数据湖(Data Lake)之类的数据管理概念也被提出-以指导企业进行数据存储和数据管理。在许多方面-数据湖与更早的企业数据仓库(Enterprise Data Warehouse-EDW)形成了鲜明对比。通常而言-企业数据仓库仅接受已被视为有用的数据-且其内容的组织方式高度系统化。
在被误用的情况下-一个数据湖只不过是非结构化和未处理的海量数据的存储地-许多这样的数据永远都不会被使用。然而-通过高级分析和机器学习模型-数据湖可以有效地得到利用。
但是-数据仓库和数据湖能否真正实现企业改善商业表现的目的?更简洁地说-企业是否已经意识到存储数据之地在商业方面的价值?
全球信息技术研究和咨询公司—高德纳咨询公司(Gartner Group)对此进行了引人深思的分析。据估计-超过一半的企业数据仓库尝试都是失败的-而新的数据湖的情况甚至更糟。高德纳的分析师曾预测-数据湖的失败率可能高达60%。然而-现在高德纳认为这个数字过于保守-实际失败率可能接近85%。
为什么诸如企业数据仓库和数据湖这样的方案的失败率如此惊人?简单来说-开发适当的信息架构并非易事。
与企业数据仓库的失败原因相同-数据科学家采用的许多方法也未能意识到如下几点:
企业性质。
企业的业务运营。
变化的随机性和潜在的巨大性。
数据质量的重要性。
在模式设计和信息架构中应用不同技术的方式-这可能会影响组织应对变化的准备。
分析表明-数据湖和大数据计划失败率较高的原因并不在于技术本身-而是在于技术人员应用技术的方式。
在我们与企业客户的对话中-这些方面很快就变得不言而喻。在讨论数据仓库和数据湖时-我们经常面临诸多问题-例如:“对于每一种方式而言-我们都有很多选择-选择哪一个?”经常会出现组织中的一个部门需要数据库进行数据存储-但是其需求无法通过以前的数据存储方式得到满足。因此-该部门不再尝试重塑或更新已有的数据仓库或者数据湖-而是创建一个全新的数据存储区域。这样做的结果往往是一个多种数据存储解决方案的大杂烩-彼此之间不能有效结合-从而丧失数据分析的机会。
显然-新技术可以提供许多实实在在的好处-但是除非对这些技术进行严谨的部署和管理-否则-这些好处无法实现。与传统建筑架构的设计不同-信息架构的设计无法做到一劳永逸。
虽然组织可以控制如何获取数据-但是不能控制所需要的数据如何随时间变化。组织往往是脆弱的-因为当环境发生变化时-信息架构可能会崩溃。只有灵活的、自适应的信息架构才能适应新的环境。针对动态目标-设计和部署解决方案是困难的-但这个挑战并非不可克服。
很多信息技术专业人士都认为“垃圾输入等于垃圾输出”这个草率断言已经过时了。实际上-数十年来-垃圾数据一直给分析和决策过程带来困扰。管理不善的数据和缺乏一致性的表示对每一个人工智能项目来说依然是危险信号。
机器学习和深度学习对数据质量的要求尤其高。就像硬币的两面-低质量数据可能带来两种具有破坏性的影响。一方面-与历史数据相关的低质量数据会使预测模型的训练失真;另一方面-新数据会使模型失真-对决策制定产生负面影响。
作为一种可共享资源-当数据质量不佳时-数据通过服务层像病毒一样暴露在整个组织中-从而影响每一个接触此数据的人。因此-人工智能的信息架构必须能减少与数据质量相关的传统问题-促进数据流动-并在必要的时候实现数据隔离。
本书的目的是让你了解企业如何构建信息架构-从而为成功的、可持续的、可扩展的人工智能部署铺平道路。本书包括一个结构化框架和建议-既兼顾实用性又具有可操作性-可以帮助企业完成信息架构-进而从人工智能技术中获益。
本书主要内容
我们将从第1章开始-对人工智能阶梯进行讨论。人工智能阶梯是IBM开发的一个说明性工具-用来演示一个组织要持续从人工智能技术中获益所必须攀登的“步骤”或“梯级”。由此出发-第2章和第3章涵盖了数据科学家和信息技术领导者在攀登人工智能阶梯的过程中必须注意的一系列因素。
在第4章和第5章中-我们将探索关于数据仓库及其如何让位于数据湖的历史-并讨论如何根据地形学和拓扑学来设计数据湖。这些讨论将深入数据的接收、治理、存储、处理、访问、管理和监测等方面。
在第6章中-我们将讨论开发运营(DevOps)、数据运营(DataOps)、机器学习运营(MLOps)如何使组织得以更好地实时使用数据。在第7章中-我们将深入探讨数据治理和集成数据管理的基本要素。为了便于数据科学家确定数据的价值-我们将讨论数据价值链和数据可访问性、可发现性的需求。
由于组织内部的不同角色需要以不同的方式与数据进行交互-第8章将介绍不同的数据访问方式-还将进一步讨论数据价值评估-并解释如何使用统计学协助实现数据价值排序。
在第9章中-我们将讨论信息架构中可能出现的问题-以及整个组织的数据素养对于规避此类问题的重要性。
最后-在第10章中-我们将对开发人工智能信息架构的相关情况进行概述。第10章还提供了将上述理论背景应用于现实世界的信息架构开发的可行步骤。