算法与数据中台 基于Google、Facebook与微博实践pdf下载pdf下载

算法与数据中台 基于Google、Facebook与微博实践百度网盘pdf下载

作者:
简介:算法与数据中台 基于Google、Facebook与微博实践pdf下载
出版社:
出版时间:
pdf下载价格:9.00¥


预览


内容介绍

  商品基本信息,请以下列介绍为准
商品名称:算法与数据中台:基于Google、Facebook与微博实践
作者:詹盈
定价:89.0
出版社:电子工业出版社
出版日期:
ISBN:9787121392887
印次:
版次:null
装帧:
开本:16开

  内容简介

《算法与数据中台:基于Google、Facebook与微博实践》作者依据在Google、Facebook、新浪微博及滴滴出行等中美互联网公司的实际工作经历,对算、数据技术,以及围绕它行的技术中台建设实行了全面的探讨,并在此基础上对信息流、计算广告及智能出行等核心互联网业行了案例剖析。

本书具有广阔的技术视野,内容颇具深度,既适合互联网行业的技术从业者阅读,也适合计算机相关专业的本科生、研究生阅读。通过阅读本书,读者能加深对机器学度学数据、分布式系统及技术中台等相关领域的认知与理解,并从中获得一定的启发和可借鉴的经验。



  目录

第1章 算法与数据中台概述 1

1.1 中台的背景和意义 1

1.2 算法与数据能价值 3

1.3 算法与数据中台的技术体系 4

1.4 算法与数据中台的实践场景 6

1.5 算法与数据中台的应用前景 7

1.6 本章总结 8

第2章 中台技术之基础设施 10

2.1 研发效率系统 10

2.1.1 代码组织和构建 11

2.1.2 代码审查和任务管理 13

2.1.3 持续集成 15

2.1.4 通用压台 17

2.2 服务通信系统 19

2.2.1 程通信框架 20

2.2.2 服务注册与发现 21

2.2.3 服务治理 24

2.3 监控报警系统 25

2.3.1 通用系统架构 25

2.3.2 指标计算模型 26

2.3.3 开源解决方案 27

2.4 链路跟踪系统 29

2.4.1 应用场景与设计目标 30

2.4.2 系统架构 30

2.5 本章总结 32

第3章 中台技术之在线算法系统 33

3.1 物料检索系统 34

3.1.1 倒排检索 35

3.1.2 倒排索引实例 37

3.1.3 相似检索 38

3.1.4 相似检索实例 40

3.1.5 模型粗排 40

3.2 模型预估服务 41

3.2.1 整体架构 42

3.2.2 多框架支持 43

3.2.3 模型上线 44

3.2.4 在线预估 45

3.2.5 异构设备 46

3.2.6 性能优化 47

3.2.7 效果监控 49

3.3 策略机制引擎 50

3.3.1 整体架构 50

3.3.2 计算流解释器 51

3.3.3 Lua 解释器 52

3.4 集群管台 53

3.4.1 多租户架构 53

3.4.2 集群动态管理 54

3.4.3 集群性能监控 57

3.4.4 配置动态分发 59

3.5 效果评估系统 60

3.5.1 背景介绍 61

3.5.2 设计模式 61

3.5.3 系统架构 62

3.5.4 指标计算 64

3.6 本章总结 65

第4章 中台技术之机器学 66

4.1 机器学简介 66

4.1.1 机器学发流程 67

4.1.2 机器学发挑战 69

4.1.3 机器学发技术 69

4.2 传统机器学 73

4.2.1 线性算法 73

4.2.2 因子分解机算法 77

4.2.3 决策树算法 81

4.3 深度学 84

4.3.1 发展简史 85

4.3.2 神经元模型 86

4.3.3 神经网络模型 87

4.3.4 神经网络的算法原理 88

4.4 模型框架基本原理 94

4.4.1 分布式计算架构 94

4.4.2 并行计算的同步机制 99

4.4.3 梯度更新算法 102

4.5 层结构的模型框架 108

4.5.1 Caffe 109

4.5.2 DistBelief 110

4.5.3 WBLEngine 112

4.5.4 小结 116

4.6 数据流结构的模型框架 116

4.6.1 TensorFlow 116

4.6.2 PyTorch 122

4.6.3 小结 126

4.7 复合结构的模型框架 126

4.7.1 场景特点 126

4.7.2 设计思路 127

4.7.3 架构与实现 128

4.7.4 性能优化 131

4.7.5 小结 132

4.8 机器学简介 132

4.8.1 单业务线开发阶段 132

4.8.2台化建设阶段 133

4.8.3 业界知名产品 134

4.9 新浪微博 WBL 机器学 135

4.9.1 用户作界面 136

4.9.2 管理中心 138

4.9.3 数据中心 140

4.9.4 141

4.9.5 智能中心 144

4.9.6 模型中心 145

4.10 本章总结 147

第5章 中台技术之分布式数据库 148

5.1 分布式数据库概述 148

5.1.1 SQL 数据库 148

5.1.2 NoSQL 数据库 149

5.1.3 NewSQL 数据库 150

5.2 分布式数据库技术 150

5.2.1 ACID 理论 151

5.2.2 CAP 理论 151

5.2.3 BASE 理论 153

5.2.4 数据分片策略 154

5.2.5 数据复制策略 157

5.2.6 Gossip 协议 158

5.2.7 分布式一致性协议 160

5.2.8 分布式事务协议 167

5.3 分布式数据库产品 170

5.3.1 Redis 170

5.3.2 Google BigTable 170

5.3.3 Google Spanner 173

5.4 LaserDB 分布式数据库 177

5.4.1 系统架构 178

5.4.2 数据模型 179

5.4.3 分片策略 180

5.4.4 批量加载 181

5.4.5 同步机制 182

5.4.6 高可用架构 184

5.4.7 高性能方案 185

5.5 LaserDB 应用案例分析 188

5.5.1 数据缓存 188

5.5.2 特征服务 189

5.5.3 向量存储 190

5.5.4 样本拼接 190

5.6 本章总结 191

第6章 中台技术之大数台 192

6.1 大数台概述 192

6.1.1 大数据的特点 192

6.1.2 大数台的技术栈 193

6.2 分布式协调系统 194

6.2.1 Google Chubby 195

6.2.2 Apache ZooKeeper 196

6.2.3 Consul 197

6.3 集群管理系统 199

6.3.1 Google Borg 200

6.3.2 Kubernetes 202

6.3.3 Apache YARN 203

6.4 分布式文件系统 205

6.4.1 Google GFS 205

6.4.2 Apache HDFS 207

6.4.3 Dropbox MagicPocket 209

6.5 消息管道系统 210

6.5.1 Google PubSub 211

6.5.2 Apache Kafka 213

6.6 分布式计算系统 214

6.6.1 MapReduce 214

6.6.2 Apache Spark 216

6.6.3 Apache Flink 218

6.6.4 Apache Beam 220

6.7 数据仓库与分布式查询系统 221

6.7.1 Google BigQuery 222

6.7.2 Apache Hive 223

6.7.3 Facebook Presto 224

6.7.4 Facebook Scuba 226

6.8 本章总结 227

第7章 中台实践之系统 228

7.1 系统的背景简介 228

7.1.1 场景概况 229

7.1.2 整体架构 230

7.1.3 思路 233

7.2 系统的算法模型 235

7.2.1 GBDT-LR 融合模型 235

7.2.2 Wide & Deep 模型 237

7.2.3 DeepFM 模型 238

7.2.4 双塔模型 238

7.2.5 多任务模型 239

7.2.6 算法的发展趋势 241

7.3 系统的效果度量 244

7.3.1 体验指标 244

7.3.2 算法指标 245

7.4 Facebook 信息流简介 250

7.4.1 数据分发系统 251

7.4.2 特征服务 252

7.4.3 索引系统 254

7.4.4 预估与排序服务 255

7.4.5 实时样本拼接服务 256

7.4.6 模型训台 257

7.5 本章总结 258

第8章 中台实践之数字广告 259

8.1 数字广告的背景简介 259

8.1.1 核心概念 260

8.1.2 合约广告 261

8.1.3 竞价广告 262

8.1.4 程序化交易广告 263

8.2 数字广告系统架构 264

8.2.1 业台 265

8.2.2 算法与数据中台 265

8.3 数字广告系统中的数据管理 266

8.3.1 站内数据 267

8.3.2 站外数据 267

8.4 数字广告系统中的受众定向 268

8.4.1 内容定向 268

8.4.2 用户标签定向 269

8.4.3 定制化标签定向 269

8.4.4 社交关系定向 270

8.4.5 智能定向 270

8.5 数字广告系统中的策略机制 270

8.5.1 流量预测 271

8.5.2 在线分配 271

8.5.3 频次控制 272

8.5.4滑投放 272

8.5.5 探索策略 273

8.5.6 智能出价 274

8.5.7 广告竞价 276

8.5.8 反作弊机制 277

8.6 本章总结 277

第9章 中台实践之网约台 278

9.1 业务简介 279

9.1.1 业务背景 279

9.1.2 运作流程 281

9.1.3 用户体验 281

9.2 技术架构 282

9.2.1 分层系统架构 282

9.2.2 业务中台 283

9.2.3 算法与数据中台 285

9.3 打车定价场景 286

9.3.1 场景描述 286

9.3.2 价格动态下浮策略 287

9.3.3 价格动态上浮策略 289

9.3.4 小结 290

9.4 打车排队场景 290

9.4.1 场景描述 290

9.4.2 排队时间预估策略 291

9.4.3 小结 292

9.5 打车场景 292

9.5.1 场景描述 292

9.5.2 策略 293

9.5.3 小结 294

9.6 本章总结 294

参考文献 295



  编辑推荐

适读人群 :本书适合于互联网行业的技术从业者阅读,也适合于计算机相关专业的本科生、研究生和博士生阅读。

√ 作者在业务智能化代表企业谷歌脸书微博有完整架构搭建实用化数据中台与超大规模机器学的丰富经验。
√ Facebook|Google|Uber||贝尔实验室|SHAREit|阿里|腾讯|网易|滴滴|好未来|快手|商汤领域技术负责人集体盛赞。
√ 智能数据中台解决方案全景解析:大数据的线下offline处理线near-line半实时模型更新|在线online实时服务。
√ 全覆盖中台技术基础设施、在线算法服务、机器学、分布式数据库系统、大数台的精华知识与案例。


  媒体评论

本文对较为通用的算、数据技术,以及中台建行了详尽的介绍和总结,具有广阔的技术视野,内容颇具深度,建议互联网行业及信息产业的相关从业人员阅读。

新浪微博CTO 刘子正


数据中台在很多企业已经得到了较好的实践并产生了巨大的收益。随着机器学深度学速发展和工业化落地,通过对算与大数据技行统一的规划和建设,我们能够将传统的数据中台升华为智能数据中台,一步赋能给前台业务行智能化改造。本书对于智能数据中台着墨甚多,内容全面,从大数据的线下(offline)处理,过渡线(near-line)半实时模型更新,再到在线(online)实时服务,对相关解决方行了全景式的解析。更为难得的是,作者还介绍了在中美企业的亲身经历实践,这些内容具有高度的可借鉴性,强烈建议互联网行业的广大从业人员阅读。

SHAREit合伙人、COO 王超


强大的中台是互联网公司的核心竞争力。本书内容由浅入深,从基础架构到核心算法,从理论到实践,再结合作者多年在Google、Facebook和新浪微博的工作经验,是难得的技术指南。

Facebook信息流中台负责人 毛昀


在这个人工智能蓬勃发展的时代,一个可靠、可延展、易用的中台,对于大规模数据的处理、建模、预测及业务发展至关重要。本书深入浅出地介绍了算法和数据中台的核心基础,同时结合作者在国内外一线互联网公司的实际工作经验,系统地讲解了中台的搭建。从业者通读本书,既能够获取关于中台的基础知识,也能够得到有益的启发和有针对性的经验。

Uber Eats技术负责人 吕飞


本书有别于市场上众多的数据中台类图书,是一本关于算法与数据中台技术的“百科全书”,内容包括中台技术的基础设施、在线算法服务、机器学、分布式数据库系统、大数台,还有具体的实践案例。本书包罗万象,讲解深入浅出,是算法与数据中台技术研发人员的参考指南。

Google DoubleClick视频广告技术中台负责人 朱祖韬


以大数据为核心的数据技术早已对各行各业的发展产生了巨大的推动作用年来,随着机器学深度学勃发展和工业化落地,我们已然从大数据时入了数据智能时代。本书对数据技术和算,以及背后的中台建设和实践案行了深入探讨与剖析,是一本颇具指导价值和内容稀缺性的佳作。

网易前技术副总裁、Strava CTO 刘彦东


本书有别于目前市面上已有的数据中台或技术中台相关著作,作者将机器学和数据技术作为一个有机整行了解读,并在剖析具体案例的基础上介绍了 Google、Facebook 和新浪微博等知名互联网公司的实践经验,这些内容是相当有洞见的。特此给互联网行业的从业者及对中台技术感兴趣的读者。

北京大学计算机系研究员 许辰人


技术中台化已成为很多行业的潮流。本书系统介绍了算法与数据中台的技术架构和算法原理,展示了多家一线互联网公司的架构方案,为中台技术体系搭建提供了宝贵的参考。

好未来教育集团A台负责人、算法科学家 杨非


机器学,以及支撑其发展的数据处理技术,早已在诸多领域发挥了不可替代的作用。正如本书中所述,通过技术沉淀及数据整合,通用的算法能力和数据能力可以被复用到诸多不同的业务场景当中并产生巨大的收益。本书实地介绍了中台建设的背景和意义,并对与算法和数据相关的中台建设实行了深入探讨,这些技术要点和实践经验颇具代表意义,相信读者能从中获得启发。

快手副总裁、短视频负责人 连乔


人工智能应用及其背后的算,在人们生产生活的各个场景中变得愈发重要。小到智能手机里的人脸解锁,大到智慧或者智慧工厂,都有它们的身影。本书充分结合国内外知名互联网企业的实践,围绕算和数据技行了详尽探讨,为从业者提供了可借鉴的经验。

商汤科技副总裁 张少霆


中台概念在互联网公司中正日益普及。然而,构建实用化的数据中台和超大规模的机器学并非易事,它对系统设计者及开发者的算法和工程能力要求很高。本书从算法和工程等多个维度实地介绍了如何设计实用化的大规模机器学、数据中台,以及中外一线互联网公司的实践。作者在大规模机器学构建方面具备丰富的实践经验,所以本书体现出算法与工程并重、理论与实践兼顾的特点,这是很难得的,在此诚挚向大家此书。

新浪微博AI Lab机器学负责人 张俊林


大部分互联网企业都会依存于数据,无论是从数据到洞见,指导业务的发展方向,还是从数据到算法,优化用户价值漏斗。为了积累和提升这些能力,很多发展到一定阶段的企业,都会选择把核心的数据和算法能力沉淀到中台。如何建立中台能力?本书凝聚了国内外互联网企业的经验,为读者回答了这个问题并提供了宝贵的经验。

滴滴总监 郭飞


随着海量数据在各行各业的飞速积累,大数据和算法中台相关技术在很多行业应用中产生了很大影响。本书不仅系统介绍了与大数据和算法中台技术相关的基础知识与系统,难得的是,还详细描述了其在互联网行业不同场景下的实践,对于那些希望了解中台技术的相关专业在校学生和行业从业者,本书是难得的学。

腾讯AI Lab机器学总监 黄俊洲


本书每一章都可以独立成篇,各章之间从基础到应用循序,内容既全面又相对独立。作者集合其多年在中美大公司的开发经验倾力打造,本书定将成为该领域中一本不可或缺的技术指南。

美国特拉华大学计算机与信息科学系助理教授 彭曦


数据智能正在从特权变为普惠,如何让业务智能化是每个公司都面临的挑战。本书系统化阐述了算法、算台、数据库和大数台,并且通过在业界的广告等系统中的实践详细解释了中台的应用。相信这些典型系统会给读者带来启发,开启产品的智能之门。

研究员 蒋晓伟


作者以其在全球知名互联网企业的亲身体验和深厚的技术底蕴,展现了理论与实践的结合。本书系统地刻画了一个个经典的实践案例,深入浅出地介绍了算法和数据中台技术在当今互联网科技企业中的应用与发展,是了解算法和数据中台技术及其应用的佳作。

人寿CIO、谷歌及贝尔实验室前科学家 熊明


算法和数据对于许多互联网公司来说不可或缺,它们是众多产品和业行智能化升级的重要支撑。本书实地阐述了算法和数据之间的紧密关系,并依据作者多年在互联网公司的工作经验,对中台建设方案和相关实践案行了深入探讨。这些内容具有高度的借鉴意义和启发性,相信读者在阅读之后能够从中获得新的感悟,并因地制宜地将相关技术和经验应用到实际的项目开发当中。

Facebook Ads分发技术负责人 潘科



  前言


数据智能作为新基建中的核心领域,具备的变革能力,它正在对现有的生产生活方式、商业模式甚至经济结构产生着巨大的推动作用。算与数据技术的深度结合是实现数据智能的基础。以机器学表的人工智能,逐渐发展成为当今主流和影响力的算。它不仅在、搜索和广告等经典的互联网业务中地证明了自己的价值,而且在解决现实生产和生活中的实际问题上,也逐渐彰显出了不可替代的巨大能力。在机器学断地实践和应用的过程中,数据技术是大数据领域的相关技术,也取得了长步,并成为机器学赖以生存的土壤。数据智能领域的技步,和互联网本身的蓬勃发展是密不可分的,两者相互,相辅相成。技术步不仅可以为已有互联网产品的智能化升级和改行赋能,它也是许多新兴互联网业务得以开展的基石,而互联网的发展则为算与数据技术的实践化提供了广阔的舞台。

新浪微博作为全球的中文社交媒台,不仅具有海量的用户规模台内容,而且具有社交性和媒体性这两大突出特点。面对不断增长的博文信息及愈加丰富的用户行为,新浪微博一直以来都致力于利用数据技术和算来驱动业务发展和产品迭代。在多年的中台建设过程中,微台已经基本实现了数据的共享及通用能力的复用。当下,无论是微博流、视频和微博热搜等用户产品,还是粉丝通和粉丝头条等广告产品,都离不开技术中台的支持。地,在中台建设过程中沉淀下来的数据技术和算,已经成为各个产品和业行智能化升级和个性化改造的核心推动力。

本书作者充分结合了中外知名互联网企业的实践经验,对较为通用的算、数据技术,以及背后的中台建设历行了较为详尽的介绍和总结。在此基础上,本书还对系统、计算广告,以及本地生活服务这三个经典互联网业务中的实际产行了案例剖析,这些内容颇具实践价值和指导意义。本书文笔流畅,具有广阔的技术视野,内容颇具深度,是一本的参考读物,特此给互联网以及信息产业的相关从业人员。

——新浪微博CTO 刘子正


前言

成书背景

在中美各大互联网企业的中台战略实施过程中,人们对中台建设的目标逐步形成了原则性共识。大家普遍希望通过中台战略来实现数据整合、技术沉淀、能力共能复用,并期望以此为切入点来组织架构的升级和重塑,从而大幅度提率、执行效率、组织效率和决策效率。毫无疑问,一个可靠且强大的中台可以为各种前台业行赋能,以便支撑它行快速试错、快速决策和能力提升。

在纷繁复杂的技术中台体系里,算法中台和数据中台是紧密联系的。算法对于挖掘数据的内在规律并充分发挥数据的潜在价值有着决定性意义,而数据又决定了算法的效果上限,并且大部分算法的生产过程离不开数据计台的有力支撑。由此可见,将算法中台与数据中台作为一个有机整体行技术规划、技术建设和实际应用具有充足的合理性和非凡的现实意义,这既是许多知名互联网公司的实践方式,也是本书创作的初衷和意义。

我们在对 Google、Facebook、新浪微博及滴滴出行等多家知名互联网企业的具体实行总结的基础上,围绕算法与数据能价值、构建思路、技术体系、实践案例和应用前行了深入讲解与剖析。我们建议并殷切希望读者带着思考行阅读,从而形成自己对于中台战略以及算法与数据中台的理解,并将书中符合自身需要的经验复用到日常的工作、学究当中。

本书内容

本书分为 3 大部分,共 9 章,全面介绍了算法与数据中台的产生背景、技术体系和实践案例。

第 1 章对互联网企业的中台战略,是与算和数据技术相关联的技术中行了背景分析和案例简介,并阐明了算法与数据中台的重要价值以及应用前景。

第 2 ~ 6 章对算法与数据中台的技术体行了深入剖析,并围绕基础设台、在线算台、机器学、分布式数据台和大数台这几个核心的组成部行了详尽的技术探讨。

第 7 ~ 9 章选择系统、计算广告和网约台这三个经典的互联网业务场行了案例分析,以便通过具体的应用实践来加深读者对于算法与数据中台的理解。

目标读者

? 互联网行业,是从事个性化系统、计算广告、大数台及技术中台建设的相关从业人员。作者希望本书能够为业界同行带来一定的感悟和启发,并希望书中部的实践经验可以因地制宜地被推广和应用到更多的日常工作与研究当中。

? 对机器学度学数据和分布式计算感兴趣且有一定理论基础的读者。本书可以帮助这类读者对相关的技术要点和实施方行系统化的梳理,并引导他们对感兴趣的技术话行深入学/p>

? 计算机专业的本科生、研究生和博士生。本书具有广阔的技术视野且语实,有助于在校学生加深对计算机学科中的相关理论、技术和应用的理解,从而帮助他们构建一套较为完整的知识体系。

交流沟通

算和数据技术的发展可谓日新月异、一日千里,而作者的精力和有限,因此本书内容难免有一些纰漏甚至错误。诚恳地邀请所有读者将阅读过程中所遇到的问题和困惑,以及建设性的意见反馈给我们,作者定当在力所能及的范围内第一时间回复有价值的邮件信息。

邮箱:algo.data.zy@g.com

:2515475864

诚恳致谢

成书过程是艰辛的,十分感谢在本书的创作和出版过程中给予帮助、支持和鼓励的所、同事、业界同行以及出版社的工作人员,祝大家心想事成。地,感谢毛镭在审稿和校对过程中给予的帮助与支持。

詹盈

中国北京 / 美国纽约

2020 年 7 月



  摘要

                   第一章  算法与数据中台概述   

中台的概念由来已久,是自从提出“大中台,小前台”的中台战略之后,中台建设以及中台背后所蕴含的方法论在业界引起了强烈反响。中台战略成为一个热议的话题后,人们围绕着如何对前台和中行职责划分、中台应该包含哪些组能、中台建设所带来的组织架构重塑等问题,展开了积极的探索和实践。国内外许多知名的互联网企业也都早已启动了自己的中台程,并逐步形成了属于自己的解读心得和建设经验。虽然中台没有一个统一的定义和标准,但是业界在探索和实践过程中对中台形成了一些原则性的共识,大家普遍主张通过构建中台来实现数据整合、技术沉淀、能力共能复用,从而为快速变化的前台业务提供的支撑。 

本章将对中台的背景和意行介绍,并根据笔者自己的经验,对算法与数据能价值、技术体系、实践场景、应用前行探讨和展望。希望读者在阅读的过程中能够加深对中台的理解和思考,并结合自身的实际情况对书中提到的实践经行量体裁衣并灵活运用。

1中台的背景和意文 

正如上文中所提到的,业界在探索和实践过程中对中台逐渐形成了一些原则性的共识,基于这些共识,我们可以把中台建设的目标和意义大致归纳为如下几点。  ·数据整合:通过中台对企业的数据资行整合,从而挖掘出全域数据背后的深层次价    值并赋能给企业的各种前台业务……

  作者简介

詹盈,本科毕业于南京大学,后赴美攻读计算机博士学位。先后就职于 Google、Facebook 以及新浪微博,历任主任架构师、算法总监等职位。长期致力于机器学、算法工台和大规模个性化系统等方向的技术研究以及团队管理工作,对系统、计算广告、大数据和云计算等相关业务领域有着长期深入的工作经验实践。
郑旭飞,先后就职于 360 搜索、滴滴出行以及新浪微博,历任算法专家和工程师等职位,对搜索、、广告等个性化系统以及机器学有着丰富的实践经验。
刘畅宇,美国哥伦比亚大学计算机硕士学位,先后就职于和新浪微博并担任架构师等职位,对金融交易系统、计算广台以及大规模分布式系统有着深刻理解经验。
郝忠秀,新浪微博广告基础架构负责人,对大规模分布式系统、海量数据存储系统、大数台以及计算广告等相关领域有着长期工作经验和诸实践。