《大数据开发者教程NoSQL、Hadoop组件及大数据实施Wrox国际IT认证项目组人民》[55M]百度网盘|pdf下载|亲测有效

店铺公告1 本店客服接待时间为每天早上9:00-18：00，其他时间可线上客服留言，待客服上线后会时间联系您。2 本店开电子发票，确认收货以后联系在线客服，提供开票信息即可！3 部分稀缺书籍因采购成本较高，售价可能会高于封底定价，属正常情况，还书友谨慎购买！明码标价，请书友看清确认后再购买！避免纠纷！4 本店所有套装书籍，因保存不易，可能会有缺失，因此均为单本书的价格，下单前还请先咨询客服确认之后再购买！

基本信息

书名:大数据开发者教程 NoSQL、Hadoop组件及大数据实施

定价：109.00元

售价：81元,便宜28元,折扣74

作者:Wrox国际IT认证项目组

出版社：人民邮电出版社

出版日期：2018-12-01

ISBN：9787115493712

字数：686000

页码：457

版次：1

装帧：平装

开本：16开

商品重量：0.4kg

编辑推荐

由于数据量比较大，小编正在更新维护中.....

内容提要

“大数据”近年来成为IT领域的热点话题，人们每天都会通过互联网、移动设备等产生大量数据。如何管理大数据、掌握大数据的核心技术、理解大数据相关的生态系统等，是作为大数据开发者必须学习和熟练掌握的知识。本系列书以“大数据开发者”应掌握的技术为主线，共分两卷，以7个模块分别介绍如何管理大数据生态系统、如何存储和处理数据、如何利用Hadoop工具、如何利用NoSQL与Hadoop协同工作，以及如何利用Hadoop商业发行版和管理工具。本系列书涵盖了大数据开发工作的核心内容，全面且详尽地涵盖了大数据开发的各个领域。
本书为第2卷，共3个模块，分别介绍Hadoop工具（如ZooKeeper、Sqoop、Flume、YARN和Storm等），利用NoSQL和Hadoop完成实时、安全和云的相关工作，以及Hadoop商业发行版和管理工具（如Cloudera、Hortonworks、Greenplum Pivotal HD等），很后介绍几个实用软件的功能、指南和安装步骤。
本书适用于想成为大数据开发人员以及所有对大数据开发感兴趣的技术人员和决策者阅读。

模块1额外的Hadoop工具：ZooKeeper、Sqoop、Flume、YARN和Storm
讲用ZooKeeper进行分布式处理协调3
1.1ZooKeeper简介4
1.1.1ZooKeeper的好处4
1.1.2ZooKeeper术语6
1.1.3ZooKeeper命令行界面（CLI）7
1.2安装和运行ZooKeeper9
1.2.1支持的平台9
1.2.2所需的软件9
1.2.3单服务器的安装9
1.3使用ZooKeeper10
1.4ZooKeeper应用程序12
1.4.1FS爬取13
1.4.2Katta14
1.4.3Yahoo!消息代理（YMB）14
1.5使用ZooKeeper构建应用程序15
1.5.1Exec.java15
1.5.2处理事件17
1.5.3监控数据19
1.5.4实现屏障和生产者-消费者队列22
练习30
备忘单33
第2讲利用Sqoop有效地传输批量数据34
2.1Sqoop简介35
2.1.1Sqoop中的工作流36
2.1.2Sqoop的特性36
2.2使用Sqoop137
2.3用Sqoop导入数据41
2.3.1导入完整的表41
2.3.2用HBaseSqoop导入带有复合键的表42
2.3.3指定目标目录43
2.3.4导入选择的行43
2.3.5密码保护44
2.3.6用不同的文件格式导入数据44
2.3.7导入数据压缩45
2.4控制并行45
2.5编码NULL值47
2.6将数据导入Hive表47
2.7将数据导入HBase47
2.7.1使用自由形式查询48
2.7.2重命名Sqoop作业48
2.8导出数据49
2.8.1批量导出50
2.8.2原子导出50
2.9将数据导出至列的子集50
2.10Sqoop中的驱动程序和连接器51
2.10.1驱动程序51
2.10.2连接器52
2.10.3连接到数据库52
2.11Sqoop架构概览54
2.12Sqoop255
2.12.1Sqoop2的优势56
2.12.2易于扩展56
2.12.3安全57
练习58
备忘单60
第3讲Flume62
3.1Flume简介63
3.1.1Flume架构64
3.1.2流可靠性66
3.2Flume配置文件66
3.2.1流定义67
3.2.2配置单个组件67
3.2.3在代理中添加多个流68
3.2.4配置多代理流69
3.2.5配置流扇出70
3.3设置Flume71
3.3.1安装Flume71
3.3.2配置Flume代理72
3.3.3数据消费74
3.4构建Flume77
3.4.1获得源点77
3.4.2编译/测试Flume77
3.4.3开发自定义组件77
练习90
备忘单92
第4讲MapReduce—YARN94
4.1YARN简介95
4.2为什么用YARN96
4.2.1提高可扩展性96
4.2.2效率97
4.2.3集群共享97
4.3YARN生态系统98
4.3.1YARN架构99
4.3.2资源100
4.3.3资源管理器101
4.3.4ApplicationMaster103
4.3.5YARN的局限性106
4.4YARNAPI例子107
4.4.1YARN应用程序剖析107
4.4.2客户端108
4.4.3把它们整合到一起115
4.5Mesos和YARN的比较116
4.5.1Mesos简介116
4.5.2Mesos和Hadoop118
练习120
备忘单122
第5讲StormonYARN124
5.1Storm和Hadoop125
5.2Storm简介126
5.2.1Storm架构126
5.2.2Storm应用剖析129
5.3StormAPI132
5.3.1spout132
5.3.2bolt134
5.4StormonYARN134
5.4.1StormonYARN架构135
5.4.2StormonYARN的局限性136
5.5安装StormonYARN136
5.5.1先决条件136
5.5.2安装步骤137
5.5.3排错138
5.5.4管理YARNonStorm138
5.6StormonYARN的例子139
5.6.1传感器数据spout139
5.6.2仪表盘bolt140
5.6.3HDFS日志记录器bolt142
5.6.4主程序144
5.6.5运行示例146
练习148
备忘单151
模块2利用NoSQL和Hadoop：实时、安全和云
讲HelloNoSQL155
1.1看两个简单的例子156
1.1.1持久化偏好数据的一个简单集合——MongoDB156
1.1.2存储汽车品牌和型号数据——ApacheCassandra162
1.2利用语言绑定进行工作171
1.2.1MongoDB的驱动程序171
1.2.2初识Thrift174
1.3存储和访问数据177
1.4在MongoDB中存储和访问数据178
1.5在HBase中存储和访问数据185
1.6在ApacheCassandra中存储和访问数据189
1.7NoSQL数据存储的语言绑定191
1.7.1用Thrift进行诊断191
1.7.2Java的语言绑定191
1.7.3PHP的语言绑定194
练习195
备忘单198
第2讲使用NoSQL199
2.1创建记录200
2.2访问数据213
2.2.1访问来自MongoDB的文档213
2.2.2访问来自HBase的数据214
2.2.3查询Redis215
2.3更新和删除数据216
2.4MongoDB查询语言的能力217
2.4.1加载MovieLens数据219
2.4.2获取评级数据221
2.4.3MongoDB中的MapReduce224
2.5访问来自HBase这样的面向列的数据库的数据228
练习230
备忘单234
第3讲Hadoop安全236
3.1Hadoop安全挑战238
3.2认证239
3.2.1Kerberos认证239
3.2.2KerberosRPC244
3.2.3基于Web的控制台的Kerberos245
3.3委托安全凭证248
3.4授权253
3.4.1HDFS文件权限253
3.4.2服务级别授权257
3.4.3作业授权260
练习261
备忘单263
第4讲在AWS上运行Hadoop应用程序265
4.1开始了解AWS266
4.2在AWS上运行Hadoop的选项267
4.2.1使用EC2实例的自定义安装267
4.2.2弹性MapReduce268
4.3了解EMR-Hadoop的关系269
4.3.1EMR架构270
4.3.2使用S3存储271
4.3.3优选化地利用EMR272
4.3.4使用CloudWatch和其他AWS组件274
4.3.5访问和使用EMR274
4.4使用AWSS3280
4.4.1了解桶的用法280
4.4.2利用控制台的内容浏览282
4.4.3编程访问S3中的文件283
4.4.4使用MapReduce上传多个文件至S3294
4.5自动化EMR作业流的创建和作业执行296
4.6组织协调EMR中作业的执行301
4.6.1使用EMR集群上的Oozie301
4.6.2AWS简单工作流303
4.6.3AWS数据管道304
练习306
备忘单309
第5讲实时Hadoop311
5.1实时Hadoop应用312
5.2使用HBase实现实时应用313
5.2.1将HBase用作照片管理系统315
5.2.2将HBase用作Lucene的后端322
5.3使用专门的实时Hadoop查询系统342
5.3.1ApacheDrill344
5.3.2Impala345
5.3.3将实时查询系统与MapReduce比较347
5.4使用基于Hadoop的事件处理系统347
5.4.1HFlame348
5.4.2Storm350
5.4.3将事件处理与MapReduce作比较352
练习353
备忘单356
模块3Hadoop商业发行版和管理工具
讲大数据简介359
1.1Cloudera基础360
1.1.1包含ApacheHadoop的Cloudera发行版360
1.1.2Cloudera管理器361
1.1.3Cloudera标准版362
1.1.4Cloudera企业版363
1.2Cloudera管理器简介365
1.3Cloudera管理器的管理控制台367
1.3.1启动并登录管理控制台370
1.3.2主页370
1.4添加和管理服务371
1.4.1添加新服务371
1.4.2启动服务372
1.4.3停止服务372
1.4.4重启服务373
1.5使用Cloudera管理器的业务案例373
1.6Cloudera管理器的安装要求374
练习375
备忘单377
第2讲Cloudera上的Hive和Cloudera管理379
2.1ApacheHive简介380
2.1.1Hive特性380
2.1.2HiveQL380
2.2Hive服务381
2.2.1Hive元数据服务器382
2.2.2Hive网关382
2.2.3升级Cloudera管理器382
2.3为Hive元存储配置模式383
2.3.1嵌入模式383
2.3.2本地模式384
2.3.3远程模式385
2.4配置Hive元存储386
2.4.1RedHat操作系统386
2.4.2SLES操作系统388
2.4.3Debian/Ubuntu操作系统388
2.5为Hive设置ClouderaManager4.5389
2.6Hive复制391
练习394
备忘单396
第3讲Hortonworks和GreenplumPivotalHD397
3.1Hortonworks数据平台398
3.1.1核心服务400
3.1.2数据服务400
3.1.3操作服务401
3.2系统需求和环境402
3.2.1系统需求402
3.2.2构建一个受支持的环境404
3.3安装HDP405
3.4使用TalendOpenStudio409
3.4.1安装TalendOpenStudio410
3.4.2将数据导入TalendOpenStudio411
3.4.3执行数据分析413
3.5GreenplumPivotalHD417
练习420
备忘单422
第4讲IBMInfoSphereBigInsights和MapR424
4.1InfoSphereBigInsights简介425
4.1.1ApacheHadoop发行版的InfoSphereBigInsights组件426
4.1.2额外的Hadoop技术427
4.1.3文本分析428
4.1.4IBMBigSQL服务器428
4.1.5InfoSphereBigInsights控制台428
4.1.6InfoSphereBigInsights的Eclipse工具429
4.2安装准备430
4.2.1复核系统需求431
4.2.2选择一个用户431
4.2.3配置浏览器432
4.2.4下载InfoSphereBigInsights437
4.2.5完成常见先决条件的任务437
4.3安装InfoSphereBigInsights440
4.4MapR简介442
练习445
备忘单447
第5讲应聘准备449
5.1大数据开发者需要的关键技术工具和框架451
5.2大数据开发者的工作角色和职责452
5.3大数据开发者职业机会领域453

作者介绍

顾晨，男，硕士、PMP、信息系统项目管理师。毕业于上海交通大学。曾获邀参加旧金山的Google I/O大会。喜欢所有与编程相关的事物，拥有14年的编程经验。对于大数据、SAP HANA数据库和思科技术有着极其浓厚的兴趣，是靠前较早从事HANA数据库研究的人员之一。先后录制了MCSE、CP等多种教学，在多家知名网站发布。精通C#、Java编程，目前正致力于人脸识别、室内定位和门店人流统计方面的研究。

文摘

由于数据量比较大，小编正在更新维护中.....

序言

由于数据量比较大，小编正在更新维护中.....