书籍详情
《Hadoop权 指南(第4版)+数据算法:Hadoop/Spark大数据处理技巧+Spar》[43M]百度网盘|亲测有效|pdf下载
  • Hadoop权 指南(第4版)+数据算法:Hadoop/Spark大数据处理技巧+Spar

  • 热度:6743
  • 上架时间:2024-06-30 09:38:03
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

Hadoop权 指南(第4版)+数据算法:Hadoop/Spark大数据处理技巧+Spark高级数据分析第二版

9787302465133 9787512395947 9787115404749



Spark高级数据分析第二版【实拍图中展示为版】实际销售为第二版











Hadoop权*指南:大数据的存储与分析(第4版)

>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>

本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。

  本书是一本专业、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。


作者简介

  作者简介

  TomWhite是杰出的Hadoop专家之一。自2007年2月以来,TomWhite一直是ApacheHadoop的提交者(committer),也是Apache软件基金会的成员。Tom是Cloudera的软件工程师,他是Cloudera的首批员工,对Apache和Cloudera做出了举足轻重的贡献。在此之前,他是一名独立的Hadoop顾问,帮助公司搭建、使用和扩展Hadoop。他是很多行业大会的专题演讲人,比如ApacheCon、OSCON和Strata。Tom在英国剑桥大学获得数学学士学位,在利兹大学获得科学哲学硕士学位。他目前与家人居住在威尔士。

  译者简介

  王海博士,解放军理工大学通信工程学院教授,博导,教研中心主任,长期从事无线自组网网络的设计与研发工作,主持国家自然科学基金、国家863计划课题等多项课题,近5年获军队科技进步二等奖1项,三等奖6项,作为di一发明人申请国家发明专利十余项,发表学术论文50余篇。

  华东博士,现任南京医科大学计算机教研室教师,一直致力于计算机辅助教学的相关技术研究,陆续开发了人体解剖学网络自主学习考试平台、诊断学自主学**台和面向执业医师考试的预约化考试平台等系统,并在各个学科得到广泛的使用,获得全国高等学校计算机课件评比一等奖和三等奖各一项。主编、副主编教材两部,获发明专利一项、软件著作权多项。

  刘喻博士,长期从事软件开发、软件测试和软件工程化管理工作,目前任教于清华大学软件所。

  吕粤海,长期从事军事通信网络技术研究与软件开发工作,先后通过华为光网络高级工程师认证、思科网络工程师认证。


数据算法:Hadoop/Spark大数据处理技巧

内容简介:
 《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。 
  主要内容包括: 
  ■ 完成超大量交易的购物篮分析。 
  ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 
  ■ 使用超大基因组数据完成DNA和RNA测序。 
  ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 
  ■ 推荐算法和成对文档相似性。 
  ■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。 
  ■ 等位基因频率和DNA挖掘。 
  ■ 社交网络分析(推荐系统、三角形计数和情感分析)。 


Spark高级数据分析
本书是使用Spark进行大规模数据分析的实战宝典,由大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。