本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。
作者会展示如何将Spark和R结合起来进行大数据分析。本书涵盖相关的数据科学话题、聚类计算,以及高级用户会感兴趣的问题。
·在Apache Spark环境下,使用R来分析、探索、转换、可视化数据。
·构建统计模型来提取信息并预测输出,自动化生产级的工作流程。
·使用分布式计算技术在多台机器上进行分析和建模。
·轻松使用Spark处理多个数据源和格式的大规模数据。
·学习其他用于大规模图处理、地理空间分析和基因组学分析的建模框架。
·深入高级话题,包括定制转换、实时数据处理和创建定制化Spark扩展。
这本书的目的是帮助所有人通过R使用Apache Spark。第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。