《大数据技术基础实验》[51M]百度网盘|pdf下载|亲测有效
《大数据技术基础实验》[51M]百度网盘|pdf下载|亲测有效

大数据技术基础实验 pdf下载

出版社 番茄雅图书专营店
出版年 2020-01
页数 390页
装帧 精装
评分 9.3(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供大数据技术基础实验电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

内容简介

《大数据技术基础实验》为“大数据技术基础”的实验教程,可以和《大数据技术基础》教材配套使用。该书主要分为五大部分:大数据存储技术实验教程(分布式文件系统和NoSQL数据库),大数据处理框架实验教程(MapReduce和Spark、实时处理框架Storm和Flink),大数据分析技术实验教程(Druid、Drill、Kylin),大数据可视化实验教程,大数据综合应用实验案例。该书围绕典型大数据应用系统所需的各个组成部分设计实验,指导读者开展大数据应用实践。
《大数据技术基础实验》可作为计算机学科相关专业,尤其是数据科学与大数据技术专业的专业教材,也可作为大数据相关专业从业人员的参考用书。

作者简介

欧中洪,北京邮电大学计算机学院副院长,副教授;科技部现代服务业共性服务联盟副秘书长,中国通信标准化协会TC11 VR/AR子工作组副组长,中国互联网协会青年专家。长期从事大数据分析、人工智能与深度学习、云计算与分布式系统等方面的研究工作。研究成果曾被BBC News,ACM TechNews,The Registry等国际知名媒体报道。主持或承担国家重点研发计划、国家科技支撑计划、国家自然科学基金项目等多项,发表高水平学术论文60余篇,其中SCI检索20余篇。担任多个国际知名期刊的审稿人,多个国际知名学术会议的程序委员会主席或委员。

内页插图

目录

第1章大数据存储:分布式文件系统及NoSQL数据库实验教程1
1.1HDFS常用操作1
1.2HBase的安装6
1.3HBase的Shell连接与数据操作7
1.4Redis数据库的安装和使用11
1.5MongoDB数据库的安装和使用17
1.6Neo4j数据库的安装和使用22
第2章大数据处理:MapReduce处理框架实验教程27
2.1实验目的27
2.2实验要求27
2.3预备知识27
2.4实验内容(5个实验)28
2.5实验作业64
2.6扩展资料65
2.7参考答案78
第3章大数据处理:分布式处理框架Spark实验教程79
3.1Spark安装79
3.2Sparkshell83
3.3Spark Scala87
3.4Spark Python99
3.5Spark MLlib103
第4章大数据处理:实时处理框架实验教程110
4.1Storm伪分布式部署及其基本操作110
4.2Flume安装及其基本操作124
4.3Kafka安装及其基本操作131
4.4Spark Streaming安装及其基本操作135
4.5Flink安装及其基本操作150
第5章大数据分析:分布式数据查询实验教程164
5.1Hive的数据导入与数据查询164
5.2Druid的安装171
5.3Druid的数据摄入与数据查询175
5.4Drill的部署181
5.5Drill命令行与PyDrill的基础使用183
第6章大数据分析:Kylin多维分析实验教程186
6.1Kylin的安装186
6.2Demo案例实战189
6.3多维分析的Cube创建实战193
6.4通过RESTful访问Kylin208
第7章大数据可视化实验教程215
7.1ECharts数据可视化215
7.2Plotly数据可视化218
7.3D3.js绘制知识图谱222
第8章大数据综合实验案例231
8.1案例简介231
8.2实验步骤232
8.3数据集下载232
8.4数据集导入数据仓库Hive233
8.5Hive数据分析237
8.6数据挖掘240
参考文献247

前言/序言

本书共分为8章。
第1章为大数据存储技术的实验教程,主要介绍主流分布式存储系统,包括HDFS常用操作、HBase的安装、HBase的Shell连接与数据操作、Redis数据库的安装和使用、MongoDB数据库的安装和使用、Ne04j数据库的安装和使用。
第2章主要介绍Hadoop框架中MapReduce的安装部署和基本操作,包括MapReduce的伪分布模式安装和完全分布模式安装,并以具体的单词计数、数据去重、二次排序、数据自定义格式输出等实验为例,利用MapReduce实现分布式并行计算。
第3章主要介绍基于内存的分布式计算框架Spark的安装部署和基本操作,包括Spark集群的安装部署,Spark-shell的基本操作,Spark Scala开发环境,PySpark的执行方式,Spark MLlib的基本使用方法等。
第4章主要介绍流处理框架的安装部署和基本操作,包括Storm的部署和基本操作,Flume数据收集系统的安装和使用,消息系统Kafka的安装和基本操作,Spark Streaming的安装和基本操作,Flink的安装和基本使用流程。
第5章主要介绍分布式查询引擎的安装部署和基本操作,包括Druid的安装部署、数据导入和查询,Drill的安装和使用。
第6章主要介绍大数据多维分析引擎的安装部署和使用,包括Kylin的安装和使用,创建多维分析Cube,利用REST方式访问Kylin。
第7章主要介绍大数据可视化系统的安装部署和基本操作,包括ECharts系统的安装和基本使用流程、利用ECharts绘制可视化图表等,以及Plotly可视化系统的安装和使用。
第8章为大数据综合实验,包括数据采集、预处理、存储、查询和可视化分析、数据挖掘等,实现数据全流程操作。
本书可作为数据科学与大数据技术专业本科高年级专业课教材,也可作为研究生相关专业的参考资料。同时,本书可以和《大数据技术基础》教材配套使用。《大数据技术基础》从大数据基础理论和技术方面提供相关知识,有助于构建大数据技术的知识体系。
本书的编写得到了北京邮电大学PCN&CAD中心、教育部信息网络工程研究中心和北京邮电大学计算机学院数据科学与服务中心多名教师与研究生的支持,他们是:宋美娜、鄂海红、宋俊德、毕秋波、韩鹏吴、田川、孔慧慧、赵淑晨、吴金盛、温宇飞、万仁山、谭泽华、陈小康、韦帅丽、朱永波,在此一并表示感谢。
感谢国家重点研发计划项目“大数据征信及智能评估技术”“科技资源与服务集成技术”“京津冀协同创新综合科技服务发展模式及支撑技术研究”“基于大数据的科技咨询技术与服务平台研发”,国家科技条件平台计划项目“国家人类遗传资源共享服务平台北京创新中心建设”等项目对本书的大力支持。
由于作者水平有限,书中难免存在不足和错误之处,恳请广大读者批评指正。