Hive数据仓库案例教程 pdf下载pdf下载

Hive数据仓库案例教程百度网盘pdf下载

作者:
简介:本篇提供书籍《Hive数据仓库案例教程》百度网盘pdf下载
出版社:出版集团图书专营店
出版时间:2021-08
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

  • 商品名称:Hive数据仓库案例教程
  • 作者:王剑辉
  • 定价:45
  • 出版社:电子工业
  • 书号:9787121418068

其他参考信息(以实物为准)

  • 出版时间:2021-08-01
  • 印刷时间:2021-08-01
  • 版次:1
  • 印次:1
  • 开本:
  • 包装:平装
  • 页数:191
  • 字数:320千字

内容提要

本书系统介绍Hive数据仓库的相关知识和技术。全书共12章,主要内容包括Hive数据仓库基础、Hive环境搭建、Hive基础、Hive数据定义、Hive数据操作、HQL查询、Hive函数、Hive数据压缩、Hive优化、Hive综合案例和上机实验等。本书知识结构简单明了,案例生动具体,内容设计新颖。本书免费提供教学大纲、电子课件和所有案例源代码,书后附有部分习题参考答案。本书可作为普通高校数据科学与大数据相关专业的教材,也可作为想继续深入了解大数据存储和开发的读者的参考书,还可作为各类大数据相关培训的教材。

作者简介

王剑辉,沈阳师范大学数学与系统科学学院教授,长期从事Web应用程序设计,Hive数据仓库,Hadoop大数据技术、Java程序设计、人工智能等方面的科研与教学工作。

目录

第1章 Hive数据仓库基础1
1.1 数据仓库1
1.1.1 数据仓库的概念1
1.1.2 数据仓库的特点 3
1.1.3 数据仓库的数据模型3
1.1.4 数据仓库的体系结构4
1.2 Hive数据仓库5
1.3 Hive体系结构及执行流程6
1.3.1 Hive体系结构6
1.3.2 Hive执行流程8
1.4 Hive数据仓库和数据库比较8
习题110
第2章 Hive环境搭建12
2.1 Hive安装及配置12
2.1.1 Hive的安装模式12
2.1.2 Hive安装及配置过程12
2.1.3 Hive基本操作14
2.2 MySQL安装及配置15
2.2.1 MySQL安装包准备15
2.2.2 MySQL服务器端安装15
2.2.3 MySQL客户端安装16
2.3 Hive元数据配置16
2.3.1 驱动复制16
2.3.2 配置元数据到MySQL16
2.3.3 多终端启动Hive17
2.4 Hive JDBC连接18
2.4.1 HiveServer2配置18
2.4.2 HiveServer2启动18
2.4.3 Beeline启动18
2.4.4 HiveServer2连接19
2.5 Hive常见属性配置19
2.5.1 Hive位置配置19
2.5.2 信息显示配置19
2.5.3 运行日志信息配置 20
2.5.4 Hive参数配置方式 20
习题2 21
第3章 Hive基础 23
3.1 Hive数据类型 23
3.1.1 基本数据类型 23
3.1.2 复杂数据类型 24
3.1.3 数据类型转换 24
3.2 Hive运算符 25
3.2.1 算术运算符 25
3.2.2 比较运算符 25
3.2.3 逻辑运算符 26
3.2.4 复杂运算符 26
3.3 Hive数据存储 27
3.4 Hive表存储格式 27
3.4.1 行式存储和列式存储28
3.4.2 TextFile格式28
3.4.3 SequenceFile格式28
3.4.4 ORC格式29
3.4.5 Parquet格式29
3.5 Hive常用交互命令30
3.6 Hive其他操作命令31
习题331
第4章 Hive数据定义34
4.1 数据仓库的创建34
4.2 数据仓库的查询35
4.2.1 显示数据仓库35
4.2.2 查看数据仓库详情35
4.2.3 切换数据仓库35
4.3 数据仓库的修改35
4.4 数据仓库的删除36
4.5 表的创建36
4.5.1 内部表37
4.5.2 外部表40
4.5.3 内部表和外部表的转换42
4.6 分区表42
4.6.1 分区表基本操作43
4.6.2 二级分区表创建45
4.7 桶表46
4.8 表的修改48
4.8.1 重命名48
4.8.2 增加和删除分区48
4.8.3 修改、增加和替换列49
4.9 表的删除51
4.10 视图52
习题457
第5章 Hive数据操作60
5.1 数据导入60
5.1.1 Load加载数据60
5.1.2 Insert插入数据61
5.1.3 As Select加载数据63
5.1.4 Location加载数据63
5.1.5 Import加载数据64
5.2 数据导出64
5.2.1 Insert语句导出64
5.2.2 Hadoop命令导出65
5.2.3 Hive Shell命令导出65
5.2.4 Export语句导出65
5.2.5 Sqoop导出65
习题566
第6章 HQL查询68
6.1 Select基本查询68
6.1.1 全表和特定列查询68
6.1.2 列的别名69
6.1.3 Limit语句69
6.2 Where语句69
6.2.1 Like的使用71
6.2.2 Rlike的使用72
6.3 分组语句74
6.3.1 Group By语句74
6.3.2 Having语句74
6.4 Join语句75
6.4.1 等值连接75
6.4.2 表的别名76
6.4.3 内连接76
6.4.4 左外连接76
6.4.5 右外连接76
6.4.6 满外连接76
6.4.7 左半连接77
6.4.8 多表连接77
6.4.9 笛卡儿积Join78
6.5 排序79
6.5.1 Order By全局排序79
6.5.2 字段别名排序80
6.5.3 多字段排序81
6.5.4 Sort By内部排序81
6.5.5 Distribute By分区排序83
6.5.6 Cluster By排序83
6.6 抽样查询84
6.6.1 桶表抽样查询84
6.6.2 数据块抽样查询85
6.6.3 随机抽样查询87
习题687
第7章 Hive函数89
7.1 Hive内置函数89
7.1.1 数值计算函数89
7.1.2 聚合函数90
7.1.3 日期时间函数91
7.1.4 条件函数92
7.1.5 字符串处理函数93
7.1.6 内置函数查看命令96
7.2 其他常用函数96
7.2.1 空字段赋值函数96
7.2.2 列转行函数97
7.2.3 窗口函数100
7.2.4 排序函数106
7.3 自定义函数108
7.3.1 UDF函数108
7.3.2 UDTF函数110
7.3.3 UDAF函数112
习题7113
第8章 Hive数据压缩116
8.1 数据压缩格式116
8.2 Hadoop压缩配置117
8.2.1 Snappy压缩方式配置117
8.2.2 MapReduce支持的压缩编码118
8.2.3 MapReduce压缩格式参数配置118
8.3 Map输出压缩开启119
8.4 Reduce输出压缩开启119
8.5 常用Hive表存储格式比较120
8.5.1 存储文件的压缩比测试120
8.5.2 存储文件的查询速度测试122
8.6 存储和压缩结合123
习题8125
第9章 Hive优化127
9.1 Hive参数优化127
9.1.1 本地模式127
9.1.2 Fetch抓取128
9.1.3 并行执行128
9.1.4 严格模式129
9.1.5 推测执行130
9.1.6 JVM重用131
9.2 数据倾斜131
9.2.1 合理设置Map个数131
9.2.2 合并小文件132
9.2.3 复杂文件增加Map个数132
9.2.4 合理设置Reduce个数133
9.3 HQL优化134
9.3.1 Group By优化134
9.3.2 小表、大表Join134
9.3.3 大表Join大表136
9.3.4 MapJoin137
9.3.5 Count优化138
9.3.6 行/列过滤优化139
9.3.7 动态分区调整优化140
9.3.8 执行计划优化141
习题9142
0章 综合案例1:广电大数据分析144
10.1 案例需求分析144
10.2 案例数据及建表144
10.2.1 原始数据144
10.2.2 数据表结构144
10.2.3 创建表145
10.2.4 向TextFile表导入数据147
10.2.5 向ORC表导入数据147
10.3 数据统计分析147
10.3.1 基本信息查询147
10.3.2 单个用户观看时长Top20148
10.3.3 用户观看时长Top20149
10.3.4 电视观看数Top20150
10.3.5 电视观看时长Top20150
10.3.6 用户正常状态及数量151
1章 综合案例2:影评大数据分析152
11.1 案例需求分析152
11.2 案例数据及建表152
11.2.1 原始数据152
11.2.2 创建表及导入数据153
11.2.3 基本信息查询153
11.3 数据统计分析154
11.3.1 评分次数 多的10部电影154
11.3.2 性别当中评分 的10部电影154
11.3.3 一部电影各年龄段的平均影评156
11.3.4 评分 的10部电影的平均影评分156
11.3.5 好片 多年份的 看电影 0157
11.3.6 评分 的10部Comedy类电影158
11.3.7 各种类型电影中评价 的5部电影159
2章 上机实验163
实验1 Hive安装部署163
实验2 Hive数据定义165
实验3 Hive数据操作167
实验4 Hive分区表和桶表171
实验5 Hive查询174
实验6 Hive分组排序177
实验7 Hive JDBC连接179
实验8 Hive UDF182
附录A Hive常用网址185
附录B 常见错误及解决方案186
附录C 部分习题答案188
参考文献 191