Hive数据仓库应用pdf下载pdf下载

Hive数据仓库应用百度网盘pdf下载

作者:
简介:本篇主要提供Hive数据仓库应用pdf下载
出版社:清华大学出版社
出版时间:2021-09
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

编辑推荐

Hive提出海量数据可以继续沿用传统数据分析方法SQL语句来处理的思想,开发人员不需要学习新的计算机语言而继续使用熟悉的SQL结构化查询语句来处理大规模的数据,Hive中的SQL语句我们称之为HiveQL查询语句,HiveQL查询语句的语法结构与传统SQL语句的语法结构几乎是一模一样的。Hive运行在Hadoop分布式系统中,这使得Hive不仅可以使用HDFS进行分布式存储,而且还可以通过MapReduce分布式计算框架来查询数据,相比于传统数据仓库来说,Hive在存储性能和查询效率上都得到了很好的提升。


本书将带领大家认识Hive的相关技术。通过学习本书,使读者对Hive有一个深刻的认识,本书共分为9章。


内容简介

  《Hive数据仓库应用/大数据技术与应用丛书》从理论知识人手,结合数据仓库的概念帮助读者更好地理解Hive,在掌握Hive相关理论知识的基础上,逐步深入地学习Hive。“工欲善其事,必先利其器”,首先从创建虚拟机并安装Linux操作系统开始逐步完成Hive的部署,然后在部署完成的Hive环境基础上,学习Hive数据定义语言、Hive数据操作语言和Hive数据查询语言的相关操作,在学习了上述三种语言之后,接下来深入学习Hive的其他功能,包括Hive内置函数、Hive自定义函数、Hive的新特性事务以及Hive的相关优化,从而帮助读者掌握Hive的强大功能和特性。最后,《Hive数据仓库应用/大数据技术与应用丛书》通过一个综合项目——教育大数据分析平台,使读者对Hive数据仓库在实际应用中涉及的相关知识内容具有更深入的理解,在此项目中不仅会涉及使用Hive实现数据仓库分层、数据转换和数据分析的相关操作,而且还涉及使用Sqoop将数据仓库中的数据进行导出和导入,以及使用FineBI工具实现数据可视化功能。
  《Hive数据仓库应用/大数据技术与应用丛书》附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习《Hive数据仓库应用/大数据技术与应用丛书》的内容,还提供了在线答疑,欢迎读者关注。
  《Hive数据仓库应用/大数据技术与应用丛书》可以作为高等学校本、专科计算机相关专业,信息管理等相关专业的大数据课程教材,也可以供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
  《Hive数据仓库应用/大数据技术与应用丛书》特点:
  基础书籍:
  Hive数据仓库技术零基础入门
  项目案例:
  深度解析企业级项目,案例的完整开发过程
  资源丰富:
  提供配套资源服务
  内容丰富:
  详细讲解Hive部署、操作和优化

作者简介

江苏传智播客教育科技股份有限公司(简称“传智教育”)是一家致力于培养高素质软件开发人才的科技公司,“黑马程序员”是传智教育旗下高端IT教育品牌。高美云是本书创作团队核心成员,编写过多本教材,均畅销多年,深受读者喜爱。

内页插图

目录

第1章 Hive简介
1.1 认识数据仓库
1.1.1 数据仓库简介
1.1.2 数据仓库分层
1.1.3 数据仓库的数据模型
1.2 Hive概述
1.3 Hive架构
1.4 Hive工作原理
1.5 Hive数据类型
1.6 本章小结
1.7 课后习题

第2章 Hive部署
2.1 Linux环境的搭建
2.1.1 创建虚拟机
2.1.2 启动虚拟机并安装Linux操作系统
2.1.3 克隆虚拟机
2.1.4 配置Linux系统网络及主机名
2.1.5 配置SSH服务
2.2 JDK的部署
2.3 Zookeeper的部署
2.3.1 Zookeeper集群的安装与配置
2.3.2 Zookeeper集群的启动与关闭
2.4 Hadoop的部署
2.4.1 Hadoop高可用集群的规划
2.4.2 安装Hadoop
2.4.3 配置Hadoop高可用集群
2.4.4 启动Hadoop高可用集群
2.5 Hive的部署
2.5.1 Hive部署之嵌入模式
2.5.2 Hive部署之本地模式
2.5.3 Hive部署之远程模式
2.6 本章小结
2.7 课后习题
……

第3章 Hive的数据定义语言
第4章 Hive的数据操作语言
第5章 Hive数据查询语言
第6章 Hive函数
第7章 Hive事务
第8章 Hive优化
第9章 综合项目——教育大数据分析平台

前言/序言

  大数据是信息化发展的新阶段,随着全球数据存储量的不断提高,大数据正进入发展加速时期。近年来,随着5G、AI、云计算、区块链等新一代信息技术的蓬勃发展,大数据技术走向融合发展的关键阶段。同时,我国大数据产业保持良好发展势头,“大数据十行业”渗透融合全面展开,融合生态加速构建,新技术、新业态、新模式不断涌现,政策支持、战略引领、标准规范、产业创新的良性互动局面正在形成。
  随着大数据时代的到来,各企业都积累了大量的数据,随着数据量的不断增长,企业不仅需要花费巨大的硬件成本来存储这些数据,而且还需要人员成本来维护这些数据。对于一个企业来说,如果只是单纯地存储和维护这些数据,那么这些数据将变得毫无价值,只是一种单纯的消耗品,于是企业开始利用这些持续不断增长的数据,从中挖掘出具有潜在商业价值的信息,帮助企业从数据中获取经验,从而为企业创造有效价值。对于这些积累下来的大量数据,通常称为离线数据。常见的离线计算框架有MapReduce和Spark,然而使用这些框架需要开发人员至少拥有Java语言的基础,对于那些熟悉使用SQL的传统数据分析人员来说并不能得心应手,于是一个全新的技术-Hive离线处理工具进入了大众的视野。
  Hive提出海量数据可以继续沿用传统数据分析方法-SQL语句来处理的思想,开发人员不需要学习新的计算机语言而继续使用熟悉的SQL结构化查询语句来处理大规模的数据,Hive中的SQL语句称为HiveQL查询语句,HiveQL查询语句的语法结构与传统SQL语句的语法结构几乎一样。Hive运行在Hadoop分布式系统中,这使得Hive不仅可以使用HDFS进行分布式存储,还可以通过MapReduce分布式计算框架来查询数据,相比于传统数据仓库来说,Hive在存储性能和查询效率上都得到了很好的提升。
  本书带领大家认识Hive的相关技术。通过学习本书,使读者对Hive有深刻的认识,本书共分为9章,接下来分别对每章所讲解的知识内容进行简要介绍。
  第1章主要从数据仓库和Hive的理论知识出发,讲解数据仓库和Hive的相关概念,包括数据仓库分层、数据仓库的数据模型、Hive架构、Hive工作原理等内容。
  第2章讲解如何部署Hive的嵌入模式、本地模式和远程模式,本章从0开始教会读者如何部署Hive,其中包括虚拟机的创建、Linux操作系统的安装与配置、Hadoop高可用集群的部署等内容。
  第3章主要讲解了Hive数据定义语言的相关操作,包括数据库的基本操作、数据表的基本操作,以及分区表、分桶表、临时表、视图和索引的相关操作。
  第4章主要讲解了Hive数据操作语言的相关操作,包括加载文件、基本查询、插人数据以及IMPORT和EXPORT。