大数据分析从理论到实践 pdf下载pdf下载

大数据分析从理论到实践百度网盘pdf下载

作者:
简介:本篇提供书籍《大数据分析从理论到实践》百度网盘pdf下载
出版社:蓝墨水图书专营店
出版时间:
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍




书名:大数据分析:从理论到实践

定价:49.00

出版社:电子工业出版社

作者:成生辉 著

版次:1版

出版时间:2021年07月

开本:16开

作者:无

页数:172

字数:239000

ISBN编码:9787121412615




本书包含10章,分为:1章,阐述数据分析的基础理论;2章,介绍数据清洗和数据获取的知识和方法;3章至9章,覆盖了基础统计分析、多维数据分析、时序数据分析、地理数据分析、图数据分析、文本数据分析和多媒体数据分析,包括每种分析方法的基础定义、分析方法和工具使用到具体领域的可视化实用案例;10章,以中国社会发展数据演示分析方法的使用。书中提到的基础理论知识都有配套的在线实践工具,能够让用户在学习基础理论知识之后和实践进行连接,真正达到学以致用的效果。通过实践工具,用户可以实现独自完成数据可视化分析案例的产出。本书采用了可视化辅助分析的办法,通俗易懂,不拘泥于数学公式。 本书不仅可作为数据分析初学者的入门手册,也可作为数据分析学者进行数据研究和案例分析的参考指南。




1章 引言 1 
 1.1 大数据的发展历程 1 
 1.2 大数据的概念和定义 3 
 1.2.1 大量(Volume) 4 
 1.2.2 多样(Variety) 5 
 1.2.3 价值密度低(Value) 5 
 1.2.4 高速(Velocity) 5 
 1.2.5 真实性(Veracity) 6 
 1.3 大数据对社会的影响 6 
 1.3.1 大数据促进经济发展 6 
 1.3.2 大数据提升社会保障 7 
 1.3.3 数据治国 8 
 1.4 大数据的分析方法 9 
 1.4.1 统计 9 
 1.4.2 数据挖掘 10 
 1.4.3 人工智能 11 
 1.5 数据可视化技术 11 
 1.5.1 可视化历史 11 
 1.5.2 可视化概述 12 
 1.5.3 可视化应用 15 
 2章 数据预处理 17 
 2.1 什么是网络爬虫 17 
 2.2 网络爬虫的实现 18 
 2.2.1 Python编程语言 18 
 2.2.2 正则表达式 19 
 2.2.3 文本标记语言 21 
 2.2.4 文本传输协议 23 
 2.3 数据清洗 24 
 2.3.1 处理缺失值 24 

2.3.2 处理异常值 25 
 2.3.3 处理噪声 26 
 3章 基础统计分析 29 
 3.1 统计学的基本概念 29 
 3.2 连续变量的统计描述 30 
 3.2.1 频数 30 
 3.2.2 集中趋势描述指标 32 
 3.2.3 离散趋势描述指标 33 
 3.3 分类变量的统计描述 33 
 3.4 常用统计图 34 
 3.4.1 饼图 35 
 3.4.2 柱状图 36 
 3.4.3 散点图 38 
 3.4.4 折线图 39 
 3.5 统计分析应用示例 41 
 3.5.1 人口变化总趋势 41 
 3.5.2 人口结构变化 42 
 3.5.3 二胎与生育率 43 
 4章 多维数据分析 45 
 4.1 多维数据概述 45 
 4.2 多维数据过滤分析 46 
 4.3 相关性分析 50 
 4.3.1 一般性相关性分析 50 
 4.3.2 多维数据可视化相关性分析 51 
 4.4 聚类分析 52 
 4.5 降维分析 54 
 4.5.1 主成分分析 54 
 4.5.2 多维尺度变换 56 
 4.5.3 T分布随机邻域嵌入 57 
 4.6 多维特征提取 58 
 4.6.1 雷达图 59 
 4.6.2 用户画像 59 
 4.6.3 Radviz特征提取 60 
 4.7 多维数据分析应用示例 61 
 4.7.1 郡县特征的关联度 61 
 4.7.2 多维度分析得票率的关键因素 63 
 5章 时序数据分析 65 
 5.1 时序数据概述 65 
 5.2 多维时序数据呈现——折线 67 
 5.3 多维时序数据呈现——柱状 69 
 5.4 预测分析 72 
 5.4.1 移动ping均 72 
 5.4.2 指数ping滑 73 
 5.4.3 三次指数ping滑 74 
 5.5 周期性检测 75 
 5.6 时序分析应用示例 77 
 5.6.1 美国各州新冠病毒肺炎确诊病例数的动态变化 77 
 5.6.2 美国纽约州、加州疫情发展变化 79 
 5.6.3 美国疫情总体态势 80 
 5.6.4 美国疫情预测 81 
 6章 地理数据分析 83 
 6.1 地理热度分析 83 
 6.2 地理空间分析 86 
 6.3 连接地图 87 
 6.4 地理分析应用示例 88 
 6.4.1 美国疫情确诊情况 88 
 6.4.2 美国疫情死亡情况 90 
 6.4.3 美国疫情传播分析 91 
 6.4.4 宅在家里还是出门旅行 93 
 7章 图数据分析 95 
 7.1 图数据概述 95 
 7.2 树图 96 
 7.3 图数据的量化可视化分析 98 
 7.3.1 矩形树图 98 
 7.3.2 旭日图 98 
 7.4 图数据嵌套关系分析 99 
 7.4.1 矩形堆积图 99 
 7.4.2 圆堆积图 100 
 7.5 图数据中的关联数据 101 
 7.5.1 弧线图 101 
 7.5.2 极坐标弧线图 101 
 7.5.3 弦图 102 
 7.5.4 冲积图 103 
 7.6 力导向布局分析 104 
 7.6.1 力导向设计思路 104 
 7.6.2 力导向布局优点 104 
 7.6.3 力导向布局缺点 105 
 7.7 搜索算法 105 
 7.7.1 广度优先搜索算法 106 
 7.7.2 深度优先搜索算法 108 
 7.8 #短路径算法 109 
 7.9 图分析应用示例 109 
 7.9.1 美国人口普查分区 110 
 7.9.2 美国新冠病毒肺炎确诊病例按人口普查分区分布 110 
 8章 文本数据分析 115 
 8.1 文本数据概述 115 
 8.2 文本向量化 116 
 8.2.1 词袋模型 116 
 8.2.2 Word2Vec模型 116 
 8.3 分词 118 
 8.4 关键词提取 120 
 8.5 知识图谱 121 
 8.6 其他文本处理技术简介 122 
 8.7 文本分析应用示例 124 
 8.7.1 和拜登社交媒体回复——舆情分析 124 
 8.7.2 和拜登在社交媒体上的宣传策略 125 
 8.7.3 小结 127 
 9章 多媒体数据分析 129 
 9.1 数字图像处理 129 
 9.1.1 亮度调整 130 
 9.1.2 直方图均衡化 132 
 9.1.3 高斯ping滑 133 
 9.1.4 边缘检测 135 
 9.2 数字音频处理 135 
 9.3 数字视频处理 137 
 9.4 多媒体分析应用示例 137 
 10章 综合应用示例:中国社会发展调研 139 
 10.1 经济总体指标分析 139 
 10.2 城镇化发展分析 142 
 10.3 国际影响力分析 145 
 10.4 科技发展分析 147 
 10.5 教育发展分析 149 
 10.6 文化发展分析 151 
 10.7 医疗卫生发展分析 153 
 10.8 环境治理状况分析 154 
 10.9 居民收入变化分析 156 
 参考资料