商品参数
非结构化数据处理技术及应用 |
 |
曾用价 |
132.00 |
出版社 |
科学出版社 |
版次 |
1 |
出版时间 |
2017年12月 |
开本 |
16 |
著译编者 |
陈燕,李桃迎,张金松 陈燕,李桃迎,张金松 |
装帧 |
平装 |
页数 |
352 |
字数 |
450000 |
ISBN编码 |
9787030531889 |
内容介绍
本书系统详细地阐述了非结构化数据的处理方法与技术。通过对非结构化数据特点的分析,从非结构化数据的基础知识和理论、开源工具及应用举例、数据预处理、预测模型研究、网页数据的采集、非关系型数据库存储、结构化大数据分析平台、电商个性化推荐系统的应用、网购评语情感挖掘、全文检索技术、基于主题的检索系统等不同角度给出了结构化与非结构化数据的分析、挖掘与应用内容。
目录
目录
基础知识篇
第1章 非结构化数据的基础知识 3
1.1 大数据的基本概念 3
1.2 非结构化数据的基本概念 11
1.3 非结构化数据研究的必要性 12
1.4 非结构化数据挖掘的研究领域 13
第2章 非结构化数据挖掘的基础理论 18
2.1 数据挖掘 18
2.2 数据挖掘与其他技术的关系 29
2.3 图像挖掘 33
2.4 视频挖掘 34
第3章 非结构化数据挖掘的开源工具及应用举例 37
3.1 WEKA 37
3.2 R语言简介 49
结构化数据挖掘技术篇
第4章 数据预处理技术 61
4.1 数据预处理 62
4.2 数据清理 63
4.3 数据集成和融合 66
4.4 数据变换 67
4.5 数据归约 70
第5章 预测模型研究与应用 75
5.1 预测模型的基础理论 75
5.2 回归分析预测模型 77
5.3 趋势外推预测模型 92
5.4 时间序列预测模型 99
5.5 基于神经网络的预测模型 111
5.6 马尔可夫预测模型 124
第6章 网页数据的采集技术 129
6.1 网站信息采集相关技术研究 129
6.2 基于爬虫的网站信息采集技术整合设计 138
6.3 基于爬虫的网站信息采集技术整合实现 155
第7章 非关系型数据库存储技术 168
7.1 非关系型数据库系统发展的必然性 168
7.2 非关系型数据库理论 174
7.3 非关系型数据库的使用范例 180
非结构化数据挖掘方法及应用篇
第8章 非结构化大数据的分析平台 193
8.1 HDFS海量存储 195
8.2 Map Reduce 200
8.3 Spark 207
第9章 电商个性化推荐系统的应用 211
9.1 国内外研究现状 211
9.2 电子商务个性化推荐系统理论与技术介绍 212
9.3 基于协同过滤的个性化推荐算法研究与优化 226
9.4 基于移动平台的电商个性化推荐系统设计与实现 243
第10章 网购评语情感挖掘的应用 272
10.1 国内外研究现状 272
10.2 情感挖掘理论知识基础 275
10.3 改进情感倾向模型的建立 291
10.4 改进情感倾向模型的应用验证 300
10.5 基于情感挖掘的预测分析应用 315
参考文献 329
附录一 肯定性和否定性参考词组问卷调查 340
附录二 特殊程度词的影响程度问卷调查 341
在线试读
基础知识篇
第1章 非结构化数据的基础知识
1.1 大数据的基本概念
1.1.1 大数据的定义及特点
“大数据”一词来自于英文“Big Data”,之前我们称之为海量数据。对于什么是大数据这个问题,迄今还没有一个**的定义。大数据是一个抽象的概念,除了数据量庞大这一特征之外还具有其他的特征,研究学者、科技企业、数据分析师等由于各自的关注点和侧重点不同,分别从不同的角度给出了各自对大数据的定义和观点。通过以下定义,可以帮助我们更好地理解大数据在技术、经济和其他应用中的不同内涵(张引等,2013)。
*早提出大数据时代已经到来的麦肯锡咨询机构,对大数据给出的定义为,其是指大小超过常规数据库工具的具备获取、存储、管理和分析能力的“数据集”。该定义包括两方面的内涵:一是符合大数据标准的数据集的大小会随着时间的推移、技术的进步而增长(胡文静等,2015);二是不同部门符合大数据标准的数据集的大小会存在差别。麦肯锡全球研究院(Mc Kinsey Global Institute,MGI)报告指出,数据集的大小并不是评判大数据的**标准,数据规模的不断扩大和无法使用传统的数据管理工具满足数据处理需求也是大数据的特点。
IBM 则将大数据的特点总结为4个V——数量(volume)、多样性(variety)、速度(velocity)和真实性(veracity)。IBM认为,尽管前3个V涵盖了大数据本身的关键属性,但真实性是当前企业亟须考虑的重要维度(闫城榛和韩志国,2013),将促使企业利用数据融合(data fusion)和先进的数学方法进一步提升数据的质量,从而创造更高价值。
研究机构Gartner认为,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(李鹏,2014)。从数据的类别上看,大数据是指无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集(吕本富和陈健,2014)。
关于大数据,另一个被各学术和应用领域广泛引用的定义是维基百科给出的,即大数据是指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息(何海波,2014)。
此外,美国国家标准和技术研究院从学术的角度也对大数据做出了定义:“大数据是指其数据量、采集速度或数据表示限制了使用传统关系型方法进行有效分析的能力,或需要使用重要的水平缩放技术来实现高效处理的数据。”
综上所述,大数据是指超出了传统方式分析和处理能力的数据集,很难适用于既有的数据库架构(黄永勤,2014),传统的软件工具难以进行数据的捕捉、存储、管理和分析,必须考虑新的处理模式和管理工具。同时,大数据的数据获取由传统的抽样转变为所有数据,对数据的分析更注重对数据的关联关系的探索和对事物的未来发展趋势的预测。
随着大数据的发展,大数据的概念也在不断得到充实和发展。大数据已经成为当今知识管理、商业智能领域*热门的话题之一。全球互联网巨头都已意识到了在“大数据”时代数据的重要意义,包括 EMC、惠普、IBM、微软、Oracle、SAP、Teradata 在内的全球IT巨头纷纷通过收购大数据相关厂商来实现技术整合,可见其对大数据的重视(赵金明,2013)。受益于“大数据”概念的行业业内人士表示“大数据”产业链条包含了数据生成、数据存储、数据处理和数据展示等一个完整的生态系统之中的多个环节。
完整的生态系统还应当包括大数据处理结果的应用,与大数据相关的公司有以下几类。
(1)与海量数据的存储和处理相关的公司。
(2)与数据中心建设与运营维护相关的公司。
(3)与视频化应用相关的公司。
(4)与智能化和人机交互概念相关的公司(表 1.1)。
表 1.1 大数据概念股一览表
大数据有四个典型的特征,具体如下。
1)数据容量大
EMC公司2014年发布了*新的数据宇宙报告《充满机会的数字宇宙:丰富的数据和物联网不断增长的价值》,这是业界**的,量化并预测年度数据产生量的研究报告。报告显示,2013年全球数据量为4.4ZB,在接下来的十年,全球数据量仍将保持40%的速度增长,每两年翻一番(马建堂,2015),2013~2020年全球数据量将增长9倍,由4.4ZB增至44ZB①。
社会的数据量已经由 TB、PB 级别跃升至EB、ZB级别。这是一个什么概念呢?先来回顾一下各数据衡量单位之间的换算关系:
1 kilobyte(KB)=103byte
1 megabyte(MB)=106byte
1 gigabyte(GB)=109byte
1 terabyte(TB)=1012byte
1 petabyte(PB)=1015byte
1 exabyte(EB)=1018byte
1 zettabyte(ZB)=1021byte
1 yottabyte(YB)=1024byte
1 nonabyte(NB)=1027byte
1 doggabyte(DB)=1030byte
《充满机会的数字宇宙:丰富的数据和物联网不断增长的价值》中将其形容为,假设一个字节的数据是一加仑(1加仑≈3.785升)水的话,仅十秒就会有足够的数据填满一个普通房子。到2020年,这一过程将仅花费两秒时间。假设将2013年全球的数据用iPad来存储,它们叠加起来的长度会超过三分之二的地球到月球的距离(253 704千米)。到2020年,全球的数据总量将填满6.6个地球到月球距离的堆栈。
2)数据类型多
按照数据结构,数据可以划分为结构化数据、半结构化数据和非结构化数据(王晓波,2014)。数据不仅仅单纯指人们在互联网上发布的信息(包括网络日志、社会数据、互联网文本和文件;互联网搜索索引;呼叫详细记录、天文学、大气科学、基因组学、生物和其他复杂或跨学科的科研、军事侦察、医疗记录、摄影档案馆视频档案、大规模的电子商务等信息),也包括全世界的工业设备、汽车、电表上无数的数码传感器随时测量和传递的有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等海量的数据信息。
结构化数据是我们传统的使用习惯上的数据形式,基本是表格式的数据。目前对结构化数据的处理技术已经相当成熟,一般用关系型数据库进行结构化数据的处理。
相对于便于存储的结构化数据,在企业和人们日常生活中接触到的半结构和非结构化数据越来越多,高清图像、视频、音频等多媒体文件都属于非结构化数据。在大数据环境下,非结构化大数据对存储、管理和处理这些复杂的多形态的数据对的能力提出了更高要求。Hadoop 的流行简化了非结构化数据的处理难度,对非结构化数据的处理将是大数据挖掘的重要方向。
半结构化数据是介于结构化数据和非结构化数据之间的一种数据,它是结构化的数据(黄远鸣,2014),但是结构变化很大,不能完全按照非结构化或者结构化数据的处理方式来进行分析处理。
3)商业价值高
对于大数据的价值,一方面是通过大数据挖掘,发现以往没有发现的新规律和新知识;另一方面是新的结果能够直接应用到相关的生产经营当中,产生直接的经济效益。通常价值密度的高低与数据总量的大小成反比(廖仕东,2015)。以遍布城市各地的监控视频为例,一部 1 小时的视频,在连续不间断的监控中,有用数据可能仅占一两秒。2013年,数字宇宙中仅22%的信息被视为有用数据,但实际上仅有不到5%的有用数据得到了分析。到2020年,由于物联网带来的数据增长,所有数据中35%的数据将被视为有用数据。如何通过强大的机器算法更迅速地完成对数据的价值“提纯”成为目前大数据背景下亟待解决的难题(朱建平和李秋雅,2014)。
4)处理速度快
所谓1秒定律指的是对处理速度的要求,一般要在秒级时间范围内给出分析结果,如果时间太长就失去了价值,因为客户的体验就在一秒之间。这是大数据区分于传统数据挖掘的*显著特征(阎巍和李俭,2015)。在面对蕴含巨大商业价值的海量数据时,处理数据的效率就是企业的生命。传统的数据处理方式已经无法满足如此海量的数据的高效处理需求,大数据时代对数据驾驭能力提出了新的挑战,也为人们获得更为深刻和全面的潜在价值提供了机遇(龚文峰,2014)。
1.1.2大数据的发展背景及历程
1. 企业级应用
随着企业信息化应用的逐渐深入,信息处理系统随之产生了大量的数据。在企业的经营管理过程中,企业的内部业务企业资源计划(enterprise resource planning,ERP)系统、财务系统、办公自动化(office automation,OA)系统、