前 言
大数据已经成为当今知识信息时代的一个强烈的音符,几乎所有的领域都在寻找着来自大数据的灵感,几乎每个与海量数据相关的应用都有大数据奏响的乐章。
大数据是指那些数据量特别大、数据类别特别复杂的数据集,这些数据无法用传统的数据库进行存储、管理和处理。大数据的主要特点为数据量大(Volume)、数据类别复杂(Variety)、数据处理速度快(Velocity)和数据真实性高(Veracity),合起来称为4V。
大数据中的数据量巨大,甚至达到了拍字节级别。这些庞大的数据中不仅包括如数字、符号等结构化数据,还包括如文本、图像、声音、视频等非结构化数据。这使得传统的关系型数据库很难满足大数据的存储、管理和处理的需要。在大数据之中,有价值的信息往往深藏其中,这就需要对大数据的处理速度非常快,才能在短时间之内从大量的复杂数据之中获取有价值的信息。在大数据的大量、复杂的数据之中,通常不仅包含真实的数据,虚假的数据也可能混杂其中,这就需要对大数据进行清洗处理,将虚假的数据剔除,利用真实的数据来分析,得出可靠的结果。
大数据表面上看就是大量、复杂的数据,这些数据本身的价值并不高或难以直观获取,但对这些大量、复杂的数据进行分析、处理后,却能从中提炼出很有价值的信息。对大数据的分析主要有数据挖掘算法(Date Mining Algorithms)、分布式计算(Distributed Computing)、预测性分析能力(Predictive Analytic Capabilities)、可视化分析(Analytic Visualization)等。
数据挖掘算法是大数据分析的理论核心,其本质是根据数据处理模型建立起的一组算法,将收集到的数据作为输入,从而能够从大量、复杂的数据中提取有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析,挖掘出以前未知的两者之间的联系,并利用这种联系,提升了商品的销量。淘宝、当当等电子商务系统的推荐引擎和百度的广告系统都大量使用了数据挖掘算法。
对于如何处理大数据,通常采用分布式计算的方式进行分布式存储和分布式处理。Hadoop作为大数据处理的杰出代表,成为分布式计算事实上的国际标准,其采用MapReduce分布式计算框架,以HDFS分布式文件系统作为存储系统,并开发了HBase数据存储系统。
预测性分析能力是大数据分析最重要的应用领域。从大量、复杂的数据中挖掘出规律,建立起科学的模型,通过将新的数据输入模型,就可以预测未来的事件走向。预测性分析能力常常被应用在业务分析、辅助决策、科学研究等领域。
可视化分析是普通消费者常常可以见到的一种大数据分析结果的表现形式,可视化分析将大量复杂的数据转化成直观形象的诸如文字、图表等形式,使其能够更加容易地被用户所接受和理解。
本书力图系统地呈现包括数据挖掘算法、Hadoop大数据存储处理系统等大数据关键技术,并通过通信运营商及互联网电子商务等应用为背景的案例,详尽介绍大数据应用从目标构建、算法建模、程序实现到数据分析与结果呈现的整个过程。
本书由黄宏程、舒毅、欧阳春、舒娜编著,参加编写工作的还有陆卫金、王言通、孙欣然、杨立娜、黄春妮、魏青、冯榆斌。在本书的编写过程中,得到了重庆邮电大学胡敏老师及通信软件工程研究中心的老师和研究生们的诸多帮助,同时也得到了电子工业出版社的大力支持,特表示衷心感谢。本书的部分内容在编著过程中参考了业界的出版物,未能在书中穷尽,在此一并向原作者表示诚挚的感谢!
大数据所涉及的技术内容较多,其发展也非常迅速,由于作者水平有限,书中疏漏之处在所难免,恳请广大读者批评指正。
编著者
2016年3月