前 言
随着Web 2.0技术的发展,尤其是移动互联网的飞速发展,每个人、每台手机、每个iPad及每台血压计、血糖测量仪等各种智能移动设备无时无刻不在产生数据。大数据(Big Data)正在不断地渗透到人们生活中的每个角落,也在不断地改变人们的生活方式,并引导新兴的产业革命,在给传统行业带来巨大冲击的同时也带来了巨大的新机遇和挑战。一个企业甚至一个国家拥有的数据规模和质量,以及处理和分析数据的能力,已经成为判断一个企业或者一个国家竞争力的最为重要的标志之一,拥有多少大数据资源及如何管理并使用这些大数据资源,已经成为是否具有核心竞争力的关键因素。为了迎接大数据带来的各种挑战和机遇,全球各个国家和企业对大数据的重视程度均达到了一个前所未有的高度。从全球角度来看,很多国家已经把大数据作为一项国家科技意志。例如,美国政府已经制订了大数据研究和发展计划,日本为了增强经济活力提出了大数据战略计划等。不仅如此,一些知名公司如Google、IBM及EMC等也成立了专门的大数据研究机构,以应对在大数据研究和应用中的各项关键技术挑战及应用实现所面临的问题。
2008年,在Google成立10周年之际,《自然》(Nature)杂志出版了一期专刊,专门讨论了未来大数据处理相关的一系列技术问题和挑战。2011年2月11日美国出版的《科学》(Science)期刊专门出版了一期数据处理(Dealing with Data)专辑,围绕目前科学研究的海量数据处理问题展开讨论,并阐述了大数据对科学研究的重要性。在随后的2011年9月4日,《自然》再次就大数据研究问题设立了一个大数据方面的专题,讨论分析了现代科学研究面临的一个巨大挑战,即如何处理已有的大数据。目前,我国对大数据的认识也越来越深刻,各行各业均利用大数据进行各种研究及应用。
如上所述,大数据正在各行各业扮演着十分重要的角色,例如:①天文学领域。如通过对大数据的分析,掌握宇宙形成机理、宇宙黑洞形成及演化机理、星球消亡与再生原理等。②物理学领域。如大家所熟知的希格斯“上帝粒子”的大数据计算分析,核弹爆炸及氢弹爆炸的大数据计算模拟。③生物学领域。如基因排序的大数据计算,生命演化过程的大数据计算模拟及生物制药的化学反应大数据计算模拟等。④地理学领域。如地震预警中的大数据计算,海啸预警和防范的大数据计算,以及全球变暖预测的大数据计算等。⑤社会计算媒体领域。主要有以Facebook、Google和人人网为代表的社交交友网站的大数据计算,以Twitter、新浪微博及腾讯微博为代表的社交信息传播网站的大数据计算(美国总统奥巴马在总统选举中采用了对Twitter大数据的分析,这是帮助他实现连任总统的关键所在),以天涯论坛为代表的论坛大数据的分析计算等。⑥电子商务领域。主要有以eBay、阿里巴巴、淘宝网为代表的电子商务大数据计算分析。⑦金融领域。主要有银行及股票交易系统的大数据实时分析,新兴的互联网金融或者大数据金融形态主要有余额宝、百度百发及微信支付等。⑧能源、交通领域。主要有电网的大数据实时分析监控,能源调度大数据分析,城市公交线路规划优化及交通道路路线选择的大数据实时分析等。⑨通信领域。如PB级的电信、移动、联通等通话记录及短消息记录的大数据计算分析。⑩其他领域。如人工智能的大数据分析、反恐领域的大数据分析、影视领域的大数据分析、文化领域的大数据分析、食品安全检查领域的大数据分析、航空领域的大数据分析、电子商务领域的大数据分析、在线教育领域的大数据分析、健康医疗领域的大数据分析等。
大数据已经成为全球及全社会各行各业最为重要的战略资源。如何管理好大数据,并从大数据中挖掘出它的潜在价值将是大数据未来的主要发展方向。大数据将普遍应用于国民生产中的各个领域,包括政府、医疗、经济、社会、教育、航空航天、军事及互联网和物联网等各个领域。本书后面几章将给出一些具体的案例进行初步分析,以期更深入地从应用的角度理解大数据及其在各种应用中的价值所在。
如何处理这些密集型应用所需的大数据显得越来越重要。与其他学科不同,大数据作为一门崭新的学科,尚未形成一套理论体系,依然存在许多关键的问题没有解决,甚至在大数据这门学科中到底有哪些基础理论、关键问题、核心技术等都没有一个完整的概念。鉴于此,本书研究大数据背后的核心技术并对一些具体的应用领域进行了分析。下图展示了本书的总体架构和研究内容。
本书章节关系图
第1章:大数据基本概念。本章主要分析大数据的一些基本概念,包括大数据定义、大数据度量、大数据表示、大数据的语意理解及大数据和云计算的关系等。
第2章:可编程数据中心。本章设计了一种可编程数据中心模型,该可编程数据中心模型将充分考虑能源消耗、基于各种智能调度的大数据放置方法等。
第3章:云文件系统。本章主要分析了现有的常用云文件系统,如谷歌GFS,Hadoop HDFS等,并分析了现有云文件系统的缺陷,最后提出了一种新的语意云文件系统的简要设计思路SCFS。
第4章:云数据库系统。本章主要分析了现有的常用云数据库系统,如谷歌BigTable、Hadoop HBase等,并分析了现有云数据库系统的缺陷,最后提出了一种新的语意云数据库系统的简要设计思路。
第5章:大数据并行编程与分析模型。本章主要分析了现有的常用大数据并行编程与分析模型,如谷歌MapReduce、Hadoop MapReduce、Hadoop++、Twister等,并分析了现有大数据并行编程与分析模型的缺陷,最后提出了一种新的大数据并行编程与分析模型的简要设计思路SemanMR。另外,为了提高大数据实时处理效率,本章设计了一种初步的大数据实时处理方法。
第6章:大数据智能计算算法。本章主要总结了当前大数据智能计算常用的一些智能算法,并做了相应的分析。
第7章:基于大数据的数据仓库技术。本章分析了现有的常用大数据仓库技术,如Hive、Pig等,并提出一种新的基于大数据的数据仓库技术的简要设计思路。
第8章:大数据安全与隐私保护。本章介绍了在云环境下的大数据安全与隐私保护机制及相应的各种方法和算法。
第9章:基于大数据的语意软件工程方法。本章根据大数据这门新学科的特点,提出了一种基于大数据的语意软件工程的方法,为基于大数据的软件系统的开发提供了一种新的软件工程的研究、设计和开发思路。
第10章:基于规则的大数据流处理介绍。本章介绍了基于规则的大数据流处理所涉及的一些基本概念及基础知识。
第11章:语意规则描述模型。本章介绍了一种可以表示各种粒度(大粒度、中粒度及小粒度)规则的语意规则描述模型。主要包括语意规则节点表示方法、语意规则节点流量及语意规则节点可计算代价等。
第12章:海量语意规则网及优化。本章介绍了基于规则合并及基于规则模块等价替换的海量语意规则网优化方法。本章通过研究语意规则,将不同语意规则中有重复语意规则的节点进行合并,达到语意规则完全合并或部分合并的目的;同时,本章通过分析那些计算功能等价的语意规则模块,用计算代价小的语意规则模块替换计算代价大的语意规则模块。
第13章:海量语意规则处理算法。本章在分析现有的各种规则模式匹配处理算法的基础上,针对现有规则模式匹配处理算法的缺陷,介绍了一种适合于海量语意规则的海量语意规则模式匹配处理模型及运行时的处理算法。
第14章:海量语意规则并行处理。本章提出并研究了一种海量语意规则并行处理机制GAPCM。介绍了将海量语意规则生成互相独立的规则子网的方法;任务预分配方法;语意规则子网的合理划分方法;语意规则子网内部通信及处理机之间的外部通信;将任务具体映射到所对应处理机的方法。
第15章:文化大数据。本章从大数据在文化领域的应用角度分析了大数据在公共文化、图书馆、博物馆、艺术馆、科技馆、艺术馆及美术馆这种文化领域的数据采集、存储、计算分析及应用方法和典型应用。
第16章:医疗健康大数据。本章从大数据在医疗健康领域的应用角度分析了医疗健康领域如何利用大数据进行数据的组织、存储、计算分析及应用方法和典型应用。
第17章:互联网金融大数据。本章从大数据在金融领域的应用角度分析了互联网金融领域如何利用大数据进行数据的组织、存储、计算分析及其应用的方法和典型应用。
第18章:其他典型大数据。我们在第15、16及17章中分别介绍了文化大数据、医疗健康大数据及互联网金融大数据。大数据的应用现在已经遍布各个领域,本章对教育大数据、电子商务大数据、互联网大数据、能源大数据、交通大数据、宏观经济大数据、食品安全监管大数据等进行了一个简要的阐述。
第19章:基于大数据的语意计算及典型应用。由于大数据的产生,语意计算(Semantic++ Computing)也应运而生。语意计算(Semantic++ Computing)是在语义计算(Semantic Computing)和语意计算(Semantic+ Computing)基础上加上大数据技术的应用而产生的一种新的计算模式。本章分析了基于大数据的各种语意计算的应用,如在社交网络方面的应用、政府方面的应用等,最后又具体介绍了基于大数据的语意计算应用,包括语意搜索引擎、语意金融、语意旅游规划及基于海量语意规则的语意电子商务。
第20章:大数据未来研究方向。本章简要描述了大数据未来的发展方向及主要应用方向等。
作 者