大数据是当今信息化的产物,作为当前高科技时代的产物,大量的结构化、非结构化、半结构化的数据经过采集、清洗处理后才便于分析、建模等。这样的数据才能真正地产生价值。数据清洗技术是大数据必不可少的环节,通过数据清洗可以发现并纠正数据中可能存在的错误,并对发现的错误进行清理,使之变为干干净净的数据。
本书分为基础篇与实战篇两部分。在基础篇中主要讲述了数据清洗的流程以及在清洗过程中所使用的工具和数据清洗的方法,在实战篇中主要介绍了数据清洗工具的使用方法、基于Web的数据采集与清洗实战和基于DBMS的数据清洗实战。
基础篇包括第一章至第六章,其中:
第一章主要阐述数据清洗的基本概念,在数据清洗阶段的主要任务以及流程、数据的标准化以及为什么要进行数据清洗;通过一个简单的例子演示了现实世界中的脏数据,并阐述了各种清洗过程的优缺点以及清洗工作所带来的数据变化。
第二章主要阐述数据格式、编码、常见的数据类型以及字符集等,介绍格式间的相互转换。通过本章的学习,读者可了解当前流行的主要数据格式以及数据编码与格式间的相互转换等知识。
第三章描述如何从常见的电子表格和文本编辑器中尽可能多地发掘出数据清洗功能,主要介绍一些常见问题的简便处理方法,包括如何使用函数、搜索和替换、正则表达式来实现数据纠错和转换;最后利用已经掌握的技能,使用上述两种工具来完成一个与大学有关的数据清洗任务。
第四章从ETL技术入手,介绍ETL的相关概念、数据清洗遵从的基本步骤以及技术路线,介绍ETL常见的工具以及ETL子系统。通过本章的学习,读者能清晰地理解数据清洗的概念、技术路线及主要功能。
第五章以Kettle开源数据清洗工具为依托,阐述文本文件的抽取、Web文件的获取、数据库文件的获取,以及全量与增量数据的抽取等。通过本章的学习,读者能够借助Kettle实现文本的抽取、网页文件的获取以及数据库文件的导入与导出等。
第六章详细介绍数据的清洗步骤、数据检查、错误处理、数据质量评估和数据装载等知识。通过本章的学习,读者能够掌握数据清洗的具体方法以及数据转换过程中的数据检验和错误处理,同时掌握数据的批量加载等技能。
实战篇包括第七章至第九章,其中:
第七章主要阐述数据清洗使用的工具,从基础的Microsoft Excel工具进行讲解,阐述如何使用Excel 来完成数据的分列校验和快速填充等操作以及使用Kelltle进行数据的清洗操作。同时,对常用的清洗工具OpenRefine以及DataWrangler和Hawk等工具进行简单的介绍,使读者对常用的清洗工具有一个全面的认识。
第八章主要以常用的Web数据为基础,采用实际案例介绍如何对数据信息进行爬取采集以及清洗等预处理操作。
第九章主要以关键的关系型数据库为基础,采用实际案例介绍如何从关系型数据库中获取数据并进行准备、脱敏、格式转换等清洗工作,通过案例的实际讲解使读者掌握如何对关系型数据库的大量数据进行“清洗”操作。
在本书的编写过程中,北京雅丁信息科技有限公司提供了大量的支持,并给出了中肯的建议。黄天春老师除了编写第九章的内容之外还对全书进行了反复校验,才使本书得以成稿,在此表示衷心的感谢。同时,也要感谢西安电子科技大学出版社李惠萍编辑在本书出版过程中所给予的宝贵意见和大力支持。
尽管我们付出了很大的努力,但是书中可能仍存在不妥之处,欢迎读者朋友提出宝贵意见,我们将不胜感激。在阅读本书时,如果您发现有任何问题,可以通过邮件与我们联系,邮箱地址:donaldshieh@yeah.net。
谢东亮
2019年6月