一本书掌握大数据、人工智能时代需要的数据预处理技术
·KDD CUP 2015亚军得主多行业实战经验总结;
·54道例题,涵盖常见数据预处理技术;
·3个实战案例,快速提升应用能力;
·3种语言实现对比,代码优化关键点一目了然;
·配套数据+源码可下载;
·SQL的版本为Redshift,Pyhton的版本为3.6,R的版本的3.4;
·双色印刷。
数据提取/数据聚合/数据连接/数据拆分/数据生成/数据扩展
数值型/分类型/日期时间型/字符型/位置信息型
1.习题式结构,带着问题思考、学习,效果更好
本书采用问题驱动式,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。
2.对比3种不同语言的实现,把握每种语言的特长
用SQL、R、Python对比解决相同的案例问题,可以让读者了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。
3.同时给出一般代码与理想代码,优化处理的关键一目了然
对于每道例题,都同时给出一般代码与理想代码,读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。