序言:数据是通往智能化的阶梯
早在1996 年,尼葛洛庞帝在其出版的《数字化生存》一书中就指出:人类生存在一个虚拟的、数字化的空间,人们在这个空间里应用数字技术(信息技术)进行信息传播、交流、学习、工作等活动,这便是数字化生存。2010 年2 月,肯尼斯?库克尔在《经济学人》上发表了一篇长达14 页的大数据专题报告——《数据,无所不在的数据》,该报告中写道,“世界上有着无法想象的巨量数字信息,它们以极快的速度增长……从经济界到科学界,从政府部门到艺术领域,很多地方都已受到这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇——‘大数据’”。库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。2018 年,人工智能风起云涌,苹果手机装上了AI 芯片,百度无人驾驶汽车开进了北京海淀公园。展望未来,AI 不仅将走入寻常百姓家,还将成为与生命科学并肩的技术。它一方面使机器更像人;另一方面使人更像机器(基于基因和量子科技等技术,使现代医学更好地了解人类)。
数据分析(或数据挖掘)算法作为AI 这一未来革命性趋势的重要引擎,是近期AI 能成功的第一重要因素。深度学习是数据分析算法的一个分支,它的出现类似于医学史上出现的青霉素,青霉素使西医掌握了一项重要的“武器”。要掌握AI 这项“武器”,我们就必须从最基础的数据知识开始学习,丁亚军老师的《统计分析:从小数据到大数据》一书是给零基础的朋友提供的一本严谨又不失趣味的教材,通过这本书,我们可以领略到数据的魅力!
作为CDA 数据分析师品牌的首席讲师,丁亚军老师一直致力于把自己在电商大数据、统计调查小数据的实战心得传授给学员。
这些年来,CDA 数据分析师的企业客户名单中增添了不少重量级的客户:银行,如中国工商银行、中国银行、招商银行、中国邮政储蓄银行、渣打银行、北京银行等;三大电信运营商,即中国电信、中国联通、中国移动;知名车企,如奔驰、宝马;跨国企业,如IBM、麦当劳等。数据分析师在美国是一个常设岗位,但在中国才刚刚开始设立。
本书经过CDA 和电子工业出版社审核,将其归入“CDA 数据分析师系列丛书”。对于希望加入数据分析师行业的读者来讲,本书是一本靠谱的、有趣味的商业数据分析读物。
CDA 数据分析师理事 赵坚毅
前 言
统计分析是基于大数据的商业智能分析、机器学习等多项技术的基础,同样也是训练大数据思维的理论基础。
每种技术既有优点,又有缺点。为了弥补传统统计方法的不足,人们引入了数据挖掘算法。不管是算法、应用,还是数据探索,基于不同的方法体系都将产生不同的方法论,本书以此为基础,探讨小数据和大数据的核心区别,以及由大数据引起的算法“进化”。
内容特色定位
本书内容具有如下几个重要的特征。
? 从运营报告开始了解业务环境,进而建立业务视角的统计思维,如将业务问题转化为统计问题、数据项目落地、共享模型价值等。
? 通过强调应用统计和理论统计的区别和联系,进一步讲解应用统计工作者应该如何梳理业务关系、学习统计模型等。
? 从小数据到大数据,厘清了数据分析的技术脉络,包括:模型预分析和修正;算法的“进化”,从1.0 到4.0;统计算法和机器学习的深入解读。
? 案例学习模块化和流程化。其中,模块化表现为统计的家族特征,如每种模型在家族中有什么表现、继承了什么样的算法优势;流程化表现为从小数据到大数据的算法,对应不同需求而设计的分析流程。
? 本书试图搭建统计与机器学习间的基础理论桥梁,使读者了解算法的“进化”过程,从而掌握每次进阶学习的核心信息,跨越进阶障碍。
读者定位
鉴于对统计算法和大数据算法的探讨,本书比较适合如下几类人群阅读。
(1)经常与数据运营或运营报告接触的业务人员。
本书能够帮助业务人员理解数据特征,看懂运营报告,掌握常见的数据可视化工具,使用数据语言进行业务沟通和交流,并能够提高业务人员的数据化思维,使其尽快成长为业务能手。数据运营人员和数据管理人员经常与数据打交道,他们需要知道如何将数据转化成商业价值——量化需求、寻找影响因素、工具归因、数据可视化。
(2)数据分析入门者或想转行成为数据分析师的读者。
初学者最重要的是训练统计思维,这需要初学者搭建业务框架、训练角色意识、提高审查数据的量化标准、识别数据行列模式、学习应用统计、了解统计的商业价值评估、熟悉统计解释等。本书站在初学者的视角,立体地呈现出这些必要的知识,并以案例和固定操作流程的方式展现给大家,尽量使专业的知识简易化。
(3)机器学习从业者或机器学习初学者。
大数据的温床孕育了机器学习等人工智能算法,这是大数据模式下的全新技术。小数据与大数据产生于不同的应用环境,所以小数据和大数据的算法区别是:对数据是总体分析还是个体分析、数据信息的分布是宏观的还是微观的,等等。两类算法各有千秋,甚是不同。
学习建议
建议读者将第1 章和第2 章涉及的业务思维的讨论按顺序读完。
关于第3 章,数理统计基础偏弱的读者可以直接越过与数理统计有关的内容,这样做并不影响对第3 章内容的理解。建议阅读完第3 章后直接阅读第7 章和第8 章,这样可以更好地理解全书内容,并可以完善读者对数据分析流程的学习。数理统计基础较好的读者,按顺序阅读本书即可,无须跳转。
第4 章线性回归与统计家族作为读者学习的重点,建议读者在阅读的同时跟着案例和流程进行操作。此外,建议学习第5 章Logistic 回归与统计家族时,将其中的知识点与第4 章的知识点对应起来,并回答两个问题:线性回归如何解读?线性回归如何应用?
第6 章降维技术中的主成分回归是重点内容,通过学习本章内容,读者可以体验多变量技术的案例应用及其业务、统计和可视化的整合过程。
针对本书行文内容有以下几点补充说明:
? 本书侧重于商业案例的应用,为了便于初学者理解,可能有些词汇具有个人习惯倾向,并不一定严格符合科学术语。
? SPSS 中文版有诸多翻译不足之处,但为了迎合读者的语言习惯,本书仍使用中文版对应的翻译,但会有相应注解。
? 本书涉及从小数据到大数据的方法论,为了行文方便并遵循习惯叫法,正文涉及的大数据模型称为数据挖掘模型,小数据模型称为统计模型。
致谢
本书成稿历时3 年有余,其间反复修改,甚至有停下来的想法,不过最终还是在数百个寂静的清晨后完成了书籍撰稿,在此期间不断激励我的是我的父亲,从构思到撰写,他都给予我极大的鼓励,在此表示感谢。在生活中,妻子和岳母对家庭及小宝的悉心照料,使我能够如约完稿,在此对她们表示感谢。
此外,感谢亲友丁凤萍、丁敏、徐强、丁飞等对我的支持和鼓励。
感谢赵坚毅老师,不辞辛苦提供指导意见,并为本书作序。
本书在修改过程中,尤其感谢电子工业出版社的张慧敏老师及其同事的悉心指导。
本书部分内容受到在演讲和主题研讨时学员提问的启发。因此,感谢学员对本书的期待和贡献。最后,因本人学识浅陋,行文内容难免存在不足之处,望读者不吝赐教。
说明
书中部分插图由于为软件生成图,所以图中变量显示为正体。
丁亚军