作者携手数据领域的强大智囊团为读者贡献的一本处理噪音数据的指南。本书囊括众多真实的应用案例以及高水平的方法和策略。本书汇集国外数据社区的技术骨干和活跃分子的集体智慧,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。噪音数据就是那些"给你惹麻烦的数据",从蹩脚的存储到糟糕的说明,再到令人误解的策略,有多重情况可能导致噪音数据。那么什么才是决定性因素呢?有人认为是技术方面的问题,比如缺失值或格式不对的记录,但是噪音数据包含更多的问题。本书介绍了多种有效的方式来应对噪音数据。在本书中,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。通过阅读本书,你将学会:测试你的数据,判断它是否适合分析;将电子表格数据转变成可用的格式;处理潜藏在文本数据里的编码问题;进行一种成功的网络搜集尝试;利用自然语言处理(NLP, Natural Language Processing)工具揭露线上评论的真实情感;处理可以影响分析工作的云计算问题;避免那些制造数据分析障碍的策略;采用一种系统的数据质量分析方法。