>
在****集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双1 1购物狂欢节”的24小时中,支付金额达到了1207亿元,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了*大的挑战。
《大数据之路:****大数据实践》就是在此背景下完成的。本书中讲到的****大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。
本书由****数据技术及产品部组织并完成写作,是****分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。
>
第1章 总述1
第1篇 数据技术篇
第2章 日志采集8
2.1 浏览器的页面日志采集8
2.1.1 页面浏览日志采集流程9
2.1.2 页面交互日志采集14
2.1.3 页面日志的服务器端清洗和预处理15
2.2 无线客户端的日志采集16
2.2.1 页面事件17
2.2.2 控件点击及其他事件18
2.2.3 特殊场景19
2.2.4 H5 & Native日志统一20
2.2.5 设备标识22
2.2.6 日志传输23
2.3 日志采集的挑战24
2.3.1 典型场景24
2.3.2 大促保障26
第3章 数据同步29
3.1 数据同步基础29
3.1.1 直连同步30
3.1.2 数据文件同步30
3.1.3 数据库日志解析同步31
3.2 阿里数据仓库的同步方式35
3.2.1 批量数据同步35
3.2.2 实时数据同步37
3.3 数据同步遇到的问题与解决方案39
3.3.1 分库分表的处理39
3.3.2 高效同步和批量同步41
3.3.3 增量与全量同步的合并42
3.3.4 同步性能的处理43
3.3.5 数据漂移的处理45
第4章 离线数据开发48
4.1 数据开发平台48
4.1.1 统一计算平台49
4.1.2 统一开发平台53
4.2 任务调度系统58
4.2.1 背景58
4.2.2 介绍60
4.2.3 特点及应用65
第5章 实时技术68
5.1 简介69
5.2 流式技术架构71
5.2.1 数据采集72