推荐序1
本书作为阿里巴巴集团技术丛书中的一部专著,系统地讲述了阿里巴巴云计算基础设施技术的发展史,同时也是阿里经济体成长过程中对基础设施需求的演进史。
基础设施技术伴随了阿里巴巴的整个发展历程。在业务发展的早期,我们以电商、支付为主,采用的是当时业界较为流行的“IOE架构”(指IBM Oracte和EMC的产品),然而随着阿里巴巴业务的蓬勃发展,我们发现这样的架构无论从技术可扩展性还是从成本效率维度考量,都无法支撑我们走得更远。于是在多年前我们启动了“去IOE”项目,本质上意味着小型机时代的终结,也同时成为阿里巴巴集团云计算基础设施技术发展的开端。
如今,阿里巴巴经济体的业务涵盖了电子商务、在线支付、云计算、物流、视频娱乐、移动导航等诸多领域,也带来了不同的挑战,尤其是云计算的蓬勃发展,不但对基础设施提出了稳定性、成本的要求,还提出了具备持续的高性能计算能力、存储能力、网络互联能力,以及用户几乎无感知的调度能力的要求。我们在定制计算、异构计算、自研存储、大规模网络架构、自研交换机、自建数据中心等方面进行了一系列的实践,积累了一定的经验。
在架构上,2016年,我们提出了存储计算分离、在离线计算混部;2018年,我们提出了阿里巴巴核心系统全面上云,2019年的“双11”以54.4万笔/秒的峰值交易能力、顺畅的用户体验,完美地宣告了目标的达成、架构的成功。
阿里巴巴不仅是一家商业公司,同时也是一家技术公司。我认为本书对阿里巴巴在基础设施领域的工程技术实践进行了一个有益的回顾与总结,不仅有助于我们自身精益求精,也为业界同仁提供了一个可供借鉴和评判的参考,让我们能够共同为云计算基础设施技术演进添砖加瓦,推动技术革新并促进互联网业务发展。
张建锋
阿里巴巴集团CTO兼阿里云智能事业群总裁
2019年12月于杭州
推荐序2
阿里巴巴基础设施的前身可以追溯至2009年,振飞(今阿里巴巴合伙人、高德总裁)作为救火队员奉命组建淘宝技术保障部,那一年是天猫“双11”的首创之年,也是阿里云成立的元年。那时候,振飞面临的是焦头烂额的稳定性问题,淘宝交易的可用率还不到3个9,当时“IOE架构”在可扩展性、成本效率、故障颗粒度方面,已难以满足淘宝和支付宝蓬勃发展的需求。在2010年预算会议上,王坚博士要求在开篇PPT“2010年不增加小型机”的基础上,增加一个“再”字,成为“2010年不再增加小型机”,启动了阿里巴巴“去IOE”的进程,我参与其中并于2013年5月亲自见证了支付宝最后一台IBM小型机下线。这标志着阿里巴巴小型机时代的终结和基础设施新时代的开篇。
云计算业务的快速发展,为基础设施带来的挑战越来越大。2011年9月至2013年年初,以淘宝技术保障部为基础,分期将阿里云、B2B及支付宝运维团队整合为阿里巴巴技术保障部,为阿里巴巴集团基础设施技术的大统一奠定了基础。2014年1月,基础设施技术峰会首次召开,主题是“从传统走向未来”,奠定了阿里巴巴基础设施技术发展的策略。2014年7月,阿里巴巴技术保障部更名为AIS(Alibaba Infrastructure Service),意味着基础设施的定位已从保障业务稳定性的部门升级为技术驱动的商业基础设施服务商,从保障转型为研发和运营,成为云计算的“大底座”。同年我们启动了全球人才招聘,正式在人才和组织上要向世界一流水平看齐。
“拼命搞技术!”“快来不及了(影响云业务)!我们(基础设施技术发展)最多还有1~2年时间”,这两句话一直环绕在我的心头,从最开始在河北省张北县自建数据中心、自研AliFlash,AIS人沿着技术研发的道路,从白盒化到架构一体化,经过5年的努力,无论是在数据中心、服务器、网络方面,还是在计算、存储、互联方面,我们在各个专业领域都有了长足的进步。从底层的机房电力设备到网络通信的硅光模块,到数据中心的网络架构、自研交换机和OS,到计算芯片、存储控制器,再到运维管控的“3分钟故障恢复”(1分钟故障发现、1分钟故障定位、1分钟故障恢复),再到数据中心的运营大脑(包括供应链等),我们收获了不少的成功,也有很多血和泪的教训。
技术基础设施是如此的重要,遗憾的是,因为专业领域众多,一直没有一本跨领域、跨专业的书,因此,我们决定在公司内部材料基础设施白皮书的基础上,编撰一本适合公开出版发行的书。本书也融入了这些年来我们在关键技术决策中的思考与实践,也有许多沉淀的经验。期望本书的出版能够给业界带来一块璞玉,以供雕琢,同时也鞭策我们自己在未来更进一步。
周明
阿里巴巴集团副总裁基础设施事业部负责人
2019年12月于杭州
推荐序3
随着越来越多的用户选择云而不是自建基础设施,云计算基础设施技术已经成为各类业务的直接竞争力,得到了社会各界的广泛关注,而阿里巴巴作为国内最大的云服务供应商,无疑在云计算基础设施方面有着丰富的经验和思考。随着众多云服务的出现和各种新技术的层出不穷,云计算基础设施技术如何定义和发展,毫无疑问会成为众多企业,包括阿里巴巴未来业务能否成功的关键因素。
本书从数据中心TCO建模和能效的分析入手,针对供配电、制冷、网络架构、服务器、计算硬件、存储硬件、智能化运营、一体化等,从多个维度详细地讲述了基础设施技术的组成和架构,每一项技术都体现了阿里巴巴云计算基础设施技术专家们的实践、思考、创新和沉淀。
在本书中,不仅有对20年逐渐成熟沉淀下来的云计算基础设施技术的解读,也包含了浸没式液冷、AI技术、异构技术、量子通信等新技术的研究和布局,更展望了未来5年可能出现的新业务场景、新挑战,描绘了阿里巴巴未来5年的奋斗目标,更表现出阿里巴巴对云计算基础设施技术的深刻思考和长远布局。希望阿里巴巴这20年云计算基础设施技术上的理论和实践经验,能够为行业和国家,乃至世界的云计算基础设施技术发展提供一个参考。
“不谋万世者,不足谋一时;不谋全局者,不足谋一域。”阿里巴巴作为一家“要活102年”(马云原语)的好公司,不仅要做好自己的云计算基础设施技术,更要推动世界云计算基础设施技术的蓬勃发展。为了实现这一目标,不但要结合阿里巴巴特有的业务场景去提高云计算基础设施技术的综合竞争力,更要不断地探索实践、努力创新,提前对“黑天鹅”类技术进行布局和研究,才能保持活力和实现目标。这本书无疑表现了阿里巴巴在长远技术发展的深刻思考和谋略,对当前国内外云计算基础设施技术发展具有里程碑式的指导意义。
何宝宏
中国信息通信研究院云计算与大数据研究所所长
开放数据中心委员会名誉主席
2019年12月于北京
前 言
随着云计算的广泛应用,特别是为创新企业带来的低成本、高效率赋能创新的优势,云计算基础设施技术成为当下创新非常活跃的领域。
为什么写本书
阿里巴巴的云计算基础设施技术的演进和发展,是阿里巴巴集团整体发展的一部分,也是阿里巴巴未来业务能否成功的核心因素。在这个过程中,我们有很多的思考和实践、尝试和创新,以及经验和教训,并取得了一定的成果,面向未来也有了越来越明确的思路和规划。我们希望通过这本书将云计算基础设施技术的过去、现在和将来呈现给读者,让阿里巴巴在云计算基础设施技术上的实践经验成为国家和行业云计算基础设施发展的重要参考。
本书主要内容
本书针对云计算基础设施技术的各方面做了概要性的介绍和说明,包括互联网数据中心(IDC)、网络、服务器计算、存储、智能化等。这些方面的每一项都是一个非常专业和复杂的技术领域,本书力图能简明扼要地加以说明。
第1章 基础设施架构综述,简要介绍云计算基础设施技术的范围、价值、挑战等。
第2章 TCO建模,介绍TCO的概念,数据中心、服务器、网络设备的TCO组成,以及如何在系统层面进行TCO分析和建模,并做出最优的选择。
第3章 数据中心能效,介绍如何系统地评估数据中心能效水平,如PUE、SPUE、IUE等。
第4章 数据中心,介绍狭义数据中心的核心技术,包括供电、制冷等的挑战、发展趋势。
第5章 数据中心网络架构和关键技术,介绍阿里巴巴数据中心的网络架构和关键技术,包括历史回顾、架构理念、高性能网络、网络可视化等。
第6章 服务器技术,介绍服务器的硬件组成、演进、挑战等。
第7章 计算硬件技术,介绍通用计算、异构计算、总线互联等。
第8章 存储硬件技术,介绍内存、HDD、SSD及阿里巴巴自研存储产品AliFlash等。
第9章 基础设施智能化运营与自动化运维,介绍大规模云计算基础设施的运营和运维的自动化、数据化、智能化等内容。
第10章 IDC、网络、服务器的一体化,介绍如何在技术演进中让IDC建筑、网络大集群、服务器协同发展,并提供最优的解决方案。
第11章 总结及展望,面向未来,云计算基础设施技术如何进一步提升能力、支持创新。
致谢
本书从策划到成稿,再到出版经历了三年多的时间,前后有百余位同事参加了规划、构思、写作、校对等工作,署名的作者及致谢名单未能将每一位参与者一一列出,在这里一并致谢。
感谢在本书写作过程中基础设施事业部的各位管理者给予的支持,给予本书大方向的把控及人力上的支持。
感谢电子工业出版社的认可,让本书得以出版,感谢孙学瑛老师及其团队细致、艰苦的工作,让本书最终能够与读者见面。
由于作者水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。
高山渊
2019年12月