数据中心的“金属积木”是如何做出来的
数据中心的“金属积木”是如何做出来的
IT科技与互联网 - 十二月 10, 2020

数据中心的“金属积木”是如何做出来的

12月8日-10日,第十五届中国IDC产业年度大典(IDCC2020)在北京国家会议中心盛大开幕。大会以“重新定义IDC”为主题,包括浪潮在内的数千名数据中心从业者参与本次大会,共同探讨数据中心变革带来的机遇与挑战。其中,整机柜,这一被誉为数据中心“金属积木”的巨型服务器吸引了无数的关注与讨论。 

经济学家熊彼特认为企业的创新能力与规模成正比,因为大型企业会有更多的资金和人力资源去投入。2011年,大型互联网企业Facebook发起OCP项目,开源了数据中心一系列硬件标准,其中整机柜是最重要的一个项目。就在同期,2011年的11月1日,BAT巨头们也不约而同牵头成立天蝎整机柜项目组,联合研发整机柜服务器,数据中心追求极致创新的产物即将诞生。

一个不确定的需求

2007年1月 ,第一代苹果手机Iphone 2G上市,市场反应惨淡,以至于当年9月苹果宣布降价销售。直到2010年,iPhone 4上市,苹果才真正打开全球市场。

也是在2010年,中国的公有云开始起步,阿里巴巴的王坚带领团队创建了阿里云,OpenStack社区在这一年也成立了,但是距离中国公有云的爆发还有2年,到2012年,百度云、青云、Ucloud等公司才创立。今天掌握整体服务器采购30%的超大规模云服务提供商CSP,当时还在考虑 — 我们需要什么样的服务器?

CSP的需求并不确定,服务器厂商也不清楚,这相当于一个婴儿刚刚生下来,就要给他做一套成年的衣服。但是,大的方向是清楚的。他们的一个原始理念就是追求的创新并不局限在单个节点,他会延伸到整个架构,甚至是数据中心的环境。当时Google等互联网公司部署了大量的定制化整机柜,可以在机柜内部署不同类型的服务器节点,一体化交付,让数据中心部署像搭“积木”,效率提升10倍以上,并且在能效、TCO等方面优势明显。

国外都在做这样的产品,中国互联网市场上也有一些大客户提出“如果服务器年采购量达到十万台,按照单日交付300台来算的话,一年需要持续交付300多天,这样的效率显然无法匹配闪电爬升的互联网业务。”研发定制化整机柜的想法油然而生。

从一个idea到整机柜的出世

在2010年,互联网厂商刚一提出整机柜的想法,众多服务器厂商“跃跃欲试”,希望能研发出一款变革数据中心的服务器。但整机柜服务器的设计,只在国外最大的那几家互联网数据中心出现过,而由于数据中心保密政策,谁都不知道整机柜到底长什么样。

浪潮21英寸整机柜服务器内部节点
浪潮21英寸整机柜服务器内部节点

就这样大家只能不断试错,来来回回产品设计改了好几个月。整机柜这块“硬骨头”也确实难啃,没过多久,大多数服务器厂商在成本和心理的折磨下纷纷退出。当时只剩下一家还在咬牙坚持,就是浪潮。2010年底,第一款整机柜SR1.0诞生,机身高达2.1米,机柜内可容纳80个节点和3个交换机,能够大幅提升服务器部署密度和交付速度。

可在这时候,互联网厂商却由于实际运维难度太高,放弃了原有的采购计划。但被拒绝也不是什么坏事。在没有任何参照物的情况下,从无到有、摸着石头过河中产生的SR1.0,可以说是一个宝贵开始,它让市场看到了一个有形、有功能,真实存在的整机柜,而不再是停留在概念层的整机柜,也让同业人员看到了整机柜未来应用的潜能。

尽管SR1.0因为种种原因没能被应用,但可以看到,整机柜不光是单个互联网企业的需求,是整个互联网行业,甚至是整个数据中心用户共同的需求。作为探索市场的一块敲门砖,SR1.0为下一步浪潮整机柜服务器的快速研发打下了坚实的基础。2011年浪潮整机柜SR2.0出世,让越来越多的互联网厂商开始关注整机柜。

于是,在2011年11月数据中心领域的科技企业汇聚在一起,构建首个硬件领域的开放计算标准,“天蝎计划”登上开源历史舞台。半年后,2012年4月,百度、阿里、腾讯、浪潮等发布了整机柜服务器的开放标准 — 天蝎整机柜1.0规范,浪潮也又一次进行产品升级,率先推出符合标准的整机柜服务器SR3.0。这款“金属积木”为天蝎1.0贡献了大量的技术参考,比如基于模块化设计理念,将供电模块(PSU)集中到一起,通过12V直流铜排统一为所有节点供电,散热也取消了单个风扇的形式,通过风扇墙的形式控制整机柜内部不同的区域风扇转速,大大降低服务器能耗等等。

创立规范,就要先打破规范

尽管浪潮整机柜SR3.0在设计层面集中散热、供电和管理的架构方向已经初步成形,但仍然存在节点单一、设计接口还没有统一的问题。研发人员再次重新出发,摆正整机柜服务器设计的初衷,要让数据中心的服务器不用一台一台去交付,而是一个机柜一个机柜去交付,所以下一步还要打破原来部署单一节点的规范,打通电源、风扇、管理API等所有不同接口标准规范,并提升部署密度。

2013年,整机柜SR4.0问世,机身宽度打破了以往19英寸的规范,增加到21英寸。每个节点容量提升的同时,风扇、电源和API管理各个模块还有了统一的接口定义。也是从这个时候,数据中心的“金属积木”整机柜,开始被大规模部署。

不同时期的浪潮整机柜服务器
不同时期的浪潮整机柜服务器

整机柜的出现改变了服务器市场格局,让数据中心像组装积木一样组装算力,与此同时,基于超大规模数据中心的新型应用形态也在发生变化。随着人工智能、云计算、大数据等技术的发展,数据中心企业迎来了全新的增长点,而这些新兴应用如AI和大数据,最大的特点就是对于计算力要求极高,其大规模的数据存取、高性能的计算需求,使得数据中心的负载越来越大。

因此,整机柜的标准也在随着数据中心所支撑应用的变化,而发生改变。面对数据中心对服务器功率、散热需求不断攀升的挑战,浪潮、百度、阿里等企业又开始着手制定新一代的整机柜标准天蝎3.0。在新规范中,单机柜的供电功率被大幅提升,支持20kw和36kw两种供电功率,部署密度较通用产品可提高30%-50%。同时,还增加了12V/48V高压供电,电力密度提升到80A-120A能力;散热方面,灵活支持风冷/液冷不同散热,同时,整体架构可向前兼容支持,能够更灵活的应对云计算的物理高弹性的场景需求。

浪潮服务器高端装备智能生产基地
浪潮服务器高端装备智能生产基地

1.2吨的大家伙,如何快速生产交付?

整机柜这一款产品的诞生,绝不仅仅是对研发技术的创新,生产、运输、质保等各个业务环节都要不断创新改造。因为2.1米高的整机柜内部有多种节点,整体重量可达1.2吨,这么大的重量,从工厂一路颠簸到达数据中心后,仍然要做到拆箱即用,其中每一个环节都是一道关卡。

为了满足整机柜服务器的大规模交付需求,浪潮打造了首个服务器高端装备智能生产基地,有两条柔性生产线,一条生产节点、一条生产整机柜,并整合智能技术和物联网技术,采用了600多个RFID、2000多个传感器、50个设备控制器以及330多套智能设备,部署了ERP、MES、WMS等6大智能信息系统,将备料、节点、机柜生产、节点组装、班检、加电测试、业务压力测试等多个环节全链条打通。

目前,智能工厂将整机柜的交付周期从15天缩短至5-7天,在面对一些不确定的紧急需求,如双11、春晚红包等项目,浪潮能够提前连接、打通客户需求数据与自身产品、供应链数据,为客户业务制定成本及时间最优的解决方案。

同时,为防止整机柜在运输过程中产生形变,造成质量问题,浪潮还整合物联网、移动互联等技术开发出路谱测试方案,可以在机柜顶部、节点、托盘等位置上配置感应器,能够对运输途中的情况进行实时记录监测,为整机柜产品陆运标准的制定提供了第一手实测数据。

持久的创新,改变自己

2010年云计算爆发,2016年AI开启新一轮的科技变革,2019年5G牌照发放后边缘计算爆发。对于ICT企业而言,似乎唯有变化才是不变的。对于传统企业,创新是制胜的手段,对于ICT企业,创新是生存的必要。

从2010年至今,数据中心领域的创新离不开大规模的互联网企业,离不开数据中心行业上下游各个企业的支持。整机柜的诞生,也一样离不开百度、腾讯、阿里、中国移动、浪潮这些领先的科技企业,靠一点一滴的积累和坚持,推动了整机柜服务器的发展。浪潮信息副总裁,服务器产品线总经理沈荣说,创新是做出符合客户需求、符合产业和技术发展趋势的新技术、新产品,但是持久的创新则是改变自己,是时刻根据市场和技术需求调整企业内部运营流程,建立新行业规范的一份坚持。

发表评论

电子邮件地址不会被公开。 必填项已用*标注