二 心脏到底有多强?
走进百度阳泉云计算中心的机房之内,就会发现一排排机柜统一排列,机柜上的服务器的风扇声嗡嗡作响。机房的温度明显比室外高了一截。
这是百度“心脏”的声音与温度。百度的“心脏”到底有多强,我们可以从这几个维度来进行解析。
1、性能和效率
“心脏”想要跳的快,一方面需要“心脏”本身有力度,另外一方面则是需要血管供血足。对AI的“心脏”来说则是两个点,一是算力强,另一方面也要数据传输快。
百度阳泉云计算中心目前已上线服务器超过15万台。包括了天蝎整机柜服务器、“冰山”冷存储服务器、X-MAN超级AI计算平台等多种百度自研计算系统。像去年年底百度最新发布AI计算平台X-MAN3.0每秒可完成2000万亿次深度神经网络计算。这种强大的计算能力都是为了适应AI时代的运算要求。
为这种强大算力“供血”的“血管”则是百度自主研发高性能交换机。提供超大规模的网络吞吐,支持10G、25G的通用计算网络接入和100G的AI高速无损网络互联技术。百度通过大带宽、低时延、无损网络,让数据中心数十万台服务器连接成了一个超级计算机。
2、容灾和备灾
“心脏”作为人最重要的器官当然一刻都不能停止,数据中心作为心脏当然也不能停。云计算中心里设备价格昂贵,一旦发生不可预知的灾难,对企业将造成严重损失。设备损坏等有形的损失可以弥补,而宝贵的数据丢失造成的损失则是无法计算的。
在移动互联网时代,一个数据中心的服务器一旦出现短时间抖动,就会导致刷不了淘宝、付不了支付宝,在全网产生讨论。
AI时代服务器出问题,可能会导致自动驾驶车辆失控,钢铁能源工业客户面临数以亿计的经济损失。
因此,数据中心的容灾备灾显得及其重要。而百度阳泉云计算中心通过AI控制,数据中心的运维从人工走向智能,可以实现大数据分析和诊断,迅速缩短故障维修时间。过去30分钟的网络故障排查直接缩减到了5分钟。
当问到一旦出现自然灾害、意外火灾等极端意外情况下百度阳泉云计算中心要如何应对时,百度系统部总监张炳华提到:
从业务部署角度,百度数据中心计算资源采用了N+1的冗余设计,用户的流量有多个入口,可以绕道其他数据中心。在入口层面也有一套智能调度的系统。
百度内部甚至做过这样一个极端测试——关掉任何一个数据中心,用户端也不会有任何感知,服务也不会受到任何影响。
我简单翻译一下这段话。大概相当于百度有好几颗“心脏”,即使是一颗“心脏“出现故障,其他心脏也可以在故障的那一瞬间随时顶上。
事实上,截止4月8日,百度阳泉云计算中心已安全运行1744天。目前也还尚未遇到这些极端意外情况。
3、能耗和环保
某种意义上说,科技企业也是高能耗企业。因为庞大的服务器群组每天处理各种数据,产生了庞大的能源消耗。
国家层面在今年9月发布了《关于加强绿色云计算中心建设的指导意见》,提出到2022年全国新建大型、超大型云计算中心PUE(云计算中心总设备能耗/IT设备能耗,越接近1表明能效越高,是云计算中心领域衡量能源效率的权威指标)需达到1.4以下。
这个指导意见的目的在于逼迫科技企业提高自身技术,做到节能环保。
2018年8月,Uptime Institute发布的《2018数据中心调查报告》显示2018年全球数据中心PUE为1.58。
阿里所有自研云计算中心平均PUE已经低于1.3,即使是谷歌业务关键应用和广告系统也都运行在PUE 1.2的云计算中心上。
令人意外的是,百度阳泉云计算中心的PUE突破了1.10,达到1.09,能源效率国内第一,每年可节电量可达2.5亿度,相当于13万户居民一年的用电量。
三 为AI+5G+IoT未雨绸缪
百度阳泉云计算中心可以说是目前国内云计算中心的顶级水准,而且和百度目前的AI战略以及面向未来的业务布局高度匹配。
我曾在《春晚红包宕机史,也是半部中国互联网技术进步史》中提到:
春晚的流量规模,未来可能正是5G和IoT时代的“常规需求”。提前排兵布阵,百利无一害。
2017年,微软CEO纳德拉在曾经提到过一个信息,在1992年互联网每天流量总量是100G。今天一个手机就能存下所有的数据。
服务器和计算中心的算力、存储进化史,其实也是世界互联网的技术进步史。互联网的发展,伴随着IT算力、存储能力的指数级提升。
2018年全球有70亿台IoT 设备,有机构预测到2020年全球将有500亿台设备同时连接网络,2023年则是有790亿设备连接到物联网。5G时代流量每小时所产生的数据高达数百GB,预计将处理比4G多1000倍的数据。
当代哲学家西闪在《国家的计算》中对计算有过这样一个论述:
在现实世界的“赌局”中,帕斯卡的上帝已经隐退,取而代之的,是作为信仰的“未来”。它像一个永恒的奖杯,在时间的尽头闪闪发光。而计算则取代了程式化的行为训练,演变成为一种新的思维习惯。
百度作为一家面向AI的企业,它的业务同样无处不体现着计算的魅力——信息流、智能云、无人车……所有数据都要经过服务器存储、计算、传输,最终实现业务落地。
百度阳泉云计算中心恰恰是在为AI+5G+IoT时代做准备。