时至12月,又到了盘点、总结的时候了。遥记当年DIY最火的时代,年底都要做的是硬件产品横评与盘点等重要选题,从消费者到厂商都能通过对比来了解产品的性能与市场表现,从而为选择、研发下一代产品积累经验。
我们再来看看企业级市场,近20年来它的变化速度飞快,从x86服务器兴起开始,多核算力、云计算、大数据、人工智能、容器等等技术实现了一次又一次的突破,也为数字化的未来写下了一页页浓墨重彩的传奇。
企业级市场发展至今,可以看到无论是技术还是产品,整体趋势都无一例外地朝向应用。CPU、GPU、DPU、存储都不再是单一的衡量标准,企业级用户关注的应用,或者说是能够在什么样的成本下,提供为我所需的性能,这才是最重要的一点。
2021 MLPerf?人工智能测试收官之作
正是因为如此,MLPerf?测试才应运而生地成为了新一代标杆,它所衡量的是服务器在人工智能相关领域应用的性能表现,极具实战价值,因此也备受业界关注。
MLPerf?是影响力最广的国际AI性能基准评测,由图灵奖得主大卫?帕特森(David Patterson)联合顶尖学术机构发起成立。2020年,非盈利性机器学习开放组织MLCommons基于MLPerf?基准测试成立,其成员包括谷歌、Facebook、英伟达、英特尔、浪潮、哈佛大学、斯坦福大学、加州大学伯克利分校等50余家全球AI领军企业及顶尖学术机构,致力于推进机器学习和人工智能标准及衡量指标。
目前,MLCommons每年组织2次MLPerf? AI训练性能测试和2次MLPerf? AI推理性能测试,为用户衡量设备性能提供权威有效的数据指导。
MLPerf?基准测试分为固定任务(Closed Model Division)和开放任务(Open Model Division)两个分区。
固定任务是通过相同的模型、优化器及参数值测试深度学习在不同服务器上的性能表现,类似于我们日常看到的硬件类对比评测。而开放任务则对深度学习模型及精度不做过多约束,重点考察服务器厂商对深度学习模型及算法的优化能力,推进ML模型和优化的创新。
固定任务(Closed)强调AI计算系统的公平比较,竞赛衡量的是同一深度学习模型在不同硬件上的性能,重点考察参测厂商硬件系统和软件优化的能力。
既然MLPerf?每年组织4次AI相关测试,那么年底这次当然就属重头戏了,业界对此的关注度也非常之高。12月1日,MLPerf?公布了最新一期训练(Training)榜单V1.1,此次共有谷歌、微软云、英伟达、浪潮信息、百度、戴尔等14家公司及科研机构,参与MLPerf?基准测试,全部都是国际大厂,可谓华山论剑。共提交180项固定任务(Closed)成绩,6项开放任务(Open)成绩。
在单机测试的8项任务中,浪潮信息获7项冠军,英伟达获1项冠军;在集群测试的8项任务中,英伟达获7项冠军,微软云获1项冠军。
实战应用场景,用计算力推动深度学习
正如前文所述,本次MLPerf?基准评测涵盖了8类极具代表性的机器学习任务,分别是图像分类(ResNet)、医学影像分割(U-Net3D)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐(DLRM)以及强化学习(MiniGo)。
为什么MLPerf?的AI性能测试受关注度如此高?
还不是因为它最贴近用户使用场景嘛!这一点尤为重要。
这就如同我们挑选智能手机,市场中的机型几百、上千款,它们的设计、定位本身就有着很大不同。白领注重品质和可靠性、游戏玩家关注性能、年轻人喜欢拍照、学生更关注性价比,根据自己的使用场景进行选择,这样才能做到定位精准。MLPerf?的应用场景式评测,也是意在于此。
场景一:图像分类(ResNet)
ResNet是非常经典的深度学习模型,它也被称为最典型的计算机视觉应用。将海量图片识别后标记,然后进行分类,这种应用场景非常便捷与高效,ResNet考察的就是服务器在这项模型训练中的表现。
图像分类(ResNet)任务单机训练成绩排名
从上图可以看到,浪潮信息的两款经典服务器拿下了前两名位置,NF5488A5性能最高,NF5688M6排名第二。Supermicro的8卡A100-SXM4-80GB(500W)机型性能较NF5488A5低1.6%,排名第三。
看到这里可能有人会产生疑问,为什么只有浪潮和超微用500W的GPU?对于其他厂商而言是不是有些不公平?
其实,这恰恰证明了它们强大的研发实力。因为浪潮是第一个在服务器中实现8块500W功耗GPU部署的厂商,并提供液冷与风冷两种机型,同期其他品牌的产品大都仅做到了部署4块500W GPU。本次测试,超微是第二家以8块500W GPU服务器参赛的厂商。
GPU从300W到400W再发展至500W,多张卡同时部署的时候,对服务器内有限的空间提出了更高散热需求,因此供电与散热方面设计难度非常高。也正是因为如此,在评测中,才能够观察出各家企业、机构参赛产品的设计、研发能力。
场景二:医学影像分割(U-Net3D)
患者到医院拍了医学影像,包括X光、超声、CT和MRI等,AI可以在很短时间内对分割后的影像进行分析,给出合理的初步诊断、分析及预测,为诊断提供便利。
医学影像分割是医学影像智能分析中的重要领域,也是计算机辅助诊断、监视、干预和治疗所必需的一环,其关键任务是对医学影像中器官或病变进行分割,为疾病的精准识别、详细分析、合理诊断、预测与预防等方面提供非常重要的意义和价值。
该项测试主要还是面向数据训练,考验服务器的硬实力。
医学影像分割(U-Net3D)任务单机训练成绩排名
三维医学图像分割任务3D U-Net模型的整机性能对比。浪潮信息此次仅提交了NF5688M6的结果,可以看到其性能领先第二名GIGABYTE约4.7%。领先第三名Supermicro约7.7%。相对而言该项测试计算任务比较繁重,因此各款产品也拉开了较明显的差距。
场景三:语音识别(RNN-T)
在一场规模庞大的线上会议中,演讲者所说的内容全部实时显示在屏幕上,既清晰又精准。现在,这样的场景已经无需人力,仅仅通过AI就能实现了。它的背后,就是语音识别的功劳。
RNN-T模型巧妙的将语言模型声学模型整合在一起,同时进行联合优化,是一种理论上相对完美的模型结构。它通过联合网络将语言模型和声学模型的状态通过某种思路结合在一起,可以是拼接操作,也可以是直接相加等,因此也更加精准。
语音识别(RNN-T)任务单机训练成绩排名
语音识别RNNT任务训练的整机性能对比。可以看到NF5488A5性能第一,领先第二名NVIDIA约2.6%,领先第三名Microsoft约12.5%。这项测试可以说兼顾了深度学习的多种模型整合,复杂程度较高,浪潮NF5488A5凭借硬实力也创造了新的纪录。
上述这三种场景测试仅仅是冰山一角,在MLPerf?基准测试中共涵盖了8项最贴近应用场景的机器学习相关任务,这也是其被誉为极具实战价值的关键所在。
浪潮AI服务器,2021收获满满
作为业内最权威的AI基准测试,MLPerf?每年组织AI推理及AI训练性能测试各2次。12月1日结果的公布,这也意味着MLPerf? 2021年度4次测试正式收官。本年度共29家国际厂商、研究机构参与其中,在数据中心推理、边缘推理、集群训练和单机训练各类AI场景下,不断突破AI系统性能。其中,浪潮信息共斩获44项冠军,名列MLPerf? 2021年度冠军榜首,英伟达、戴尔、高通分列第二、第三、第四。
仔细观察不难发现,参赛的厂商与机构所选择的硬件基本类似,想获得更高的性能,只能靠系统设计与优化能力,这里并无捷径而言。浪潮信息在AI服务器设计与优化方面深耕多年,因此才具备如此强劲的硬实力。
在硬件设计方面,针对AI任务中常见的密集IO传输瓶颈,浪潮AI服务器以领先设计大幅降低通信延迟,极大提升了AI训练效率。同时,针对高负载多GPU协同任务调度,对NUMA节点与GPU之间的数据传输进行全面优化和深度调校,确保训练任务中的数据IO无阻塞。此外,在散热层面,A100-SXM-80GB(500W) GPU这款产品功耗非常高,为此浪潮开发了先进冷板液冷系统,确保GPU在全功率负载下依然稳定工作,也是让AI服务器在各种测试中表现出色的重要原因之一。
对于浪潮AI服务器产品而言,两款主力机型NF5488A5和NF5688M6在本年度MLPerf?测试中分别斩获18和15项冠军,它们的成功并非一蹴而就,而是众多研发设计人员共同努力之下,再辅以多年来的技术积累,所结出的成果当然极具实力。
MLPerf?的评测,可以说在整个2021年度为IT行业点燃了一盏明灯,指引大家将关注重点放在AI实战上,而并非硬件指标。此次V1.1榜单也可看作是AI服务器的盘点与总结,极具参考和实战价值。从MLPerf?测试本身来看,很多优秀的硬件产品在不同阶段测试中表现出了强劲的实力,并在各种优化之后一次又一次地实现“刷榜”,这也是行业用户最想看到的一点。在测试中不断强大的AI服务器能够帮助用户更高效地完成训练,并且可以尝试以前无法企及的任务,为AI在不同领域的快速发展注入新活力。
浪潮AI服务器在中国市场份额已连续五年稳居第一,目前全球市场份额也是第一。浪潮信息在MLPerf?中能够取得优异的成绩,再次证明了自身研发实力,并在实战应用场景方面有了更加深入的洞察和理解。此外,浪潮信息在MLPerf?测试中的探索和创新,也进一步帮助浪潮能够在实际应用中更好地回馈行业客户,助力其业务发展,并以此推动AI快速前行。