先进存力,已是数智化转型的核心基建。
文|游勇
编|周路平
在人工智能蓬勃发展和数智化转型的当下,存储的价值愈发凸显。
随着数据量的急剧膨胀,以及大模型训推和业务实时分析的需要,传统的数据中心越来越力不从心,存储系统亟需向更高吞吐量,更低时延,更高效数据管理的先进数据基础设施演变。
IDC则在《构建面向智能化时代的先进存力中心》白皮书中提到,要“适度超前建设先进存力中心”。
01
AI时代下,存储也是一等公民
39.5ZB,这是IDC预测的中国在2024年的数据总生成量。四年后,这个数字将达到97.1ZB。
或许你对存储容量单位没有概念,如果拿当下内存容量最大的手机来对比,1ZB就需要10亿台1TB内存容量的手机才能放得下。
数据正处于大爆炸阶段。从互联网到移动互联网到物联网、人工智能,每天产生的数据量越来越大,而且种类越来越丰富,不仅有结构化数据,还有大量非结构化和半结构化数据。
海量的数据对存储系统提出了更高的容量要求。数智前线在统计政企招投标采购时发现,今年前8个月已经出现了数百个与存储相关的项目,主要涉及金融、制造、能源、运营商、交通等行业。在大模型热的背景下,存储市场也分外活跃。
另外,大量数据只管存,很少被真正用起来,价值挖掘不够。但现在无论是AI的需求,还是业务场景的需要,使得高频率、高速率、大带宽的实时读写需求猛增,存储系统也需要具备大带宽、低时延、高并发的存储性能,以支持实时数据的高速读写和分析处理。
“AI的兴起是对数据价值的再发现。”曙光存储副总裁郭照斌说,以前存储是被动响应上层需求,但在数智化时代下,数据的价值被提到了新的高度,“以前大家觉得死的数据,现在经过反复的迭代训练,它能产生智能化的东西,它能产生新的数据,这个时候大家才重视起来。”
过去,业内存在“重算力轻存力”的现象,建设了大量以GPU为主的智能算力基础设施,而忽视了对先进存力的建设。去年初,英伟达发布过一个AI数据中心购置预算的构成,其中存储仅占20%。
但越来越多人发现,存储的性能深刻影响了算力性能的发挥。
尤其在大模型的训练过程中,光解决算力和数据问题远远不够,很多企业在采购了不少GPU后,发现往往很难满负荷运转,网络和存储经常遇到瓶颈,出现等待和浪费,拖累整个模型的训练效率。
由于传统业务对存储的性能基本在百GB级,而大模型的训练,对存储的需求激增到TB级。无论是海量训练数据加载、PB级断点续训,还是高并发推理问答,存储性能直接决定了整个训练推理过程中的GPU利用率。特别是在万卡集群下,较差的存储性能严重增加GPU闲置时间,造成资源的极大浪费。
有报告曾提到,在同等GPU算力规模下,存储性能的高低可能造成模型训练周期数倍的差异。
而且,相比于传统AI的需求,大模型的场景具有数据量大、参数规模大、训练周期长等特点。相对应的,它对存力提出了更高的要求,更加强调高吞吐、高IOPS、高带宽、低延时等极致性能。
存储系统正逐渐演进到更高吞吐量,更低时延,更高效的数据平台。而传统的数据中心面临升级,新形态之一就是建设存算协同的先进存力中心。
曙光存储副总裁郭照斌说,数智化时代,存储不再是单纯的被动响应,它会随着算力的发展协同往前发展。
中科院院士钱德沛更是直言:存储也是一等公民。换句话说,在AI时代,没有先进存力,算力也无法充分发挥,两者已经是相辅相成的关系。
越来越多人意识到存储的价值。今年,中国计算机学会(CCF)首次举办了存储大会。而2024年10月,中国电子工业标准化技术协会也成立了数据存储专业委员会,曙光是会长单位。业内甚至有一种说法,存储是算法、算力、数据之外,AI基础设施的第四支柱。
不过,郭照斌也提到,在存储标准方面,依然还有很长的路要走。比如存储的评价方法、测试方法目前还没有特别明确的统一标准;而存储的协议目前也比较老旧,在应用端造成很多的不便。
02
先进存力,打通中国存储产业
构建先进存力中心,成为智能时代解决数据难题的必然发展方向。
IDC在《构建面向智能化时代的先进存力中心》白皮书中提到,先进存力中心的技术突破和应用主要体现在应用EB级平滑扩展能力、多协议支持、先进软件架构能力、多重防护机制、智能化管理平台、液冷等先进技术,共同铸就其高效融合、提质增效、全域流动、安全可靠、绿色低碳等五大特征。
这些特征背后对应的都是当前存储系统需要应对的难题和挑战。
比如,随着数据来源和格式越来越复杂,不同存储系统之间产生了数据孤岛,影响数据的管理和有效利用。而且,许多传统存储系统在设计时未充分考虑扩展性,难以应对业务发展的需要。
而先进存力中心具备足够的灵活性和可扩展性,一方面可以兼容不同架构技术栈,用户可根据自身需求灵活选择技术方案;另一方面,当面对高并发和大数据集的存储需求时,能够平滑扩容。
比如大容量、高速率、低延迟逐渐成为智能化时代评估存储系统性能的重要指标,但当前存储设备的容量和读写性能成为提质增效的重要瓶颈。而先进存力中心要求具备更高的性能,通过提升NVMe全闪存的比重,应用多级数据加速技术等,来实现海量的存储空间、超高的吞吐量和IOPS能力。
算力流动本质是数据要素的流动。数据流动需要攻克跨域存储集群组合管理、数据冷热分级感知、数据跨域网智能流动及跨域无感知访问等关键技术,支撑存力资源的优化布局。
而先进存力中心需要支持数据的全域流动,包括数据在集中式、分布式存储之间的跨平台流动,支持云端和本地化数据之间的流动,以及热温冷数据跨形态的流动等。
另外,绿色低功耗也在成为先进存力中心的必选项。
IDC数据显示,存储耗能约占数据中心总能耗的35%。IDC中国区副总裁周震刚提到,过往都是算力中心对能耗有比较高的要求,存储和GPU消耗的算力不在一个级别,但随着大模型训练对于存储I/O吞吐的访问猛增,存储的功耗也被提了起来,所以存储对液冷等绿色技术有了更多的需求。
而作为先进存力中心概念的倡导者和先行者,曙光存储正在快速适应AI时代存储市场的需要。
2024年6月,曙光存储发布全球首个亿级IOPS集中式全闪存储FlashNexus,“带来了划时代的性能革新”,成为业界唯一具备百控级扩展能力的集中式存储产品,主要用于金融、运营商、医疗等行业的核心业务系统。
当下,发展全闪介质已经成为行业共识。相比传统的HDD,全闪存介质支持高IOPS、低时延,更适用于AI大模型训练阶段的随机读写场景。
在发布了首个集中式全闪产品的同时,曙光也升级了分布式存储产品——ParaStor全闪存储,主要面向AI应用,依托NVMe全闪的技术优化,单节点带宽最高达到150GB/s、320万IOPS。
ParaStor全闪存储采用业界首创五级加速方案。比如BurstBuffer加速层,只需将关键数据存储在计算节点本地的NVMe盘上,避免大量的网络数据传输和远程存储访问,适合存储和快速读取海量小文件,能够将读取性能提升数倍甚至十倍以上。比如XDS双栈兼容,让GPU直接访问存储,不仅减少了CPU本身的损耗,也缩短了整个I/O通路,降低了延时。
基于分布式带来的扩展能力,曙光ParaStor分布式全闪存储已经在科教、金融、运营商、生信等领域,以及自动驾驶等AI前沿的应用场景中广泛落地。比如智元机器人公司在过去一年时间,频繁发布新品,而智元能实现产品的快速迭代,背后也是曙光ParaStor分布式全闪存储在提供支撑。
如今,曙光存储已经形成了FlashNexus集中式存储和ParaStor分布式存储两大产品线。曙光将其分别称为强存和智存,从其字面意思不难理解,集中式存储面向的是金融、运营商等领域的核心业务场景,对性能和可靠性要求高;而以分布式存储为代表的智存面向的是AI等敏态业务需要。
而在这两大不同架构的产品线之间,曙光又推出了通存的方案,打通集中式存储与分布式存储壁垒,让数据无界流动,实现跨平台一键式容灾恢复、跨形态热温冷数据无感流动和跨域资源池全维度视图,以充分提升存储资源利用率,同时更好地支持东数西存、东数西渲、东数西训等应用场景。
通过强存+智存+通存的产品和方案组合,曙光给AI时代提供的全新数据基础设施正在得到越来越多用户的认可。根据IDC年上半年最新数据显示,曙光的市场增速达到了19.2%,远高于市场平均水平。
03
先进客户,走出了最佳实践
位于重庆的西部科学城先进数据中心是东数西算的示范项目,也是成渝枢纽的主节点,通过高密度液冷机架和风冷机架相结合的方式,这里的核心计算设备PUE能做到1.04,能耗远低于行业平均水平。
作为先进存力中心的代表之一,这里具备百PB级的海量存储容量,支持冷温热分级存储跨区域无感调度,可以按需为上层提供从文件、块、大数据等多种协议的支持,灵活适配前端应用。
IDC认为,政府建设区域先进存力中心,需要综合考虑基础设施供应、建设与运营成本、中心整体存力及算力性能配比、数据安全与隐私保护、生态开放、绿色低碳发展要求等。
为了满足不同客户在先进存力上的需求,曙光已经探索出了三种部署模式。
除了上述为政府建设区域先进存力中心,在行业领域,先进存力中心也有广阔的发挥空间。比如高端计算在气象、环境、海洋等领域已经非常普遍,这些行业对数据处理能力有着非常高的要求,构建行业/产业链先进存力中心变得至关重要。
中国气象局与曙光合作,构建了横跨三地的存力平台,建立了国省统一的数据环境,并以NVMe全闪存储带来超强的IOPS性能。根据亿欧智库发布的报告显示,中科曙光以52%的市场份额,位居2023年度中国气象高端计算服务市场应收份额头名。
一位曙光的人士透露,针对行业的先进存力中心,曙光会针对行业数据汇聚需求,做跨域流通的准备。比如中国移动携手曙光存储打造了业内首个存力智能调度平台。其核心能力包括数据的分级及策略管理,可以按照冷、热、温数据进行分级管理;统一观测,支持异构存储统一管理,数据和存力分布一目了然;数据跨区域迁移,支持不同资源池间数据自由迁移,实现业务无感访问。
企业也有自建先进存力中心的需求,海量数据成为分析和大模型训练的基础,企业级先进存力中心不仅能够提供高效、安全的数据存储解决方案,还能够支持快速的数据访问和处理能力,这对于加速AI模型的训练与推理过程尤为重要。
比如某家人工智能企业,面临着训练数据庞大和推理过程对读写速度高的困扰,这家企业通过与曙光合作,构建先进存力中心,应用简洁的系统架构、高效的数据流转性能、百微秒级元数据极致访问性能,为业务提供坚实支撑。
除了人工智能厂商,自动驾驶企业也对先进存力中心有着旺盛需求,曙光存储以超过100PB的存储能力支撑某自动驾驶企业的模型迭代。
而这些先进客户背后,都代表了所在行业和领域的动向和诉求。曙光存储通过发挥技术创新和资源整合能力,打通存储产业上下游,持续推动三大创新部署模式落地,也取得了阶段性成果。
背后离不开长期的产业实践和技术积累。曙光在存储领域的开拓已有二十年,早在2004年开始坚定选择自研路线,致力于解决中国存储产业的底层技术难题。2009年曙光自研的存储系统ParaStor正式诞生。2022年11月,曙光ParaStor分布式统一存储系统登顶IO5O0全球存储性能评测的榜首。
2023年,曙光存储作为存储领域的先行者和探索者,率先提出“先进存力”的概念,首批试点完成了一些先进存力中心的建设。经历了多个产业化升级的曙光存储,不仅帮助用户实现了数据基础设施的更新迭代,也在服务用户的过程中走出了最佳实践,实现了蝶变。
原文标题 : 存储,也是“一等公民”