编|王一粟、苏扬
要想富,先修路。
想要AI大模型能够持续迭代升级,离不开底层算力基础设施的搭建。自2022年ChatGPT爆发以来,算力市场也迎来了爆发式增长。
一方面,中国的科技巨头们,为了抢占未来AGI时代的门票,正在进行的算力“军备竞赛”,疯狂囤积显卡资源的同时,也正在进行从千卡、万卡再到十万卡级别算力集群的建设。
研究机构Omdia报告显示,2024年字节跳动订购了约23万片英伟达的芯片,成为英伟达采购数排名第二的客户。
有报道称,字节跳动2025年的资本开支将达到1600亿元,其中900亿将用来购买AI算力。与字节跳动同等规模的大厂,包括阿里、百度、中国电信等企业,也都在推进十万卡级别的算力集群建设。
而科技巨头们疯狂的算力基建行为,无疑也正在不断将中国AI算力市场推向高潮。
但巨头们疯狂扩大算力规模的另一面,中国算力市场中却有大量的算力资源被闲置,甚至开始出现“中国整体算力资源供过于求”的声音。
“算力市场2023年非常火,做性能相对较低的A100的都赚到了钱,但2024年市场冷淡很多,很多卡都没有拆封。不过各种因素叠加下,面向游戏和消费市场的4090仍处于需求更多的状态。”云轴科技ZStack CTO王为对光锥智能说道。
这两年,算力生意是大模型浪潮中第一个掘到金的赛道,除了英伟达,也还有无数云厂商、PaaS层算力优化服务商、甚至芯片掮客们都在前赴后继。而这一轮算力需求的暴增,主要是由于AI大模型的迅猛发展所驱动起来的。
AI的需求就像一个抽水泵,将原来稳定多年的算力市场激活,重新激起汹涌的浪花。
但现在,这个源头动力发生了改变。AI大模型的发展,正逐渐从预训练走向推理应用,也有越来越多的玩家开始选择放弃超大模型的预训练。比如日前,零一万物创始人兼CEO李开复就公开表示,零一万物不会停止预训练,但不再追逐超大模型。
在李开复看来,如果要追求AGI,不断训练超大模型,也意味着需要投入更多GPU和资源,“还是我之前的判断——当预训练结果已经不如开源模型时,每个公司都不应该执着于预训练。”
也正因此,作为曾经中国大模型创业公司的六小虎之一,零一万物开始变阵,后续将押注在AI大模型推理应用市场上。
就在这样一个需求和供给,都在快速变化的阶段,市场的天平在不断倾斜。
2024年,算力市场出现供需结构性失衡。未来算力基建是否还要持续,算力资源到底该销往何处,新入局玩家们又该如何与巨头竞争,成为一个个关键命题。
一场围绕智能算力市场的隐秘江湖,正徐徐拉开帷幕。
供需错配:低质量的扩张,碰上高质量需求
1997年,还很年轻的刘淼,加入了当时发展如日中天的IBM,这也使其一脚就迈入了计算行业。
20世纪中叶,IBM开发的大型主机被誉为“蓝色巨人”,几乎垄断了全球的企业计算市场。
“当时IBM的几台大型主机,就能够支撑起一家银行在全国的核心业务系统的运行,这也让我看到了计算让业务系统加速的价值。”刘淼对光锥智能说道。
也正是在IBM的经历,为刘淼后续投身新一代智算埋下伏笔。
而在经历了以CPU为代表的主机时代、云计算时代后,当前算力已进入到以GPU为主的智算时代,其整个计算范式也发生了根本改变,毕竟如果沿用老的架构方案,就需要把大量数据通过CPU绕行再通往GPU,这就导致GPU的大算力和大带宽被浪费。而GP训练和推理场景,也对高速互联、在线存储和隐私安全提出了更高的要求。
这也就催生了中国智能算力产业链上下游的发展,尤其是以智算中心为主的基础设施建设。
2022年底,ChatGPT的发布正式开启AI大模型时代,中国也随之进入“百模大战”阶段。
彼时各家都希望能够给大模型预训练提供算力,而行业中也存在并不清楚最终算力需求在哪,以及谁来用的情况,“这一阶段大家会优先买卡,做一种资源的囤积。”图灵新智算联合创始人兼研究院院长洪锐说道,这也是智算1.0时代。
随着大模型训练参数越来越大,最终发现真正算力资源消纳方,集中到了做预训练的玩家上。
“这一轮AI产业爆发的前期,就是希望通过在基础模型预训练上不断扩大算力消耗,探索通往AGI(通用人工智能)的道路。”洪锐说道。
公开数据显示,ChatGPT的训练参数已经达到了1750亿、训练数据45TB,每天生成45亿字的内容,支撑其算力至少需要上万颗英伟达的GPU A100,单次模型训练成本超过1200万美元。
另外,2024年多模态大模型犹如神仙打架,视频、图片、语音等数据的训练对算力提出了更高的需求。
公开数据显示,OpenAI的Sora视频生成大模型训练和推理所需要的算力需求分别达到了GPT-4的4.5倍和近400倍。中国银河证券研究院的报告也显示,Sora对算力需求呈指数级增长。
因此,自2023年开始,除各方势力囤积显卡资源之外,为满足更多算力需求,中国算力市场迎来爆发式增长,尤其是智算中心。
赛迪顾问人工智能与大数据研究中心高级分析师白润轩此前表示:“从2023年开始,各地政府加大了对智算中心的投资力度,推动了基础设施的发展。”
这其中既有政府主导建设项目,也有以阿里云、百度智能云、商汤等企业为主开始投资建设的智算中心,更有一些跨界企业看到其中的机会从而迈入这一赛道。
同时,还有像图灵新智算、趋境科技、硅基流动等创业公司进入到算力行业。
但是,智算中心的建设并非简单的修桥铺路,一是对技术和专业度的要求很高,二是建设和需求往往存在错配,三是对持续的规划不足。
在刘淼看来,智算中心其实是中国独特的产物,某种程度上承担了部分支持本地产业发展的社会使命,但不是纯市场化的行为带来一大问题,就是在长达12-24个月建设周期后,“建好了就闲置了,因为已经不能满足2年后行业对算力需求了。”
从当前来看,中国算力市场资源在某些区域确实出现闲置。“中国算力市场现阶段问题的根源,就在于太粗放了。”刘淼说道。
不过,市场不能简单讲是供需过剩,或者供需不足,实际上是算力供给与需求的错配。即高质量的算力需求远远不足,但低质量的算力供给却找不到太多的市场需求。毕竟,大模型预训练玩家往往需要万卡以上的算力资源池。
然而,中国算力市场上前期部分智算中心的规模,“可能只有几十台到一两百台,这对于当前基础模型的预训练来说是远远不够的,但设备选型是匹配的预训练需求。”洪锐表示,站在预训练角度,算力确实稀缺,但由于规模达不到而不能用的算力放在那里就成了闲置。
大模型赛道分化,算力需求悄然转变
大模型市场的发展变化太快了。
原本在大模型预训练阶段,行业中玩家希望能够通过不停的训练来提升大模型效果,如果这一代不行,就花更多算力、更多资金去训练下一代大模型。
“之前大模型赛道发展逻辑是这样的,但到了2024年6月份左右,行业中能够明显感知到,大模型预训练这件事已经到了投入产出的临界点,投入巨量资源做预训练,也可能达不到预期收益。”洪锐表示。
背后很重要的原因,在于“OpenAI技术演进的问题,GPT-3.5的能力很震撼,GPT-4的能力有提升,但从2023年年中到2024年,整体的基座模型能力的升级达不到2023年的效果,再多的提升在CoT和Agent侧。”王为如此说道。
基础模型能力升级放缓的同时,预训练的成本也非常高昂。
此前零一万物创始人兼CEO李开复所言,一次预训练成本约三四百万美元。这对于大多数中小企业而言,无疑是一项高额成本投入,“创业公司的生存之道,是要考虑怎么样去善用每一块钱,而不是弄更多GPU来烧。”
因此,随着大模型参数越来越大,越来越多的企业无法承担大模型训练成本,只能基于已经训练好的模型进行应用或者微调。“甚至可以说,当大模型参数达到一定程度后,大部分企业连微调能力都不具备。”洪锐说道。
有相关数据统计,2024年下半年,在通过备案的大模型中,有接近50%转向了AI应用。
大模型从预训练走向推理应用,无疑也带来了算力市场需求的分化。洪锐认为:“大模型预训练的计算中心和算力需求,以及推理应用的算力需求,其实已经是两条赛道了。”
从大模型预训练角度来说,其所需要的算力与模型参数量、训练数据量成正比,算力集群规模的整体要求是:百亿参数用百卡,千亿参数用千卡,万亿参数用万卡。
另外,大模型预训练的一个重要特征,就是不能中断,一旦中断所有训练都需要从CheckPoint重头开始。
“去年至今,国内引进了大量智算设备,但平均故障率却在10%-20%左右,如此高的故障率导致大模型训练每三小时就要断一次。”刘淼说道,“一个千卡集群,基本上20天就要断一次。”
同时,为了支持人工智能走向Agent时代甚至未来的通用人工智能,需要不断扩大算力集群,从千卡集群迈向万卡集群甚至十万卡,“马斯克是个牛人,规划了孟菲斯十万卡集群,首个1.9万卡,从安装到点亮,只花了19天,其复杂程度要远远高出现有的项目。”刘淼说道。
目前国内为了满足更高参数大模型的训练,也都在积极投建万卡算力池,但“大家会发现,算力供应商的客户其实都集中在头部的几个企业,且会要求这些企业签订长期的算力租赁协议,不管你是否真的需要这些算力。”中国电信大模型首席专家、大模型团队负责人刘敬谦如此说道。
不过,洪锐认为;“未来全球真正能够有实力做预训练的玩家不超过50家,且智算集群规模到了万卡、十万卡后,有能力做集群运维故障排除和性能调优的玩家也会越来越少。”
现阶段,已经有大量中小企业从大模型的预训练转向了AI推理应用,且“大量的AI推理应用,往往是短时间、短期间的潮汐式应用。”刘敬谦说道。但部署在实际终端场景中时,会需要大量服务器进行并行网络计算,推理成本会骤然提升。
“原因是延迟比较高,大模型回答一个问题需要经过深层次推理思考,这段时间大模型一直在进行计算,这也意味着几十秒内这台机器的计算资源被独占。如果拓展至上百台服务器,则推理成本很难被覆盖。”趋镜科技CEO艾智远对光锥智能称。
因此,相较于需要大规模算力的AI(大模型)训练场景,AI推理对算力性能要求没有AI训练严苛,主要是满足低功耗和实时处理的需求。“训练集中于电力高地,推理则要靠近用户。”华为公司副总裁、ISP与互联网系统部总裁岳坤说道,推理算力的延时要在5-10毫秒范围内,并且需要高冗余设计,实现“两地三中心”建设。
以中国电信为例,其目前已在北京、上海、广州、宁夏等地建立万卡资源池,为了支持行业模型发展,也在浙江、江苏等七个地方建立千卡资源池。同时,为了保证AI推理应用的低延时在10毫秒圈子里,中国电信也在多地区建设边端推理算力,逐渐形成全国“2+3+7”算力布局。
2024年,被称作AI应用落地元年,但实际上,AI推理应用市场并未如预期中迎来爆发。主要原因在于,“目前行业中尚未出现一款能够在企业中大规模铺开的应用,毕竟大模型本身技术能力还有缺陷,基础模型不够强,存在幻觉、随机性等问题。”洪锐说道。
由于AI应用普遍尚未爆发,推理的算力增长也出现了停滞。不过,很多从业者依然乐观——他们判断,智能算力仍会是“长期短缺”,随着AI应用的逐渐渗透,推理算力需求的增长是个确定趋势。
一位芯片企业人士对光锥智能表示,AI推理其实是在不断尝试追求最佳解,Agent(智能体)比普通的LLM(大语言模型)所消耗的Token更多,因为其不停地在进行观察、规划和执行,“o1是模型内部做尝试,Agent是模型外部做尝试。”
因此,“预估明年会有大量AI推理算力需求爆发出来。”刘敬谦说道,“我们也建立了大量的轻型智算集群解决方案和整个边端推理解决方案。”
王为也表示;“如果算力池中卡量不大的情况下,针对预训练的集群算力很难出租。推理市场所需要训练卡量并不多,且整个市场还在稳定增长,中小互联网企业需求量在持续增加。”
不过现阶段,训练算力仍占据主流。据IDC、浪潮信息联合发布的《2023-2024年中国人工智能计算力发展评估报告》,2023年国内AI服务器工作负载中训练:推理的占比约为6:4。
2024年8月,英伟达管理层在2024年二季度财报电话会中表示,过去四个季度中,推理算力占英伟达数据中心收入约为40%。在未来,推理算力的收入将持续提升。12月25日,英伟达宣布推出两款为满足推理大模型性能需要的GPU GB300和B300。
无疑,大模型从预训练走向推理应用,带动了算力市场需求的分化。从整个算力市场来说,当前智算中心还处于发展初期,基础设施建设并不完善。因此,大型预训练玩家或者大型企业,会更倾向于自己囤积显卡。而针对AI推理应用赛道,智算中心提供设备租赁时,大部分中小客户会更倾向于零租,且会更注重性价比。
未来,随着AI应用渗透率不断提升,推理算力消耗量还会持续提升。按照IDC预测结果,2027年推理算力在智能算力大盘中的占比甚至会超过70%。
而如何通过提升计算效率,来降低推理部署成本,则成为了AI推理应用算力市场发展的关键。
不盲目推卡,如何提升算力利用率?
整体来说,自2021年正式启动“东数西算”建设以来,中国市场并不缺底层算力资源,甚至随着大模型技术发展和算力需求的增长,算力市场中大量购买基建的热潮,还会持续一两年时间。
但这些底层算力资源却有一个共性,即四处分散,且算力规模小。刘敬谦表示:“每个地方可能只有100台或200台左右算力,远远不能够满足大模型算力需求。”
另外,更为重要的是,当前算力的计算效率并不高。
有消息显示,即使是OpenAI,在GPT-4的训练中,算力利用率也只有32%-36%,大模型训练的算力有效利用率不足50%。“我国算力的利用率只有30%。”中国工程院院士邬贺铨坦言。
原因在于,大模型训练周期内,GPU卡并不能随时实现高资源利用,在一些训练任务比较小的阶段,还会有资源闲置状态。在模型部署阶段,由于业务波动和需求预测不准确,许多服务器往往也会处于待机或低负载状态。
“云计算时代的CPU服务器整体发展已经非常成熟,通用计算的云服务可用性要求是99.5%~99.9%,但大规模GPU集群非常难做到。”洪锐表示。
这背后,还在于GPU整体硬件发展以及整个软件生态的不充足。软件定义硬件,也正逐渐成为智能算力时代发展的关键。
因此,在智能算力江湖中,围绕智能算力基础设施建设,整合社会算力闲置资源,并通过软件算法等方式提高算力计算效率,各类玩家凭借自己的核心优势入局,并圈地跑马。
一类是大型国资央企,比如中国电信,基于其央企身份能够更好的满足国资、央企的算力需求。
一方面,中国电信自己构建了千卡、万卡和十万卡算力资源池。另一方面,通过息壤·智算一体化平台,中国电信也正在积极整合社会算力闲置资源,可实现跨服务商、跨地域、夸架构的统一管理,统一调度,提高算力资源的整体利用率。
“我们先做的是国资央企的智算调度平台,通过将400多个社会不同闲置算力资源整合至同一个平台,然后连接国资央企的算力需求,从而解决算力供需不平衡问题。”刘敬谦说道。
一类是以互联网公司为主的云厂商,包括阿里云、百度智能云、火山引擎等,这些云厂商在底层基础设施架构上正积极从CPU云转型至GPU云,并形成以GPU云为核心的全栈技术能力。
“下一个十年,计算范式将从云原生,进入到AI云原生的新时代。”火山引擎总裁谭待此前说道,AI云原生,将以GPU为核心重新来优化计算、存储与网络架构,GPU可以直接访问存储和数据库,来显著的降低IO延迟。
从底层基础设施来看,智算中心的建设往往并不是以单一品牌GPU显卡为主,更多的可能是英伟达+国产GPU显卡,甚至会存在通过CPU、GPU、FPGA(可编程芯片)、ASIC(为特定场景设计的芯片)等多种不同类型的计算单元协同工作的异构算力情况,以满足不同场景下的计算需求,实现计算效力的最大化。
因此,云厂商们也针对“多芯混训”的能力,进行了重点升级。比如今年9月,百度智能云将百舸AI异构计算平台全面升级至4.0版本,实现了在万卡规模集群上95%的多芯混合训练效能。
而在底层基础设施之上,影响大模型训练和推理应用部署的,除了GPU显卡性能之外,还与网络、存储产品、数据库等软件工具链平台息息相关,而处理速度的提升,往往需要多个产品共同加速完成。
当然,除云大厂外,还有一批中小云厂商以自己的差异化视角切入到算力行业中,如云轴科技——基于平台能力,做算力资源的调度和管理。
王为坦言,“之前GPU在业务系统架构中还只是附件,后续才逐渐成为单独的类别。”
今年8月份,云轴科技发布了新一代AI Infra基础设施ZStack AIOS平台智塔,这一平台主要以AI企业级应用为核心,从“算力调度、AI大模型训推、AI应用服务开发”三个方向帮助企业客户进行大模型新应用的落地部署。
“我们会通过平台统计算力具体的使用情况、对算力进行运维,同时在GPU显卡有限的场景下,想要提升算力利用率,也会为客户切分算力。”王为说道。
此外,在运营商场景中,算力的资源池比较多,“我们也会跟客户进行合作,帮助其进行资源池的运营、计算、统一运营管理等。”王为表示。
另一类玩家,是基于算法提升算力计算效率的创业公司,如图灵新智算、趋镜科技、硅基流动等。这些新玩家,综合实力远弱于云大厂们,但通过单点技术突围,也逐渐在行业中占据一席之地。
“最开始我们是智算集群生产制造服务商,到连接阶段,则是算力运营服务商,未来成为智能数据和应用服务商,这三个角色不断演变。”刘淼说道,“所以我们定位是,新一代算力运营服务厂商。”
图灵新智算未来希望,搭建独立的整合算力闲置资源的平台,能够进行算力的调度、出租和服务。“我们打造一个资源平台,将闲置算力接入平台,类似于早期的淘宝平台。”刘淼说道,闲置算力主要对接的是各地区智算中心。
与之相比,趋境科技、硅基流动等企业,更聚焦在AI推理应用市场中,并更注重以算法的能力,来提升算力的效率,降低大模型推理应用的成本,只不过各家方案的切入点并不相同。
比如趋境科技为了解决大模型不可能三角,及效果、效率和成本之间的平衡,提出了全系统异构协同推理和针对AI推理应用的RAG(搜索增强)场景,采用“以存换算”的方式释放存力作为对于算力的补充两大创新技术策略,将推理成本降低 10 倍,响应延迟降低 20 倍。
而面向未来,除了持续优化连接底层算力资源和上层应用的中间AI infra层外,“我们更希望的一种模式是,我们搭的是一个架子,房顶上的这些应用是由大家来开发,然后利用我们架子能够更好的降低成本。”趋境科技创始人兼CEO艾智远如此说道。
不难看出,趋境科技并不只是想做算法优化解决方案供应商,还想做AI大模型落地应用服务商。
“GPU利用率还存在很大提升空间,但非常难,涉及到芯片、显存、卡间互联、多机通讯和软件调度等技术,这并不是一家公司或一门技术能够解决,而是需要整个产业链上下游共同推动。”洪锐也如此对光锥智能说道。
洪锐认为,目前行业缺乏真正能够从技术上将超大规模智算集群组网运维起来的能力,同时软件层并未发展成熟,“算力就在这,但如果软件优化没做好,或推理引擎和负载均衡等没做好,对算力性能的影响也非常大。”
纵观这三大类玩家,不管是中国电信等运营商,还是云厂商们,亦或是新入局的玩家,各自切入算力市场的方式不尽相同,但都希望在这一场全球算力的盛宴中分得一杯羹。
事实上,现阶段相比大模型服务,这的确也是确定性更强的生意。
算力租赁同质化,精细化、专业化运营服务为王
从赚钱的稳定度上,淘金者很难比得上卖水人。
AI大模型已经狂奔两年,但整个产业链中,只有以英伟达为首的算力服务商真正赚到了钱,在收入和股市上都名利双收。
而在2024年,算力的红利在逐步从英伟达延伸到泛算力赛道上,服务器厂商、云厂商,甚至倒卖、租赁各种卡的玩家,也获得了一定利润回报。当然,利润远远小于英伟达。
“2024年整体上没亏钱,但是也没赚到很多钱。”王为坦言,“AI(应用)现阶段还没有起量,跟AI相关量最大的还是算力层,算力应用营收相对较好。”
对于2025年的发展预期,王为也直言并未做好完全的预测,“明年真的有点不好说,但远期来看,未来3年AI应用将会有很大的增量进展。”
但以各地智算中心的发展情况来看,却鲜少能够实现营收,基本目标都是覆盖运营成本。
据智伯乐科技CEO岳远航表示,经测算后发现,一个智算中心纵使设备出租率涨到60%,至少还要花上7年以上的时间才能回本。
目前智算中心对外主要以提供算力租赁为主要营收方式,但“设备租赁非常同质化,真正缺失的是一种端到端的服务能力。”洪锐对光锥智能说道。
所谓的端到端服务能力,即除硬件之外,智算中心还要能够支持企业从大模型应用开发,到大模型的迭代升级,再到后续大模型部署的全栈式服务。而目前能够真正实现这种端到端服务的厂商,相对比较少。
不过,从整体数据来看,中国智算服务市场发展前景越来越乐观。据IDC最新发布《中国智算服务市场(2024上半年)跟踪》报告显示,2024年上半年中国智算服务整体市场同比增长79.6%,市场规模达到146.1亿元人民币。“智算服务市场以远超预期的增速在高速成长。从智算服务的增长态势来看,智算服务市场在未来五年内仍将保持高速成长。”IDC中国企业级研究部研究经理杨洋表示。
洪锐也表示,在经历疯狂囤积卡资源的智算1.0时代,到智算中心粗放扩张,供需失衡的智算2.0时代后,智算3.0时代的终局,一定是专业化、精细化运营的算力服务。
毕竟,当预训练和推理分成两个赛道后,AI推理应用市场会逐渐发展起来,技术栈也会逐渐成熟,服务能力逐渐完善,市场也将进一步整合零散闲置算力资源,实现算力利用率最大化。
不过,当前中国算力市场也仍面临着巨大挑战。在高端GPU芯片短缺的同时,“现在国内GPU市场过于碎片化,且各家GPU都有独立的生态体系,整体的生态存在割裂。”王为如此说道,这也就导致国内整个GPU生态的适配成本非常高。
但就像刘淼所言,智算的20年长周期才刚刚开始,现在或许仅仅只是第一年。而在实现AGI这条道路上,也充满着不确定性,这对于众多玩家来说,无疑充满着更多的机遇和挑战。
原文标题 : AI大模型时代,算力隐秘的角落 | 年终复盘