DeepSeek到底用了多少GPU?

了不起的云计算
关注

各位小伙伴们大家好呀

在中国春节期间DeepSeek靠着超低价格迅速出圈,掀起了一场全球AI大模型风暴。这直接改变了以前大家普遍认为的发展AI就要不断地堆算力、堆GPU的“传统”观念。

但很多网友会有一个疑问:训练出DeepSeek,需要多少GPU呢?

关于这个问题,网上也是说法不一,甚至连“美国钢铁侠”马斯克也在疯狂质疑DeepSeek:不信只用了极少的芯片。

那么DeepSeek到底用了多少GPU呢?最近国外网站SemiAnalysis对这一话题进行了分析,我个人觉得相对比较符合事实,我们今天拿过来一起来讨论一下。

▉ DeepSeek与幻方

对于密切关注AI大模型领域的人来说,DeepSeek严格意义上其实并不算一家新公司。

DeepSeek创始人梁文锋1985年出生于广东省湛江市,2015年梁文锋与朋友一同创办了幻方量化(High-Flyer),是最早在交易算法中使用人工智能的机构之一。

他们很早就意识到AI人工智能在金融以外领域的潜力,以及扩展的重要性。因此,他们不断扩充其GPU的供应。在2021年出口限制之前,High-Flyer就投资了1万个A100 GPU,这一举措获得了丰厚回报。

随着High-Flyer的不断进步,2023年5月他们意识到是时候分拆出“DeepSeek”,以更专注地追求进一步的人工智能能力。由于当时外部投资者对人工智能兴趣不大,主要担心缺乏商业模式,High-Flyer自行投资了这家公司,这在现在看来是多个明智的一项投资。

由于这层关系,如今High-Flyer和DeepSeek经常共享人力和计算资源。

DeepSeek如今已经发展成为一个严肃且有组织的努力方向,绝非许多媒体所声称的“副业”。SemiAnalysis认为,即使考虑到出口管制,他们在GPU上的投资也已超过5亿美元。

▉ DeepSeek的GPU资源分布

SemiAnalysis预估,DeepSeek使用大约5万个Hopper GPU来做训练,当然正如一些人所声称的那样,这并不等同于5万个H100。英伟达根据不同法规制造了H100的不同版本(H800、H20),目前只有H20可供中国的模型供应商使用。

需要注意的是,H800的计算能力与H100相同,但网络带宽较低。

SemiAnalysis认为DeepSeek使用了大约1万个H800和大约1万个H100。此外,他们还订购了更多的H20,英伟达在过去9个月中已经生产了超过100万个专为中国设计的GPU。这些GPU在High-Flyer和DeepSeek之间共享,并在一定程度上地理分散部署,用于交易、推理、训练和研究。

通过分析显示,DeepSeek的服务器总资本支出约为16亿美元,其中与运营这些集群相关的成本相当可观,达到9.44亿美元。

同样,所有AI实验室和超大规模云服务提供商都有更多的GPU用于各种任务,包括研究和训练,而不是仅用于单次训练运行,如何有效集中资源进行特定任务的训练也是DeepSeek的挑战之一。

在人才方面,DeepSeek专注从中国招聘人才,并不考虑之前的资历,重点放在能力和好奇心上。据了解,DeepSeek定期在北大和浙大等顶尖大学举办招聘会,许多员工都毕业于这些学校。职位并不一定预先定义,招聘人员被赋予灵活性,甚至在招聘广告中吹嘘可以无限制地使用数万个GPU。

DeepSeek极具竞争力,据称为有前途的候选人提供超过130万美元的薪水,远高于同为中国的竞争对手,如Moonshot。DeepSeek目前有大约150名员工,但正在迅速增长。

正如历史所证明的那样,一个资金充足且专注的小型初创公司往往能够突破可能的边界。DeepSeek没有像谷歌那样的官僚机构,并且由于是自筹资金,他们可以迅速推进想法。然而,与谷歌一样,DeepSeek(在大多数情况下)自行运营数据中心,不依赖外部方或提供商。这为实验开辟了更多空间,使他们能够在整个堆栈中进行创新。

SemiAnalysis认为DeepSeek是当今最好的“开放灵活”实验室,超过了Meta的Llama项目、Mistral等。

▉ DeepSeek的训练成本和性能

近期,一个新闻头条中提到DeepSeek的价格和效率引发了全球的热潮,标题是DeepSeek V3的训练成本只有“600万美元”,这是错误的。这就好比指出产品材料清单中的一个特定部分,并将其视为全部成本。预训练成本只是总成本中非常狭窄的一部分。

下面我们来看下DeepSeek整体的训练成本

我们相信预训练的成本远远不是模型实际花费的金额。

SemiAnalysis认为DeepSeek在公司历史上对硬件的支出远远超过5亿美元。在模型开发过程中,为了开发新的架构创新,需要在测试新想法、新的架构想法和消融研究上花费相当多的资金。

比如多头潜在注意力(Multi-Head Latent Attention)是DeepSeek的一个关键创新,它的开发花费了团队几个月的时间开发,涉及了大量的人力和GPU资源。

文章中提到的600万美元成本仅归因于预训练运行的GPU成本,这只是模型总成本的一部分。被排除在外的还有像研发和硬件本身的总拥有成本(TCO)这样重要的部分。

作为参考,Claude 3.5 Sonnet的训练成本为数千万美元,如果这就是Anthropic所需的全部成本,那么他们就不会从谷歌筹集数十亿美元,从亚马逊筹集数百亿美元了。这是因为他们需要进行实验、提出新的架构、收集和清理数据、支付员工工资等。

那么DeepSeek是如何拥有如此庞大的集群的呢?出口管制的滞后是关键,此外,他们还订购了大量的H20型号GPU,这是专门为满足中国市场的需求而生产的。

下面我们来看下V3的性能

V3无疑是一个令人印象深刻的模型,但值得注意的是,它相对于什么来说是令人印象深刻的。许多人将V3与GPT-4o进行比较,并强调V3的性能超过了4o。这是事实,但GPT-4o是在2024年5月发布的。而在AI领域,这段时间已经带来了显著的算法进步。

随着时间的推移,使用较少的计算资源实现相同或更强的能力是正常的。例如,现在可以在笔记本电脑上运行的小型模型,其性能与GPT-3相当,而GPT-3的训练需要超级计算机,并且推理需要多个GPU。

换句话说,算法改进使得训练和推理相同能力模型所需的计算量减少,这种模式一次又一次地出现。这一次,世界之所以注意到,是因为它来自中国的实验室。但小型模型性能提升并不是什么新鲜事。

到目前为止,我们见证的这种模式表明,人工智能实验室在绝对美元支出上花费更多,以换取更高的性价比。据估计,算法进步的速度为每年4倍,这意味着每过一年,实现相同能力所需的计算量就会减少到原来的1/4。

Anthropic的首席执行官Dario认为,算法的进步速度甚至更快,可以带来10倍的提升。就GPT-3级别的推理定价而言,成本已经降低了1200倍。

在研究GPT-4的成本时,我们看到了类似的成本下降趋势,尽管这处于曲线的更早期阶段。尽管随着时间推移成本差异的减少可以通过不再保持能力恒定来解释,但在这种情况下,我们看到算法改进和优化带来了成本的10倍降低和能力的10倍提升。

需要明确的是,DeepSeek的独特之处在于他们率先实现了这一成本和能力水平。他们在发布开源权重方面也是独一无二的,但之前的Mistral和Llama模型也曾这样做过。DeepSeek已经实现了这一成本水平,但到今年年底,不要对成本再下降5倍感到惊讶。

R1的性能是否与o1相当?

另一方面,R1能够达到与o1相当的结果,而o1是在9月才刚刚宣布的。DeepSeek是如何如此迅速地迎头赶上的呢?

答案在于推理是一个新的范式,它具有更快的迭代速度和更低的入门门槛,能够在较小的计算量下取得有意义的收益,这比之前的范式更有优势。正如在扩展定律报告中所概述的那样,之前的范式依赖于预训练,而这正变得越来越昂贵,也越来越难以取得稳健的收益。

这个新的范式专注于通过在现有模型上进行后训练的合成数据生成和强化学习(RL)来实现推理能力,这使得人们能够以更低的价格更快地取得进步。较低的入门门槛加上易于优化的特点,使得DeepSeek能够比以往更快地复制o1的方法。随着参与者逐渐学会在这个新范式中实现更大规模的扩展,预计匹配能力的时间差距将会增加。

需要注意的是,R1的论文中没有提及所使用的计算量。这并非偶然——为了进行R1的后训练,生成合成数据需要大量的计算,更不用说强化学习了。R1是一个非常好的模型,我们并不否认这一点,如此迅速地达到推理能力的前沿是令人钦佩的。DeepSeek作为中国的公司,而且用更少的资源就迎头赶上了,这更令人印象深刻。

但是R1提到的一些基准测试也是具有误导性的。将R1与o1进行比较是很棘手的,因为R1故意没有提及他们没有领先的基准测试。而且尽管R1在推理性能上与o1相当,但在许多情况下,它并不是每个指标的明确赢家,而且在许多情况下,它比o1更差。

我们还没有提到O3。O3的能力比R1和O1都要高出很多。事实上,OpenAI最近分享了O3的结果,其基准测试的提升是垂直的。“深度学习撞墙了”,但这是另一种类型的“墙”。

谷歌的推理模型与R1相当?

尽管R1引发了大量炒作,但一家市值2.5万亿美元的公司早在一个月前就发布了一个更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。该模型已经可以使用,并且比R1便宜得多,尽管它的模型上下文长度通过API要大得多。

在报告的基准测试中,Flash 2.0 Thinking击败了R1,尽管基准测试并不能说明全部情况。谷歌只发布了3个基准测试,因此这是一个不完整的画面。尽管如此,我们认为谷歌的模型是稳健的,在许多方面都能与R1抗衡,尽管它没有受到任何炒作。这可能是因为谷歌糟糕的上市策略和用户体验不佳,但也因为R1是一个来自中国的惊喜。

明确地说,这些都不会削弱DeepSeek的杰出成就。DeepSeek作为一个快速行动、资金充足、聪明且专注的初创公司,能够击败像Meta这样的巨头发布推理模型,这是值得称赞的。

▉ DeepSeek技术创新

DeepSeek破解了AI大模型密码,解锁了领先实验室尚未实现的创新。SemiAnalysis预计,DeepSeek发布的任何改进都将被西方实验室几乎立即复制。

这些改进是什么?大多数架构成就都与V3有关,V3是R1的基础模型。让我们详细说明这些创新。

训练方面(预训练和微调)

DeepSeek V3在前所未有的规模上使用了多标记预测(MTP),并且增加了注意力模块,这些模块预测接下来的几个标记,而不是单一标记。这在训练期间提高了模型性能,并且可以在推理时丢弃。这是一个算法创新的例子,它实现了在较低计算量的情况下提高性能。

还有其他考虑因素,比如在训练中使用FP8精度,但领先的美国实验室已经进行了很长时间的FP8训练。

DeepSeek V3也是一种混合专家模型,这是一个由许多其他较小的专家组成的大型模型,这些专家擅长不同的事情,这是一种新兴行为。混合专家模型面临的一个挑战是如何确定哪个标记应该分配给哪个子模型或“专家”。

图片

DeepSeek实现了一个“门控网络”,以平衡的方式将标记派发到正确的专家,而不会降低模型性能。这意味着派发非常高效,并且在训练期间,相对于模型的整体大小,每个标记只改变少量参数。这增加了训练效率,并降低了推理的成本。

尽管有人担心混合专家(MoE)的效率提升可能会减少投资,但Dario指出,更强大的人工智能模型带来的经济效益如此巨大,以至于任何成本节约都会迅速重新投入到构建更大模型中。与其减少整体投资,混合专家的效率提升将加速人工智能的扩展努力。公司专注于将模型扩展到更多的计算资源,并在算法上提高它们的效率。

就R1而言,它从拥有一个强大的基础模型(V3)中受益匪浅。这在一定程度上是因为强化学习(RL)。强化学习有两个重点:格式化(以确保其提供连贯的输出)和有用性与无害性(以确保模型是有用的)。推理能力是在模型在合成数据集上进行微调时出现的。

需要注意的是,在R1论文中没有提到计算量,这是因为提到使用的计算量会显示他们拥有的GPU比他们声称的要多。这种规模的强化学习需要大量的计算,尤其是用于生成合成数据。

此外,DeepSeek使用的一部分数据似乎来自OpenAI的模型,SemiAnalysis认为这将对从输出中提取信息的政策产生影响。这在服务条款中已经是非法的,但展望未来,一种新的趋势可能是某种形式的KYC(了解你的客户),以阻止提取信息。

说到提取信息,R1论文中最有趣的部分或许是能够通过用推理模型的输出对较小的非推理模型进行微调,从而将它们变成推理模型。数据集策划总共包含了80万个样本,现在任何人都可以使用R1的CoT输出来创建自己的数据集,并借助这些输出制作推理模型。我们可能会看到更多较小的模型展示推理能力,从而提升小模型的性能。

多头潜在注意力(MLA)

MLA是DeepSeek大幅降低推理成本的关键创新之一。原因是MLA将每个查询所需的KV缓存减少了约93.3%,与标准注意力相比。KV缓存是Transformer模型中的一种内存机制,用于存储代表对话上下文的数据,减少不必要的计算。

图片

随着对话上下文的增长,KV缓存也会增加,并且会带来相当大的内存限制。大幅减少每个查询所需的KV缓存可以减少每个查询所需的硬件数量,从而降低成本。

然而,SemiAnalysis认为DeepSeek正在以成本价提供推理服务以获得市场份额,而不是真正赚钱。谷歌的Gemini Flash 2.0 Thinking仍然更便宜,而且谷歌不太可能以成本价提供该服务。MLA特别引起了众多领先美国实验室的关注。MLA于2024年5月发布的DeepSeek V2中推出。由于H20的内存带宽和容量比H100更高,DeepSeek在推理工作负载方面也享受了更多效率。

关注DeepSeek的创新的内容详解可以查看我上一篇文章一文搞懂DeepSeek创新了些啥?

目前来说,DeepSeek 的 GPU 需求突出了有效的人工智能基础设施规划的必要性。通过使用智能工作负载分配、量化和动态 GPU 分配,业务可以显著降低计算成本,同时保持高性能。这也是DeepSeek被称作"国运级"产品的重要原因吧。

       原文标题 : DeepSeek到底用了多少GPU?

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存