“ DeepSeek对AI行业深远影响,成本定价体系、市场估值体系、产业上下游生态,都需要达成新的共识。更重要的是DeepSeek使人们看到了‘信心’,‘信心’能凝聚更多资源(舆论环境、人才、资本、时间、耐心等)让中国科技从技术追赶者变成了引领创新者。”
从2022年底OpenAI发布ChatGPT,中国AI发展的主流叙事始终是“追赶”,而DeepSeek横空出世,将“追赶“变成了“创新”和“普及”,甚至是“重塑”和“超越”。
从1月20日,周日晚间梁文锋登上新闻联播开始发酵,震撼全世界的“DeepSeek R1 560万美元训练成本,并且开源”,使得全球AI人相关的人注意力都聚焦于此。
算力厂家股价大跳水。投AI的VC们不仅忙着研究DeepSeek,还要重新评估AI市场,并且还要承受舆论的巨大压力,比如小红书有篇帖子,标题为“DeepSeek再次证明,中国VC就是个笑话”。更不幸的是,点赞还过千了。DeepSeek的开源也引发了全球对于技术平权的热烈讨论。
当我们情绪得到了宣泄,冷静下来用“系统2”来思考的时候,不禁会问:DeepSeek影响了什么?真实的成本到底多少?未来对AI的投资有哪些影响?技术平权带来了什么?
01失意的VC们
自从ChatGPT问世以来,国内关于AI赛道的投资是最火热的。但DeepSeek的发布,让英伟达这类算力相关厂商的股价大跳水(堆算力的叙事逻辑被打破),成为最大“受害者”。
除此之外,最失意的可能要算是这些VC们了:投的企业没水花,火爆的投不进去。
他们投了大量的钱在“大模型六小龙”们上,但他们支持的大模型创业项目,自始没有一个达到DeepSeek这样的全球热度。
比如几乎与DeepSeek同时发布的,Kimi全新强化学习模型k1.5,虽然是全球继OpenAI之后首个多模态类o1模型,在诸多层面能力接近o1甚至是超越,但没有溅起多大水花,同样淹没在了DeepSeek狂热的舆论中。
舆论不吝给予梁文锋和他的理想主义最大程度的赞扬,同时也施加给中国VC极致的羞辱和讨伐,比如小红书有篇帖子,标题为“DeepSeek再次证明,中国VC就是个笑话”。更不幸的是,点赞还过千了。
宣泄情绪,不如客观分析,VC们为什么没投到DeepSeek?
这个春节假期,大模型的投资人心情是复杂的,既惊喜又恐慌。惊喜在于,中国大模型企业能够这么快赶上世界水平;恐慌则在于,整个AI投资的逻辑可能会发生巨大的变化。
“至少在国内,DeepSeek已经赢了这场战争。它正在进行的一轮融资估值已经达到80亿美元,是行业里估值最高的一家,这都得抢破头或只能定向融。”一位AI投资人说。关注AI赛道的投资人,最近都直接或间接找到梁文锋确认DeepSeek是否正式启动融资,目前没有得到官方答复。爆火后的梁文锋,已经被投资人包围了。幻方杭州总部所在的汇金国际大厦,近期都挤满了记者和投资人。DeepSeek此前并未开放融资,初期资金由幻方量化支持。
按照梁文峰在访谈中的说法,他也尝试过找资方,但碍于自己专注于研究的想法和VC更多考虑商业化的诉求不相符,于是断了念想。为什么没有投到DeepSeek,有两方面原因:1、投资行业对于AI的投资经验判断导致;2、DeepSeek自身定位和基因。
1、AI的投资判断2023年上半年融资战刚开始时,行业内的一个分析是:中国的VC经过上一代AI公司(以AI四小龙商汤、旷世、云从、依图为代表)的“洗礼”,对大模型公司的商业化耐心已经从5年、8年缩短到3年内。这或许是中国大模型公司的普遍困境。VC都是帮LP管钱,都得赚钱,所以商业化是必须提上日程的事,不能一直专注做研究。像金沙江资本的朱啸虎,在DeepSeek这波火爆之前,对大模型嗤之以鼻,明确不投大模型,投AI应用,就是因为研究离商业化太远。
但朱总毕竟是朱总,对VC应不应该参与DeepSeek融资的重点拿捏得很准,“我肯定投啊,这个价格已经不太重要了,关键是参与在这里面”。打不打脸不重要,谁和钱过不去呢。这应该是现阶段所有VC的共识:“跪着”也要进去一些份额。一位省级国资的投资人表示,最近他们机构从上到下,都在跟DeepSeek方面接触,无论如何希望“跪一部分份额”进去,但DeepSeek口咬得很死,坚称目前并没有开放融资窗口。
当然谁也不可能预知未来,也不可能预测到DeepSeek这么火。任何产品的火爆离不开天时地利人和,时点很重要。在当下AI的上升曲线已经变缓,预训练的数据差不多用光了,大语言模型能力不再容易上升,只能转换思路转向以OpenAI的 O1和DeepSeek的 R1为代表的推理模型。“这个时候,是选择继续砸大钱去搏一个上限?还是不追求那5%的进步而是把成本降到原来的10%?DeepSeek代表的降成本路线恰恰出现在一个合适的时间点上。”2、DeepSeek自身定位和基因创始人梁文锋的个人风格十分明显:有极强的技术信仰,对 AGI 有十足的好奇心与求知欲,并且十分刻苦。
接近梁文锋的知情人士形容,梁文锋“说话非常非常慢,每一句话都要思考很久很久才表达出来,而且表达非常简洁。虽然简洁,但说出来的话经常一针见血。”一位幻方量化的员工曾在公司博客中写道,“老板本人每天都在写代码、跑代码。”这是就是梁文锋与其他公司的不同之处。想了解梁文锋的成长经历,可以看下这篇文章:《爆火DeepSeek背后的创始人梁文锋,到底有多牛?》
DeepSeek是一群绝对的技术理想主义者。延续了梁文锋在量化行业对技术人才高要求的风格,DeepSeek基本以 Top2 高校、信息学竞赛金牌选手为基准,团队规模往往不大,但能力超强。看看这份名单就可知晓一二:
DeepSeek 内部的组织文化也非常扁平。无论是北京还是杭州,都只有一个老板:DeepSeek创始人梁文锋。梁文锋以下基本全是打工人。当然同时也是幻方量化创始人的梁文锋也不差钱,还是支撑的起初期DeepSeek的投入,几十亿还是拿的出来。当然和OpenAI几千亿、字节、阿里几百亿的投入相比,确实不是一个量级。一号位是技术发烧友,对技术有天然的敬畏之心与好奇之心;同时在管理上集权风格明显,文化扁平,因而能在技术探索中遇到困难时能自上而下协调资源,快速达到上传下达的效果。这或许就是DeepSeek能成功的关键。当然,这也是和VC们谈不拢的根本原因。
02技术平权
ChatGPT和LLama,OpenAI和Mata一直代表着大模型的两个阵营,闭源和开源之争,就像苹果的IOS和谷歌的安卓。
开源与闭源既是技术策略,更是商业策略。
表面上是发展路线之争,实则是利益之争。
梳理国内知名大模型的开闭源情况发现,阿里云、腾讯等云厂商旗下模型更倾向于开源;智谱AI、百川智能、月之暗面等大模型创业公司则倾向于闭源。
“核心还是盈利模式。”生成人工智能算力成本高昂、研发投入较大给企业盈利带来一定困难。
有钱的大厂都倾向于开源,没钱的公司都倾向于闭源。百度的李彦宏支持大模型闭源,何尝不是经营层面的考虑呢?
DeepSeek的开源,是全球大模型发展的催化剂,可以让全球享受到更低的成本,让AI更快速地走到大众身边。
当然开源、闭源确实也各有利弊。开源会让大家“拿来主义”,不会再考虑底层的创新了。TrainiCEO孙邻家认为,“技术过度平权不一定是好事,会失去创新的驱动力。现在看来,2025年是一个从闭源套壳转为开源套壳的年份,造成的结果可能是出现一堆同质化产品,依然找不到盈利的方法。目前,能做Fine-tuning(大模型微调)的公司没有想象中的那么多,能持续做并且有创新的就更少,缺数据和人才。”开源也好,闭源也罢。技术竞合催生共赢,封锁反噬创新生态。模型变小和经济性提高,对应用肯定是积极影响,但是在应用侧,技术不是最大的制约,而是对产业的理解。
在安卓上长出的软件应用也没有杀死iOS和其应用。LLama的能力也很强大,可以满足多数应用的需求,但实际离我们期待的落地使用也差很远。
相信2025年是AI应用大年。DeepSeek出来之后,做应用的厂商只需要专注在应用本身的前后端交互体验,同时再基于场景做打磨就可以了,这省去了很多基础层面的投入。
DeepSeek的出现短期内可以改变了对算力需求的逻辑,但长期来看,AI和应用的蓬勃发展,必然带来总体需求的增长,算力还是有价值的。
03
DeepSeek的真实成本?
网络的叙事,总是夸大事实来吸引眼球,560万美元真的是DeepSeek的真实成本吗?DeepSeek从来没说过。只不过在DeepSeek V3的论文中提到了自己的训练成本是557.6万美元,但这肯定不是总成本。
DeepSeek到底有多少GPU?DeepSeek没有对外公布过GPU数量,外界都是根据一些信息评估的数据。比如SemiAnalysis的评估数据如下:
1万个A100,1万个H800,1万个H100和3万个H20,组成了DeepSeek的“弹药库”。这里提下为什么这么多型号?英伟达为了遵守不同限制规定,生产了 H100 的多种变体(H800、H20),目前中国的模型供应商仅能获得 H20。2022年10月,美国政府要求英伟达不得向中国销售A100和H100人工智能处理器。2023年英伟达针对中国市场的特供版H800、A800两款芯片也被禁售。英伟达目前针对中国市场的是特供版H20,这个芯片在DeepSeek的影响下,可能也要被特朗普禁售了。而真正有据可查的数据,来源于DeepSeek的论文中,提到了DeepSeek-V3使用了2048块H800 GPU进行训练。
DeepSeek的这一配置可能是其最有效的预训练集群。作为参考,Meta在其论文中提到使用了超过16000块GPU的集群,Meta用的H100,而H800的性能是不如H100的。无论如何,虽远低于Meta的规模,但DeepSeek仍属于计算资源最丰富的机构之一,而且DeepSeek是2021年国内最早具有万卡的5家企业之一,其他4家都是互联网大厂。DeepSeek的总成本都有哪些?除了购买GPU的费用以外,DeepSeek还需要承担实验与预训练成本、运营及电力成本、人力成本等等,如果真要均摊下,确实不低,这也是做大模型的公司,第一门槛就是找钱。1、实验与预训练成本
模型开发过程中用于实验的总计算量远高于最终报告的数字,语言模型实验室常会通过scaling laws降低预训练风险,这意味着在大规模训练之前会进行数千次小规模实验(如10亿至70亿参数量),以验证模型的有效性。
据推测,DeepSeek-V3的预训练实验总计算量可能是论文中报告数字的2-4倍,在1000万-2500万美元之间。此外,DeepSeek还可能使用了其他项目(如DeepSeek R1 Lite)作为合成数据的来源,进一步增加了计算开销。
2、运营及电费成本
对于1万块以上的A/H100 GPU集群,电费每年可能超过1000万美元,这也是笔不小开销。这么多GPU既要找地方放又要维护吧,当然也可能与云服务提供商合作,这部分成本至少数亿级别。
3、人力成本
DeepSeek-V3论文中有139名技术作者,当然这里面有他们的员工,有应届毕业生,也有在校的实习生。如果按照人均60w年薪,大概也是1000多万美元。
全年运营成本:结合硬件、实验、运营及电力和人员成本,DeepSeek 一年的运营成本肯定不会低于3亿美元。SemiAnalysis给出的估算是13亿美元。
560万美元都是很多自媒体为了打鸡血,抓眼球的断章取义,反正普通老百姓也分辨不了,怎么能煽动情绪怎么来写。不要过度神话,也不要无脑贬低。多用用我们大脑的“系统2”理性分析。
对权威保持警惕、永远从问题的本质倒推,坚定创新,才能引领潮流。短期的快钱或许会流向幸运的人,但长期的资源应该流向那些擅长将资源应用到最好的团队。这也是创业的魅力所在~!
希望2025年,中国不再只有一个DeepSeek!
原文标题 : 希望2025年,中国不再只有一个DeepSeek