有点数·数字经济工作室原创
作 者 | 有 叔
微信ID | yds_sh
在辞旧迎新的蛇年春节假期,横空出世的DeepSeek金蛇狂舞,AI机器人在春晚上扭起了秧歌,这些领先行业的“神秘东方力量”,给全球科技界带来了“亿点点”震撼。
凭一己之力,打压了AI科技巨头的估值
DeepSeek(深度求索)是量化巨头幻方量化旗下大模型公司,1月20日,该公司正式发布推理大模型DeepSeek-R1。1月27日,DeepSeek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜。被DeepSeek压在身后的,包括了OpenAI旗下的ChatGPT以及Google Gemini等AI产品。这是第一次,有中国科技产品APP实现双榜登顶。
更震撼的还在后面,美国时间1月27日,英伟达(Nasdaq:NVDA)股价暴跌16.86%收于每股118.58美元,跌至过去10月以来的最低点;总市值2.90万亿美元,一日蒸发5900亿美元(约合人民币4.28万亿元),创史上最大单日个股市值蒸发纪录。在英伟达的带领下,美股半导体芯片板块集体受挫,甲骨文下跌13.78%,超微电脑下跌12.49%,芯片制造商博通下跌17.4%,台积电跌13%。
这些科技巨头为何会在股市被“掀桌”呢?这是因为DeepSeek用开源的方式、更低的成本实现了高性能的大模型,从而引发了资本市场对AI科技巨头估值的担忧。
先说开源,由微软、OpenAI、英伟达等公司构筑出的“美式AI生态有机体”,商业化的前提是“不能开源”——要通过AI模型本身收费或者将其纳入付费产品之中完成商业闭环。而DeepSeek-R1则是一款开源推理大模型,基于相关的许可协议,DeepSeek-R1允许全球开发者自由地修改、使用、分发模型,甚至还可以进行衍生开发和商用。
除了商业化方面的考量,DeepSeek开源带给OpenAI的另一个巨大挑战是,当开源产品的“能力”和闭源产品接近甚至反超后者时,对闭源产品的冲击将是巨大的。DeepSeek下载热度的激增,背后的核心原因之一正是开源:用户可以在自己的服务器或云端免费部署DeepSeek-R1,且大幅降低(甚至不需要)API调用费用。
DeepSeek第二个惊人之处,是其极低的预训练成本。性能比肩GPT-4o的DeepSeek-V3,投入研发费用为558万美元,训练成本不到GPT-4o的1/20,且只用了2048张H100的GPU集群,用时仅53天。在同等水平下,哪怕是全球AI第一梯队的头部公司,至少也要用到1.6万张以上的GPU进行训练。
大幅降低了技术成本的DeepSeek,对算力市场形成了强大的冲击。它背后的那个男人,也来到了聚光灯下。
量化私募大佬,一转身大模型就掀起了价格战
2025年1月20日,AI初创公司深度求索创始人梁文锋受邀出席相关部门座谈会,并做了相关发言。国内做AI通用大模型的大厂不下五个,但只邀请了梁文锋作为AI领域的企业家代表。而就在这一天,发布了DeepSeek-R1,梁文锋也随即被社会大众所关注。
1985年,梁文锋出生在广东湛江吴川市的一个普通家庭,父母都是小学语文老师。这个来自四线城市的少年,对数学特别感兴趣,初中时期就学完了高中数学,甚至开始学大学的数学。
2002年,17岁的梁文锋以全校第一的成绩考上浙江大学本科电子信息工程专业,于2007年考上浙江大学信息与通信工程专业研究生。在大学期间,他遇到了改变自己一生的两件事:爱上了机器学习,迷上了量化交易。
毕业之后,梁文锋与同学一起开始积累市场行情数据和探索全自动量化交易。2015年,当其他人还在为股市的跌宕起伏心惊胆战时,30岁的梁文锋在杭州创立了幻方科技,投身于全自动量化交易,立志成为世界顶级的量化对冲基金。
尽管当时公司只有10张GPU显卡,但不久之后的2016年10月,幻方量化推出第一个AI模型,第一份由深度学习生成的交易仓位上线执行。到2017年底,几乎所有的量化策略都采用AI模型计算。有了AI加持助力,用了4年时间,公司就做到了百亿规模,又用2年时间突破千亿大关。
从一开始,投资赚钱就不是梁文锋的唯一目的,反而是赚到了足够多的钱,才能更好地去研究人工智能。2019年,幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。通常认为,1万枚英伟达A100芯片是做自训大模型的算力门槛,而单从算力角度看,幻方甚至比很多大厂都更早拿到了做ChatGPT的入场券。
有了这些积累,梁文锋在2023年7月创立了深度求索(DeepSeek),要做AI大模型。"现在入场,怎么跟OpenAI这样的行业巨头竞争?" 面对质疑,笃信“人工智能一定会改变世界”的梁文锋没有多做解释。不到一年的时间,所有人就都闭嘴了,只剩下了佩服。
2024年5月,DeepSeek发布了DeepSeek-V2,凭借创新的模型架构和史无前例的性价比,以"AI界的拼多多"迅速出圈。反卷大厂的梁文锋,在AI领域复制了黄峥式“后来居上”的故事,并在国内掀起打到骨折的大模型价格战。
DeepSeek-V2的关键开发者之一罗福莉曾在社交平台撰文表示,“单论DeepSeek-V2模型的中文水平,是真实处在国内外闭源模型的第一梯队”,“外加1元/百万输入Tokens的价格,只有GPT4价格的1/100,性价比之王”。这个罗福莉,就是此前传闻小米创始人雷军要开千万年薪挖走的天才少女。
梁文锋的用人之道也很有意思:不要海归,只要本土工程师;不要老手,偏爱应届生;没有KPI,全凭兴趣干活。他说:“一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。”
底层技术路线上的颠覆,实现了弯道赶超
从技术原理上来说,DeepSeek的崛起,尤其是最新一代deepseek R1的成功,来自于它所采用的RL强化学习策略,这是它以极低的成本却可以实现和GPT-4o差不多效果的根本原因。
以GPT为代表的传统AI,其策略的本质是"在人类选择下的猜谜游戏"——GPT们其实并不会真正思考,而是通过数据训练,生成一些"看似靠谱实则无法深究"的东西,比如早期绘画AI会把人手画出六个指头,就是因为AI不知道人该有几个指头,只是通过大量的数据训练,能生成一个"大概是这样"的东西。之后再由人类进行筛选,把不靠谱的结果去除掉,才能得到最终的作品。
而对DeepSeek来说,它完全抛弃了这种"猜谜"的训练方式,转而采用了之前在围棋和智能驾驶领域常用的RL策略(强化学习)。如果说以前的策略是人类告诉AI什么是对的什么是错的,那么RL策略,就是真正地让AI学会认识世界、了解事物规律,更加自主地去推理探索。
在传统技术路径下,90%的算力消耗在试错过程中,而Deepseek的自主学习机制能将无效训练降低60%。因为底层技术路线上的颠覆,deepseek R1也把运行成本大大降低——比起硅谷动辄数亿数十亿美金的投资和数万张显卡的超级集群,这个国产大模型仅仅靠着2000多张显卡和600万美元左右的成本就实现了近似乃至更好的效果。
对我国初创公司来说,更关键的一点是,RL策略对并行计算的需求较传统架构下降40%,这直接打破了堆砌算力、数据的美国式AI道路,使得国产显卡和国产芯片有机会实现对英伟达等海外巨头的替代。
说到这里,DeepSeek的崛起,就不仅仅是技术侧的意义了:一家诞生在中国的民营公司,不超过200人的本土青年工程师团队,绕开了美国人所探索的“成功模式道路”,采取了创新的思路和开源的方式,以极低的成本创造了业界瞩目的成就,实现了弯道赶超。
作为硅谷眼中“神秘的东方力量”,Scale AI创始人亚历山大·王(Alexandr Wang)评价DeepSeek道,“过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会‘改变一切’。”
写在最后……
DeepSeek的横空出世,让自诩领先至少10年以上的META和CHAT gpt有点不知该何去何从了。号称“星球大战”2.0版本,并计划耗费天文数字的星际之门还没打开好像就该关上了——美国总统特朗普在会议上提到DeepSeek的出现为美国的企业敲响了警钟,“我们需要集中精力在竞争中获胜”。相隔一天,据外媒报道,多名美国官员称DeepSeek是“偷窃”,正对其展开国家安全调查。
在除夕这天震撼世界的,还有同样是来自杭州的宇树科技。在央视春晚现场,来自宇树科技的人形机器人H1跳起了AI机器秧歌,还能多角度转手绢。
这些机器人身上装备了多套高科技设备,如高精度3D激光SLAM自主定位和导航、多智能体协同规划、先进组网方案和全身AI运动控制,可以让他们在舞台上走得稳稳当当,动作整齐得就像复制粘贴一样,这些技术不仅让他们们定位超精准,连接超稳定,还能应对各种突发状况。可以说,这是人类历史上首次大型全AI驱动的全自动集群人形机器。前些年不可一世的波士顿动力机器人,好像三下两下,也被宇树赶上了。
从大疆、宇树再到石破天惊的六代机、DeepSeek,东方大国不断涌现出改写世界技术版图的高科技企业。让世界目不暇接,甚至逼得某些国家要采取并不光明正大的反制措施了。
“中国必然需要有人站到技术的前沿”,梁文锋此前接受采访时曾表示,回望过去30多年IT浪潮,中国基本没有参与到真正的技术创新里。“我们觉得现在最重要的是参与到全球创新的浪潮里去。”被外界视为理想主义者的他说,“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”
原文标题 : 狂舞的DeepSeek、会扭秧歌的AI机器人,这个春节不一般