今年,中国农历蛇年的春节假期,对于 AI 科技界最火的两个东西,莫非和Open AI ChatGPT 类似的 Deepseek 以及春晚表演节目的人形机器人。其中Deepseek 推理模型R1的推出更是让美国总统川普说成“A wakeup call”,而且此模型推出更是让AI芯片巨头英伟达股价暴跌17%,市值缩水 6000 亿美元,创下股市历史上公司单日最大跌幅。芯片设备制造商 ASML 股价下跌 6%,另一家芯片公司博通股价也下跌 17%。对美国AI科技界来讲类似于珍珠港事件。
什么是 DeepSeek
DeepSeek 是成立于2023年的中国初创公司推出的最新的人工智能模型,据称这些模型与美国行业领先的模型例如ChatGPT,Gemini,Claude,Llama 相当甚至更好,而成本却只是其一小部分,这一举措有可能颠覆科技世界秩序。根据DeepSeek 发布的论文信息,其DeepSeek-V3 的训练只需要价值不到 600 万美元的 Nvidia H800 芯片的计算能力,此举引起了全球人工智能界的关注。在苹果 App Store 上由 DeepSeek-V3 提供支持的 DeepSeek 人工智能助手已超越竞争对手 ChatGPT 以及谷歌的Gemini,成为美国苹果 App Store 上评分最高的免费应用程序。
这引发了人们对一些美国科技公司决定在人工智能领域投入数十亿美元的理由的怀疑,包括英伟达在内的几家大型科技公司的股价也受到冲击。DeepSeek 与 OpenAI 比较表特征DeepSeekOpenAI创立梁文峰 创立于 20232015 年,由 Elon Musk、Sam Altman 等人创立。使命开源人工智能助力无障碍发展确保 AGI 造福全人类主要型号DeepSeek-R1GPT-4开发成本<600万美元数亿美元方法完全开源所有权绩效(数学)AIME 基准测试结果为 79.8%AIME 基准测试结果为 79.2%绩效(一般)专业(数学、编码)多才多艺,在多个领域表现出色速度破纪录的推理速度速度快但资源密集使用案例解决问题、编码、数学任务创意写作、翻译、通用 NLP使用权对所有人免费开放付费 API 和商业合作伙伴关系市场影响以经济高效的模型颠覆人工智能规范与微软合作的行业领导者道德/安全促进透明度和共担责任专注于可控、安全的人工智能部署目标受众开发人员、初创企业、研究人员企业、大型企业著名合作开源社区微软、Azure创新经济高效的大规模人工智能开创大规模专有模型
DeepSeek 为何会引起轰动?
2022 年底,OpenAI ChatGPT 的发布引发了 AI 落到的新浪潮,其大语言模型,可以类人的对话和生产内容震惊了科技界,中国的科技公司们也纷纷创建自己的人工智能聊天机器人。但在搜索引擎巨头百度发布首个中文版 ChatGPT 之后,中国国内对中美企业在人工智能能力方面的差距普遍感到失望。直到去年,DeepSeek 模型的质量和成本效率彻底颠覆了这种说法。DeepSeek 表示,DeepSeek-V3 和 DeepSeek-R1 这两个模型受到了硅谷高管和美国科技公司工程师的一致好评,与 OpenAI 和 Meta 等上文讲到的最先进的模型不相上下。它们使用起来也更便宜。据DeepSeek官方微信账号上的一篇文章称,上周发布的DeepSeek-R1的使用成本比OpenAI o1模型低20到50倍。DeepSeek 质疑的声音
当然,一些人公开对 DeepSeek 的成功故事表示怀疑。首先,根据马斯克推特上转发的 Gavin Baker 内容,500 万到 600 万美元的训练成本具有误导性。它来Deepseek 论文中自称 “2048块H800 卡用于*一次*训练”,按市场价格计算,这笔费用高达 500 万到 600 万美元。其实,开发这样的模型需要多次运行这种训练或其某种变体,还需要进行许多其他实验。这使得成本高出很多倍,更不用说数据收集和其他事情,这个过程可能非常昂贵。此外,购买 2048 块 H800 的成本在 5000 万到 1 亿美元之间。DeepSeek的算力来自于名叫“幻方量化”一家大型中国投资基金所有,该公司的 GPU 数量是 2048块 H800 的很多倍。根据 Scale AI 首席执行官亚历山大·王 (Alexandr Wang) 在接受媒体采访时候的表述,DeepSeek 拥有 50,000 块 Nvidia H100 芯片。当然科技界都知道美国已经禁止向中国公司出售此类先进 AI 芯片,但是不少人摆出数据,英伟达的收入有20%以上来自于新加坡,另外还有不少来自于沙特,那么这些算力芯片为谁提供服务?当然以上都是猜测和怀疑论者的推论,没有确认。
此外美国伯恩斯坦分析师周一在一份研究报告中强调,DeepSeek 的 V3 模型总训练成本尚不清楚,但远高于该公司声称的 558 万美元的计算能力成本。分析师还表示,同样广受好评的 R1 模型的训练成本并未披露。除了成本怀疑之外,不少人表示 DeepSeek 采用“蒸馏”的策略赶上美国人工智能公司,“蒸馏”即使用另一个模型例如大语言生成的数据对自己的模型大语言模型进行训练,这样可以极大减少模型训练中的人工监督以及调整。当然 Jack 在 DeepSeek 刚释放出其早期版本时候试过,确实出现Open AI等信息,所以“蒸馏”这个应该确实存在,特别是在早期,但是在后期 DeepSeek从 AI 算法结构到 AI 硬件架构都有不少创新,或许 DeepSeek 并不完全是一项突破性的科学创新,但从工程应用角度来讲是史诗级的突破”
DeepSeek 事件的影响
DeepSeek 在 AI 科技史上一定是一个重大具有里程碑的产品和事件。
首次,DeepSeek事件,将加快 AI 的落地应用,因为DeepSeek 的训练和使用成本极大降低,这为大规模商用和家用奠定的基础,可以预见接下来 AI 应用将会渗透到生活的方方面面,成为继日常水电煤之后的通讯。其次,DeepSeek事件将加快中美 AI 竞争,从投入上,中美等大国在 AI 投资上的竞争加剧,而此次DeepSeek在美国的大肆炒作,可能是美国为了增加对 AI 的投入搬出的假想敌,美国投资如果要动纳税人的钱,肯定是要师出有名的,必须要造势;美国除了增加投资或许会更加注重在 AI 技术方面对中国的封锁,从教育到商业的全面提防中国。
所以,AI将会渗透到我们生活的每个角落,但同时AI将可能会更加地缘政治,引发不同的 AI 形态。
*未经准许严禁转载和摘录-参考资料:
原文标题 : 什么是 DeepSeek?为什么它会颠覆人工智能领域?