DeepSeek-R1迎来升级，性能接近Claude 4和o3 High

前言：

与先前的V3-0324模型类似，本次更新也是在现有模型基础上进行的[小版本升级]，直接回归至推理模型的顶尖行列。

作者 | 方文三

图片来源 | 网络

DeepSeek-R1升级，性能接近Claude 4

近日，DeepSeek宣布其R1系列推理模型进行了小版本升级，最新版本DeepSeek-R1-0528参数量高达6850亿，模型在思维深度和推理能力方面有显著提升。

刚刚，DeepSeek公布了R1-0528在各类基准测评上的具体得分情况。

R1-0528在数学、编程与通用逻辑等多个基准测评中成绩突出，整体表现接近o3与Gemini-2.5-Pro。

本次更新的主要内容涵盖了上下文窗口的显著扩展，相较于先前版本R1，API文档的标注容量从64K提升至128K，实际测试中[0528]版本已开放至128K。

根据最新的LiveCodeBench榜单，R1-0528仅次于OpenAI的o3、o4 mini，超越xAI Grok 3 mini与阿里Qwen 3；生成的网页和交互界面更为美观，执行效率更高。

在LiveCodeBench上，DeepSeek-R1-0528的表现接近OpenAI的顶级模型，超越Claude 3.5 Sonnet与Qwen3-235B，紧随其后的是OpenAI的O4-Mini（Medium配置）。

社区评测显示，0528新模型在[语言自然度]和[对话逻辑]方面有显著改善，不再呈现早期模型的[天马行空]叙述风格。

此外，R1-0528在Thematic Generalization Benchmark（主题概括）基准测试中相较于前代R1有所改进。

该基准测试衡量各种LLM如何有效地从少量的例题和反例中推断出一个狭窄或特定的[主题]（类别/规则），然后在一系列误导性候选题中检测出哪个项目真正符合该主题。

该基准测试的整个过程包括生成主题、创建例题和反例、通过[双重检查]步骤过滤掉低质量数据，最后促使法学硕士(LLM)在多个干扰项中对真实的例子进行评分，值越小表示性能越好，R1-0528的表现与Claude-4-Sonnet Thinking 64K和Gemini 2.5 Pro相媲美。

新模型升级支持128K超大上下文窗口，为处理复杂任务提供了更广阔的空间，相较于前代，R1-0528在32K上下文窗口的文本回忆测试中表现出色，准确率显著提升，尤其适用于需要深度理解和精准回答的场景。

成为开源模型领域中的一股强劲竞争力量

在Extended NYT Connections基准测试中，新版本相较于原始DeepSeek R1有显著改进，得分从38.6分提升至49.8分，该基准使用651个NYT Connections谜题来评估大型语言模型的智能性。

依据AI评测机构Artificial Analysis的报告，新版DeepSeek R1的[智慧指数]由60分提升至68分，这一成绩使其超越了xAI、Meta、Anthropic等公司的模型。

与Google Gemini 2.5 Pro并列全球第二梯队，仅次于OpenAI的顶尖模型（例如o3及o4.mini高阶版），成为开源模型领域中的一股强劲竞争力量。

评估者还指出，它在情感共鸣和文学复杂性方面的表现与谷歌旗舰模型Gemini 2.5 Pro非常接近。

有开发者使用DeepSeek-R1-0528与Claude-4-Sonnet进行了编码测试的对比，结果显示，在相同提示下，Claude-4-sonnet生成了542行代码；

而DeepSeek-R1-0528生成了728行，无论是球体的漫反射控制还是控制面板的美观程度，R1-0528生成的效果都丝毫不弱。

也有开发者测试后表示，R1-0528编码时虽然思考过程显得有些复杂，但效果令人惊艳，能够很好地完成Zig编程需求，并且在出错时能够自我纠正。

R1-0528能够深入理解并概括一篇论文的众多细节，答案逻辑性强，全面且完整。

有开发者在插件PapersGPT中接入R1-0528进行了测试，其分析过程和输出速度相较于上代模型有显著进步。

同时，DeepSeek通过蒸馏DeepSeek-R1-0528的思维链后训练Qwen3-8B Base，得到了一个8B模型。

该模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528，超越Qwen3-8B（+10.0%），与Qwen3-235B相当。

此外，值得一提的是，DeepSeek对R1-0528版本的模型幻觉问题进行了优化，相较于旧版，更新后的模型在改写润色、总结摘要、阅读理解等场景中，幻觉率降低了45～50%左右。

目前，DeepSeek-R1-0528已在网页端、APP和小程序中上线，用户开启「深度思考」功能即可体验最新版本。

有开发者指出，这是[开源的巨大胜利]。然而，可能由于测试速率的限制，目前在开发者群体中公认的编程能力最强的Claude-4系列模型并未出现在测试榜单上。

基于最新的DeepSeek-R1模型和Claude-4-Sonnet进行测试，测试内容是用一个橙色小球撞击物体，从效果显示，平面的橙色漫反射、撞击效果方面是R1模型更胜一筹。

但有开发者对表示，这类能力看个例是不准确的，或许要等评测榜单和一个月后的口碑见分晓。

除了代码能力，有开发者总结了DeepSeek这次更新其他亮点，包括改进了写作任务，更自然、格式更好。

也有用户反映，用最新模型写作正常很多，没有强烈的[量子力学元素]了。

结尾：

有业内人士猜测，是否模型架构不更新，只是增加或调整了训练数据，DeepSeek就不将更新定义为大版本升级，而业内其他模型给出明显的版本号迭代则是一种品牌营销需求。

此次升级标志着DeepSeek-R1正式跻身全球第一梯队AI模型，其在中文场景和特定专业领域的突破，为国产大模型的差异化竞争提供了新范式。

尽管在多模态和生态整合上仍需追赶，但R1-0528已用实际表现证明：算法创新与开源协作同样能在算力垄断的AI战场开辟出一条可行路径。

部分资料参考：腾讯科技：《实测DeepSeek-R1小版本更新：三大场景梳理模型升级点和缺陷》，头部科技：《DeepSeek更新刷榜！R1-0528改进编码性能，媲美o3 High和Claude 4》，硅星人Pro：《DeepSeek-R1 [小更新]：靠后训练改进就能榨出如此多潜力》，：《DeepSeek上新，又一次[开源的巨大胜利]》

原文标题 : AI芯天下丨热点丨DeepSeek-R1迎来升级，性能接近Claude 4和o3 High

DeepSeek-R1迎来升级，性能接近Claude 4和o3 High

相关推荐