前言:
与先前的V3-0324模型类似,本次更新也是在现有模型基础上进行的[小版本升级],直接回归至推理模型的顶尖行列。
作者 | 方文三
图片来源 | 网 络
DeepSeek-R1升级,性能接近Claude 4
近日,DeepSeek宣布其R1系列推理模型进行了小版本升级,最新版本DeepSeek-R1-0528参数量高达6850亿,模型在思维深度和推理能力方面有显著提升。
刚刚,DeepSeek公布了R1-0528在各类基准测评上的具体得分情况。
R1-0528在数学、编程与通用逻辑等多个基准测评中成绩突出,整体表现接近o3与Gemini-2.5-Pro。
本次更新的主要内容涵盖了上下文窗口的显著扩展,相较于先前版本R1,API文档的标注容量从64K提升至128K,实际测试中[0528]版本已开放至128K。
根据最新的LiveCodeBench榜单,R1-0528仅次于OpenAI的o3、o4 mini,超越xAI Grok 3 mini与阿里Qwen 3;生成的网页和交互界面更为美观,执行效率更高。
在LiveCodeBench上,DeepSeek-R1-0528的表现接近OpenAI的顶级模型,超越Claude 3.5 Sonnet与Qwen3-235B,紧随其后的是OpenAI的O4-Mini(Medium配置)。
社区评测显示,0528新模型在[语言自然度]和[对话逻辑]方面有显著改善,不再呈现早期模型的[天马行空]叙述风格。
此外,R1-0528在Thematic Generalization Benchmark(主题概括)基准测试中相较于前代R1有所改进。
该基准测试衡量各种LLM如何有效地从少量的例题和反例中推断出一个狭窄或特定的[主题](类别/规则),然后在一系列误导性候选题中检测出哪个项目真正符合该主题。
该基准测试的整个过程包括生成主题、创建例题和反例、通过[双重检查]步骤过滤掉低质量数据,最后促使法学硕士(LLM)在多个干扰项中对真实的例子进行评分,值越小表示性能越好,R1-0528的表现与Claude-4-Sonnet Thinking 64K和Gemini 2.5 Pro相媲美。
新模型升级支持128K超大上下文窗口,为处理复杂任务提供了更广阔的空间,相较于前代,R1-0528在32K上下文窗口的文本回忆测试中表现出色,准确率显著提升,尤其适用于需要深度理解和精准回答的场景。
成为开源模型领域中的一股强劲竞争力量
在Extended NYT Connections基准测试中,新版本相较于原始DeepSeek R1有显著改进,得分从38.6分提升至49.8分,该基准使用651个NYT Connections谜题来评估大型语言模型的智能性。
依据AI评测机构Artificial Analysis的报告,新版DeepSeek R1的[智慧指数]由60分提升至68分,这一成绩使其超越了xAI、Meta、Anthropic等公司的模型。
与Google Gemini 2.5 Pro并列全球第二梯队,仅次于OpenAI的顶尖模型(例如o3及o4.mini高阶版),成为开源模型领域中的一股强劲竞争力量。
评估者还指出,它在情感共鸣和文学复杂性方面的表现与谷歌旗舰模型Gemini 2.5 Pro非常接近。
有开发者使用DeepSeek-R1-0528与Claude-4-Sonnet进行了编码测试的对比,结果显示,在相同提示下,Claude-4-sonnet生成了542行代码;
而DeepSeek-R1-0528生成了728行,无论是球体的漫反射控制还是控制面板的美观程度,R1-0528生成的效果都丝毫不弱。
也有开发者测试后表示,R1-0528编码时虽然思考过程显得有些复杂,但效果令人惊艳,能够很好地完成Zig编程需求,并且在出错时能够自我纠正。
R1-0528能够深入理解并概括一篇论文的众多细节,答案逻辑性强,全面且完整。
有开发者在插件PapersGPT中接入R1-0528进行了测试,其分析过程和输出速度相较于上代模型有显著进步。
同时,DeepSeek通过蒸馏DeepSeek-R1-0528的思维链后训练Qwen3-8B Base,得到了一个8B模型。
该模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),与Qwen3-235B相当。
此外,值得一提的是,DeepSeek对R1-0528版本的模型幻觉问题进行了优化,相较于旧版,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45~50%左右。
目前,DeepSeek-R1-0528已在网页端、APP和小程序中上线,用户开启「深度思考」功能即可体验最新版本。
有开发者指出,这是[开源的巨大胜利]。然而,可能由于测试速率的限制,目前在开发者群体中公认的编程能力最强的Claude-4系列模型并未出现在测试榜单上。
基于最新的DeepSeek-R1模型和Claude-4-Sonnet进行测试,测试内容是用一个橙色小球撞击物体,从效果显示,平面的橙色漫反射、撞击效果方面是R1模型更胜一筹。
但有开发者对表示,这类能力看个例是不准确的,或许要等评测榜单和一个月后的口碑见分晓。
除了代码能力,有开发者总结了DeepSeek这次更新其他亮点,包括改进了写作任务,更自然、格式更好。
也有用户反映,用最新模型写作正常很多,没有强烈的[量子力学元素]了。
结尾:
有业内人士猜测,是否模型架构不更新,只是增加或调整了训练数据,DeepSeek就不将更新定义为大版本升级,而业内其他模型给出明显的版本号迭代则是一种品牌营销需求。
此次升级标志着DeepSeek-R1正式跻身全球第一梯队AI模型,其在中文场景和特定专业领域的突破,为国产大模型的差异化竞争提供了新范式。
尽管在多模态和生态整合上仍需追赶,但R1-0528已用实际表现证明:算法创新与开源协作同样能在算力垄断的AI战场开辟出一条可行路径。
部分资料参考:腾讯科技:《实测DeepSeek-R1小版本更新:三大场景梳理模型升级点和缺陷》,头部科技:《DeepSeek更新刷榜!R1-0528改进编码性能,媲美o3 High和Claude 4》,硅星人Pro:《DeepSeek-R1 [小更新]:靠后训练改进就能榨出如此多潜力》,:《DeepSeek上新,又一次[开源的巨大胜利]》
原文标题 : AI芯天下丨热点丨DeepSeek-R1迎来升级,性能接近Claude 4和o3 High