小米开源首个7B推理AI大模型！聊聊小米如何通过架构创新和奖励模型等训练策略创新，媲美o1-mini

作者：羰汤羰及 InternLM、Qwen 等 LLM

全文约 4200 字，预计阅读 12 分钟

昨天，阿里通义发布了两款 MoE 模型和六款 Dense 模型，即便是其小尺寸模型 Qwen3-4B，在数学推理和编程上的性能依旧令人惊艳。

然而就在今天早晨，新组建的「小米大模型 Core 团队」突然开源四款 MiMo-7B 系列模型（包括基础模型、指令微调模型和两款强化学习模型），以仅 70 亿参数的“轻量级”身躯，挑战了传统观念，展现出媲美甚至超越更大规模模型的推理能力。

这款模型不仅在预训练阶段通过独特的数据策略奠定了坚实基础，还在后训练阶段通过创新的强化学习（RL）方法释放了惊人潜能，最终在数学、代码和通用推理任务上击败了 OpenAI 的 o1-mini 等强力对手。

MiMo-7B 的诞生，不仅为开源社区带来了宝贵的资源，更为开发高效推理模型提供了全新的思路。本文将带你深入了解 MiMo-7B 的创新之处，揭秘其实验方法与惊艳的成果，探索这款小模型如何在推理赛道上跑出“超车”速度。如果你对语言模型的推理能力感兴趣，或者好奇如何用更少的资源实现更强的性能，MiMo-7B 的故事一定值得一读！

创新点：从预训练到后训练的全面优化

MiMo-7B的核心魅力在于其全链路的优化设计，涵盖了预训练和后训练两大阶段。团队没有简单地堆砌参数或依赖大规模算力，而是从数据、架构到训练策略进行了精巧的设计，力求在每个环节都最大化模型的推理潜能。

预训练阶段

在预训练阶段，MiMo-7B的团队深刻认识到，高质量的推理数据是激发模型潜能的关键。为此，他们优化了数据预处理流程，开发了专门针对网页中数学内容和代码片段的 HTML 提取工具，解决了传统提取器丢失关键推理模式的问题。例如，数学博客中的公式和编程教程中的代码片段得以完整保留，大幅提升了数据的推理密度。他们还采用增强的 PDF 解析工具，来获取论文和书籍中的 STEM 和代码相关内容。

此外，团队还利用高级推理模型生成了多样化的合成推理数据，这些数据在高轮次训练中表现出极强的鲁棒性，避免了过拟合风险。

为了进一步优化数据分布，MiMo-7B采用了三阶段数据混合策略：

第一阶段平衡各类数据；第二阶段大幅增加数学和代码数据的比例至约70%；第三阶段引入10%的合成推理数据并扩展上下文长度至 32,768 个token。

最终，模型在约 25 万亿token的庞大数据集上完成了预训练，为后续的推理任务奠定了坚实基础。

另一个重要的创新是多token预测（MTP）模块的引入。传统的自回归生成方式在推理任务中往往因生成序列过长而效率低下。MiMo-7B 通过 MTP 模块，允许模型一次性预测多个 token，从而显著加速推理过程。在预训练中，团队使用单一 MTP 层以保持训练效率，而在推理阶段则通过复制和微调多个MTP层实现推测解码（speculative decoding）。在 AIME24 基准测试中，第一MTP层的接受率高达90%，第三层仍保持75%以上。这种设计不仅提升了推理速度，还保证了生成质量，为复杂推理任务提供了高效支持。

图3：MiMo-7B 中 MTP 模块的架构图。在预训练期间，使用单个 MTP 层，而推理阶段可以使用多个 MTP 层以获得额外的加速。图源：技术报告

后训练阶段

在后训练阶段，MiMo-7B通过强化学习进一步释放了模型的推理潜能。

团队精心构建了包含 13 万个可验证数学和代码问题的RL数据集，并通过基于规则的验证器确保奖励的可靠性。为了解决代码任务中奖励稀疏的问题，他们提出了测试难度驱动的奖励机制（difficulty driven code reward），灵感来源于国际信息学奥林匹克（IOI）的评分规则。这种机制将测试用例按难度分级，允许模型通过部分测试用例获得奖励，从而有效优化了训练效率。此外，团队还开发了“无缝回滚引擎”（Seamless Rollout Engine），通过连续回滚、异步奖励计算和早期终止等技术，将训练速度提升了2.29倍，验证速度提升了1.96倍。这些创新共同确保了MiMo-7B-RL在推理任务中的卓越表现。

图4：“无缝回滚引擎”概览图。图源：技术报告

值得一提的是，MiMo-7B系列模型已全面开源，包含基础模型、监督微调（SFT）模型以及两款 RL 模型。开源地址：

实验方法

MiMo-7B的成功离不开其科学严谨的实验方法，从数据准备到奖励模型设计，再到评估流程，每一步都体现了团队对推理任务的深刻理解。

数据集与预处理

预训练数据集是 MiMo-7B 的基石。团队整合了网页、学术论文、书籍、编程代码和合成数据等多种来源，总计约25万亿token。为了提升数据质量，他们优化了文本提取工具，特别针对数学公式和代码片段进行了增强，确保这些高价值内容不被遗漏。同时，采用快速全局去重技术和多维度数据过滤，剔除了低质量内容并上采样了专业领域的优质数据。合成推理数据的引入进一步丰富了数据集，团队通过提示高级推理模型生成深入分析和问题解答，确保了数据的多样性和推理深度。

图源：机智流

在后训练阶段，RL数据集由 10 万个数学问题和 3 万个代码问题组成。数学问题来源于开源数据集和竞赛级私有集合，经过严格的去重和去污染处理，并通过模型难度评估过滤掉过难或过易的问题。代码问题同样经过了严格筛选，确保每个问题都有可靠的测试用例支持。这样的数据精选策略为RL训练提供了高质量的素材。

奖励模型设置

MiMo-7B的RL训练采用了改进的组相对策略优化（GRPO）算法，并融入了一系列创新优化。

奖励函数的设计尤为关键：

数学任务使用基于规则的Math-Verify库进行准确性评估；而代码任务则引入了测试难度驱动的奖励机制。

目前，对于代码生成任务，现有的强化学习工作（如Deepseek-R1）采用基于规则的奖励策略，即只有生成的代码通过给定问题的所有测试用例，解决方案才会得到奖励。然而，对于困难的算法问题，模型可能永远不会得到任何奖励，从而阻止它从这些具有挑战性的案例中学习，降低了动态采样的训练效率。

相比之下，MiMo-7B 采用的“测试难度驱动的奖励”机制将测试用例按通过率分级，分为严格和软性两种奖励方案：

严格奖励要求模型通过所有低难度测试用例才能获得高难度奖励；而软性奖励则将分数均分给每个通过的测试用例。

这种设计有效缓解了复杂代码任务的奖励稀疏问题，提升了模型的学习效率。

图7：“测试难度驱动的奖励机制”相关实验。左图为测试用例的通过率与难度分级。右图为不同奖励方案的性能对比，其中“Vanilla Reward”为传统奖励机制，仅当生成的代码通过所有测试用例时给予奖励；“Strict Reward”和“Soft Reward”分别为严格和软性的测试难度驱动奖励；实验结果表明 Soft Reward 有助于模型在复杂问题上更快学习。

为了进一步优化训练过程，团队提出了动态采样和低难度数据重采样策略（easy data resampling strategy）。动态采样通过过滤完美通过或完全失败的样本，保持批次中样本的有效梯度；低难度数据重采样则通过维护一个低难度数据池，以10%的概率从中采样，稳定了后期训练的策略更新。这些策略共同确保了RL训练的高效性和稳定性。

实验场景与评估方法

MiMo-7B的评估覆盖了广泛的推理任务，包括语言理解、科学问答、阅读理解、数学推理和代码生成等。具体基准测试包括BBH、MMLU、AIME、LiveCodeBench等，涵盖了从通用知识到专业领域的多种场景。评估过程中，团队采用了pass@k指标，通过多次采样评估模型的推理能力边界，确保结果能够真实反映模型的潜力。

在后训练评估中，MiMo-7B-RL与多个强基准模型进行了对比，包括GPT-4o、Claude-3.5-Sonnet、OpenAI o1-mini等。采样参数设置为温度0.6、top-p 0.95，最大生成长度根据任务需求设置为8,192或32,768 token。这样的设置既保证了生成内容的多样性，也适应了长序列推理任务的需求。

实验结果：小模型的大作为

MiMo-7B的实验结果令人振奋，无论是在基础模型（MiMo-7B-Base）还是RL优化后的模型（MiMo-7B-RL）上，都展现出了远超预期的性能。

基础模型的推理潜能

MiMo-7B-Base在预训练阶段就展现了强大的推理能力。在BBH基准上，它取得了75.2的得分，超越了同等规模的Qwen2.5-7B约5个百分点。在SuperGPQA上，模型在处理研究生级问题时表现出色，证明了其在复杂推理任务中的潜力。在长上下文理解任务中，MiMo-7B-Base在RULER基准的针-in-a-haystack任务中实现了近乎完美的检索性能，同时在需要长上下文推理的任务（如常见词提取和变量跟踪）中也显著优于Qwen2.5-7B。

图8：MiMo-7B-Base在RULER长上下文理解任务中的表现。该图展示了MiMo-7B-Base在大海捞针任务中的近乎完美检索性能，以及在常见词提取（CWE）、频繁词提取（FWE）和变量跟踪（VT）等长上下文推理任务中的优异表现。

在数学和代码任务上，MiMo-7B-Base同样表现突出。在AIME 2024上，它取得了32.9的得分，远超Llama-3.1-8B和Qwen2.5-7B；在LiveCodeBench v5上，它以32.9的得分再次大幅领先。这些结果表明，MiMo-7B-Base在预训练阶段已具备了超越同规模模型的推理潜能，为后续RL训练提供了优质的起点。

RL优化后的惊艳表现

通过强化学习，MiMo-7B-RL将推理能力推向了新的高度。在数学任务上，MiMo-7B-RL在MATH500上取得了95.8的惊人得分，在AIME 2025上达到了55.4，超越OpenAI o1-mini约4.7个百分点。在代码生成任务上，MiMo-7B-RL的表现尤为亮眼：在LiveCodeBench v5上，它以57.8的得分显著领先o1-mini；在更新的LiveCodeBench v6上，它取得了49.3的得分，超出QwQ-32B-Preview逾10个百分点，展现了其在算法代码生成中的稳健性和领先优势。

表1：MiMo-7B和其他主流模型的比较

值得注意的是，MiMo-7B-RL在通用任务上也保持了竞争力。尽管RL训练仅针对数学和代码任务优化，模型在MMLU-Pro、GPQA Diamond等通用基准上的表现依然超过了QwQ-32B-Preview和DeepSeek-R1-Distill-Qwen-7B。这表明，MiMo-7B的优化策略不仅提升了特定领域的推理能力，还在一定程度上保留了模型的通用性。

表2：MiMo-7B系列模型在代码和数学推理基准上的性能。该表展示了MiMo-7B在LiveCodeBench和AIME等基准上的优异表现，特别是在代码生成和数学推理任务中，MiMo-7B-RL的得分显著领先于其他模型，凸显了其强大的推理能力。RL训练的洞察

团队在RL训练过程中还发现了一些有趣的现象。例如，直接从基础模型进行RL训练（MiMo-7B-RL-Zero）展现了更强的性能增长趋势，但在最终性能上略逊于从SFT模型开始的MiMo-7B-RL。这表明，适当的SFT可以为RL提供更好的起点，但过度依赖轻量级SFT可能限制模型的推理潜能。

图9：三种MiMo模型变体在RL过程中的性能比较。

此外，在训练后期，基础模型在数学和代码任务间的性能平衡变得困难，数学任务容易出现奖励利用（reward hacking）问题，而代码任务因测试用例的严格验证更为稳健。这提示未来的RL训练需要更加注重数学问题集的质量。

为什么MiMo-7B值得关注？

MiMo-7B的成功不仅在于其卓越的性能，更在于它为语言模型推理研究指明了新的方向。传统的观念认为，推理能力需要依赖大规模模型，但MiMo-7B用70亿参数的“小身板”证明了高效数据策略和创新训练方法的巨大潜力。其三阶段数据混合、MTP模块、测试难度驱动奖励等创新，为开发轻量级高性能模型提供了宝贵经验。

更重要的是，MiMo-7B的开源为研究者和开发者打开了一扇大门。无论是学术研究还是行业应用，MiMo-7B的开源模型和详细的技术报告都为进一步探索提供了坚实基础。对于那些希望在资源有限的环境下开发强大推理模型的团队来说，MiMo-7B无疑是一个值得借鉴的范例。

结语

MiMo-7B的故事是一场关于创新与效率的冒险。从预训练的数据优化到后训练的RL突破，小米 LLM Core 团队用科学的方法和巧妙的设计，打造了一款在推理任务中大放异彩的轻量级模型。无论是在AIME的数学难题上，还是在LiveCodeBench的代码挑战中，MiMo-7B都以超越期待的表现证明了“小模型”也能有“大作为”。

如果你对语言模型的未来充满好奇，或者正在寻找一款高效的推理工具，不妨深入了解MiMo-7B。它的开源资源和技术洞察或许能为你的下一个项目带来灵感。你认为MiMo-7B的成功会如何影响未来的模型开发？欢迎在评论区分享你的看法！

-- 完 --

原文标题 : 小米开源首个7B推理AI大模型！聊聊小米如何通过架构创新和奖励模型等训练策略创新，媲美o1-mini

小米开源首个7B推理AI大模型！聊聊小米如何通过架构创新和奖励模型等训练策略创新，媲美o1-mini

相关推荐