聊聊MoA（混合智能体架构）：如何激发LLM潜力并掀起语言模型协作革命？

全文约 3500 字，预计阅读时间约 9 分钟

近年来，大型语言模型（LLMs）在自然语言处理领域掀起了一场风暴，从对话生成到复杂任务推理，它们的表现令人惊叹。然而，单个模型的性能总有瓶颈，训练成本高昂且资源需求巨大。如何突破这一限制？

今天我们来聊聊 Together AI 团队在近一年前提出的一种名为 Mixture-of-Agents (MoA) 的创新方法，通过多模型协作，显著提升了语言生成质量。这项研究不仅在学术界引起轰动，还仅靠开源模型，在 AlpacaEval 2.0 等权威基准测试中超越了 GPT-4 Omni，实现 SOTA，展现了开源模型的惊人潜力。本文将带你深入了解 MoA 技术的创新之处、实验设计与惊艳成果，揭开这场协作革命的面纱。

MoA：协作的力量重塑语言模型

MoA 的核心理念源于一个有趣的发现：语言模型具有“协作性”。具体来说，当一个模型能够参考其他模型的输出时，即使这些输出质量较低，它也能生成更高质量的回答。这一现象启发了 Together AI 团队，他们设计了一种分层架构，让多个语言模型像团队一样协作，共同优化最终输出。

图 1：MoA 结构示意图。图中展示了 4 层 MoA 架构，每层包含 3 个代理（模型），每层代理参考前一层所有输出进行优化，最终生成高质量回答。

MoA 的工作方式可以简单比喻为一场接力赛。每个“选手”（即语言模型）在自己的“赛道”（MoA 层）上生成初步回答，这些回答随后传递给下一层的模型进行优化和整合。每层中的模型都会参考前一层所有模型的输出，逐步提炼出更准确、更全面的回答。这种分层协作不仅充分利用了各模型的独特优势，还通过多样化的视角弥补了单个模型的局限性。

与传统的单一模型或简单集成方法不同，MoA 不需要对模型进行微调，仅通过提示（prompting）接口即可实现协作。这意味着它可以轻松适配任何最新的语言模型，无论其规模或架构如何。这种灵活性与高效性让 MoA 在实际应用中具有巨大潜力。

图2：用于集成来自上一层所有模型响应的提示词。翻译：已经为您提供了一组来自各种开源模型对最新用户查询的回答。你的任务是将这些回答综合成一个单一的、高质量的输出。批判性地评估这些回答中提供的信息至关重要，认识到其中一些信息可能有偏见或不正确。你的回答不应该简单地重复已给出的答案，而应该提供一个精炼、准确和全面的回答。确保你的回答结构良好，连贯，并坚持最高的准确性和可靠性标准。以下是来自不同模型的回答：...

MoA 的创新点不仅在于其架构设计，还体现在对模型角色分工的深刻洞察。研究团队将模型分为两种角色：提议者（Proposers） 和 聚合者（Aggregators）。提议者擅长生成多样化的初步回答，为后续优化提供丰富素材；而聚合者则负责综合这些回答，生成最终的高质量输出。通过对模型性能和多样性的精心选择，MoA 确保了协作过程的高效与稳定。

此外，MoA 的设计灵感来源于机器学习中的 Mixture-of-Experts (MoE) 技术，但它将这一概念扩展到了模型层面。传统的 MoE 通过子网络分工实现任务优化，而 MoA 则利用完整语言模型的提示能力，无需修改内部权重即可实现协作。这不仅降低了计算成本，还为未来的模型集成提供了无限可能。

实验设计

为了验证 MoA 的性能，研究团队设计了一系列科学严谨的实验，涵盖了多种基准测试和模型配置。以下从 LLM 的角色分功夫、实验场景与数据集、评估方法等方面展开介绍。

LLM 角色分工

MoA 的实验中，研究团队精心挑选了 6 种开源模型来构建一个 3 层 MoA——包括 Qwen1.5-110B-Chat、Qwen1.5-72B-Chat、WizardLM-8x22B、LLaMA-3-70B-Instruct、Mixtral-8x22B-v0.1 和 dbrx-instruct——每个 MoA 层均使用相同的模型集。

这些模型在不同任务中各有专长，例如指令遵循、代码生成等。实验通过分析模型在提议者（proposer）和聚合者角色（aggregator）中的表现，优化了 MoA 架构的配置。

例如，Qwen1.5-110B-Chat 在聚合任务中表现出色，能够有效整合多种输入生成高质量输出；而 WizardLM-8x22B 则在提议者角色中表现优异，提供多样化的参考回答。通过对模型性能和多样性的综合考量，团队确保了 MoA 层中模型的协同效应最大化。

实验场景与数据集

实验主要基于三个权威基准测试：AlpacaEval 2.0、MT-Bench 和 FLASK[1]。这些数据集覆盖了广泛的任务场景，能够全面评估模型的语言生成能力。

AlpacaEval 2.0：包含 805 条真实用户指令，代表了实际应用场景。评估采用长度控制（LC）的胜率指标，通过 GPT-4 比较模型回答与 GPT-4（gpt-4-1106-preview）输出的优劣，确保公平性。MT-Bench：通过 GPT-4 对模型回答进行评分，评估多轮对话中的表现，强调模型的上下文理解和持续对话能力。FLASK：提供 12 项技能特定的评分，涵盖鲁棒性、正确性、逻辑推理效率、事实性等维度，为模型性能提供细粒度分析。

此外，团队还在 MATH 数据集 上测试了 MoA 的推理能力，验证其在数学推理任务中的表现。这些多样化的测试场景确保了 MoA 性能评估的全面性和可靠性。

评估方法

MoA 的评估方法结合了自动评估和对比分析。核心指标包括：

LC 胜率：在 AlpacaEval 2.0 中，通过 GPT-4 比较模型回答，计算模型优于基准模型的概率，消除长度偏见。MT-Bench 评分：由 GPT-4 给出 0-10 分的评分，评估回答的整体质量。FLASK 技能评分：对 12 项技能进行细粒度评分，分析模型在不同维度的表现。数学任务准确率：在 MATH 数据集上评估模型的推理正确率。

图 3：AlpacaEval 2.0 LC 胜率提升。图中展示了多个模型在参考其他模型输出后的性能提升，证明了语言模型的协作性。

为了深入理解 Mixture-of-Agents (MoA) 的内部机制，研究团队开展了多项深入实验。他们比较了 MoA 与 LLM 排序器（LLM-Ranker）的性能，证实 MoA 在综合生成中的优越性；通过 BLEU、TF-IDF 和 Levenshtein 相似度分析，揭示了聚合者如何智能整合提议者的输出；此外，团队还研究了模型多样性和提议者数量对性能的影响，发现多模型协作显著提升效果；通过分析模型在提议者和聚合者角色中的表现，进一步明确了各模型的专长。这些实验共同阐明了 MoA 高效协作的核心机理。

实验结果：超越 GPT-4 Omni 的壮举

MoA 的实验结果令人振奋，尤其是在 AlpacaEval 2.0 上，MoA 展现了压倒性的优势。以下是主要成果的详细分析。

AlpacaEval 2.0：开源模型的逆袭

在 AlpacaEval 2.0 基准测试中，MoA 取得了 65.1% 的 LC 胜率，超越了 GPT-4 Omni 的 57.5% ，实现了 7.6% 的绝对提升。更令人惊叹的是，这一成绩完全由开源模型实现，充分展示了 MoA 在整合开源模型能力方面的潜力。

团队还测试了两种变体：MoA w/ GPT-4o 和 MoA-Lite。MoA w/ GPT-4o 使用 GPT-4o 作为最终聚合者，LC 胜率达到 65.7% ，进一步提升了性能。而 MoA-Lite 则通过减少层数（2 层）和使用更轻量的 Qwen1.5-72B-Chat 作为聚合者，实现了 59.3% 的 LC 胜率，依然优于 GPT-4 Omni，且成本更低。

图 4：AlpacaEval 2.0和MT-Bench的结果（后者的满分为10）。对于AlpacaEval 2.0， MoA和MoA- lite分别对应3层和2层的6个提议者。MoA w/ gpt - 40对应于使用gpt - 40作为MoA中的最终聚合器。研究进行了三次实验，报告了平均分和标准差。†表示这项研究对对AlpacaEval结果的复制。这项研究的研究者们自己跑了所有MT-Bench的分数，得到了回合制分数。MT-Bench：微小但稳定的领先

在 MT-Bench 上，MoA 的表现同样出色，平均得分为 9.25，略高于 GPT-4 Omni 的 9.19（满分为 10 分）。尽管改进幅度较小，这主要是因为 MT-Bench 的评分已接近饱和（顶级模型得分普遍超过 9 分）。然而，MoA 依然稳居榜首，证明了其在高难度对话任务中的稳定性。

FLASK：多维度的卓越表现

FLASK 的细粒度评估显示，MoA 在鲁棒性、正确性、逻辑推理效率、事实性、常识推理、洞察力、完整性等多个维度上显著优于单一模型 Qwen1.5-110B-Chat。此外，MoA 在正确性、事实性、洞察力、完整性和元认知等指标上甚至超越了 GPT-4 Omni。唯一的不足是输出的简洁性略逊，这可能是由于多模型协作导致回答稍显冗长。

图 5：FLASK 评估结果。MoA 在多个技能维度上表现出色，尤其在正确性、事实性和洞察力等方面超越了 GPT-4 Omni。MATH 任务：推理能力的飞跃

在 MATH 数据集上，MoA 的表现同样令人印象深刻。以 Qwen1.5-110B-Chat 作为聚合者，MoA 在三层架构中的准确率从第一层的 50.0% 提升到第三层的 57.6% ，显示了分层协作在推理任务中的显著效果。这一结果表明，MoA 不仅适用于语言生成，还能有效提升复杂推理能力。

图 6：MATH任务的结果。研究者评估了不同的聚合器，在每个MoA层中，所有六个模型都作为提议者。成本与效率：Pareto 最优的突破

MoA 的另一个亮点是其成本效益。实验通过预算和算力（tflops）分析，绘制了性能与成本的帕累托前沿图。结果显示，MoA 和 MoA-Lite 位于帕累托前沿，意味着它们在相同性能水平下具有更低的成本。例如，MoA-Lite 的成本与 GPT-4 Omni 相当，但性能提升了 **1.8%**；而 MoA 则在更高性能水平下保持了竞争力，相比 GPT-4 Turbo 成本降低了一半以上。

图 7：性能与成本的权衡。MoA 和 MoA-Lite 位于 Pareto 前沿，展现了高性能与低成本的完美平衡。为什么 MoA 如此强大？

MoA 的成功离不开其对协作机制的深刻洞察。实验表明，MoA 的聚合者并非简单选择最佳提议者输出，而是通过复杂的综合过程，整合多种输入的优势。例如，BLEU 相似度分析显示，聚合者的输出与高质量提议者的输出存在较高相关性，表明 MoA 能够智能地“借鉴”最佳内容。

此外，模型多样性和数量对 MoA 的性能至关重要。实验发现，使用多个不同模型（多提议者设置）相比单一模型生成多份输出（单提议者设置），性能显著提升。例如，在 6 个提议者的配置中，多提议者设置的 LC 胜率达到 61.3% ，远高于单提议者的 56.7% 。

未来展望与局限性

MoA 的出现为语言模型协作开辟了新的可能性。它不仅提升了生成质量，还通过开源模型展示了低成本高性能的潜力。然而，MoA 的分层架构可能导致较高的首次令牌时间（TTFT），影响实时应用的用户体验。未来研究可以探索逐块聚合（chunk-wise aggregation）等方法，优化响应速度。

此外，MoA 的可解释性也是一大优势。由于中间输出以自然语言形式呈现，用户可以更容易理解模型的推理过程。这为构建更透明、更符合人类需求的 AI 系统提供了基础。

结语：协作的未来已来

Mixture-of-Agents 技术的诞生标志着语言模型从单打独斗走向团队协作的新时代。通过巧妙的分层架构和角色分工，MoA 将多个模型的智慧融为一体，创造了超越单一模型的惊人性能。无论是 AlpacaEval 2.0 的霸榜表现，还是在成本效益上的突破，MoA 都向我们展示了协作的力量。未来，随着更多模型的加入和架构的优化，MoA 有望进一步释放语言模型的潜能，为 AI 应用带来更多可能性。

想了解更多关于 MoA 的细节？欢迎查阅原文：Mixture-of-Agents Enhances Large Language Model Capabilities[2]。让我们共同期待这场协作革命的下一幕！

参考资料[1]

FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION BASED ON ALIGNMENT SKILL SETS: https://arxiv.org/abs/2307.10928

[2]

Mixture-of-Agents Enhances Large Language Model Capabilities: https://arxiv.org/abs/2406.04692

-- 完 --

原文标题 : 聊聊MoA（混合智能体架构）：如何激发LLM潜力并掀起语言模型协作革命？

聊聊MoA（混合智能体架构）：如何激发LLM潜力并掀起语言模型协作革命？

相关推荐