聊聊MoA(混合智能体架构):如何激发LLM潜力并掀起语言模型协作革命?

机智流
关注

全文约 3500 字,预计阅读时间约  9 分钟

近年来,大型语言模型(LLMs)在自然语言处理领域掀起了一场风暴,从对话生成到复杂任务推理,它们的表现令人惊叹。然而,单个模型的性能总有瓶颈,训练成本高昂且资源需求巨大。如何突破这一限制?

今天我们来聊聊 Together AI 团队在近一年前提出的一种名为 Mixture-of-Agents (MoA) 的创新方法,通过多模型协作,显著提升了语言生成质量。这项研究不仅在学术界引起轰动,还仅靠开源模型,在 AlpacaEval 2.0 等权威基准测试中超越了 GPT-4 Omni,实现 SOTA,展现了开源模型的惊人潜力。本文将带你深入了解 MoA 技术的创新之处、实验设计与惊艳成果,揭开这场协作革命的面纱。

MoA:协作的力量重塑语言模型

MoA 的核心理念源于一个有趣的发现:语言模型具有“协作性”。具体来说,当一个模型能够参考其他模型的输出时,即使这些输出质量较低,它也能生成更高质量的回答。这一现象启发了 Together AI 团队,他们设计了一种分层架构,让多个语言模型像团队一样协作,共同优化最终输出。

图 1:MoA 结构示意图。图中展示了 4 层 MoA 架构,每层包含 3 个代理(模型),每层代理参考前一层所有输出进行优化,最终生成高质量回答。

MoA 的工作方式可以简单比喻为一场接力赛。每个“选手”(即语言模型)在自己的“赛道”(MoA 层)上生成初步回答,这些回答随后传递给下一层的模型进行优化和整合。每层中的模型都会参考前一层所有模型的输出,逐步提炼出更准确、更全面的回答。这种分层协作不仅充分利用了各模型的独特优势,还通过多样化的视角弥补了单个模型的局限性。

与传统的单一模型或简单集成方法不同,MoA 不需要对模型进行微调,仅通过提示(prompting)接口即可实现协作。这意味着它可以轻松适配任何最新的语言模型,无论其规模或架构如何。这种灵活性与高效性让 MoA 在实际应用中具有巨大潜力。

图2:用于集成来自上一层所有模型响应的提示词。翻译:已经为您提供了一组来自各种开源模型对最新用户查询的回答。你的任务是将这些回答综合成一个单一的、高质量的输出。批判性地评估这些回答中提供的信息至关重要,认识到其中一些信息可能有偏见或不正确。你的回答不应该简单地重复已给出的答案,而应该提供一个精炼、准确和全面的回答。确保你的回答结构良好,连贯,并坚持最高的准确性和可靠性标准。以下是来自不同模型的回答:...

MoA 的创新点不仅在于其架构设计,还体现在对模型角色分工的深刻洞察。研究团队将模型分为两种角色:提议者(Proposers) 和 聚合者(Aggregators)。提议者擅长生成多样化的初步回答,为后续优化提供丰富素材;而聚合者则负责综合这些回答,生成最终的高质量输出。通过对模型性能和多样性的精心选择,MoA 确保了协作过程的高效与稳定。

此外,MoA 的设计灵感来源于机器学习中的 Mixture-of-Experts (MoE) 技术,但它将这一概念扩展到了模型层面。传统的 MoE 通过子网络分工实现任务优化,而 MoA 则利用完整语言模型的提示能力,无需修改内部权重即可实现协作。这不仅降低了计算成本,还为未来的模型集成提供了无限可能。

实验设计

为了验证 MoA 的性能,研究团队设计了一系列科学严谨的实验,涵盖了多种基准测试和模型配置。以下从 LLM 的角色分功夫、实验场景与数据集、评估方法等方面展开介绍。

LLM 角色分工

MoA 的实验中,研究团队精心挑选了 6 种开源模型来构建一个 3 层 MoA——包括 Qwen1.5-110B-Chat、Qwen1.5-72B-Chat、WizardLM-8x22B、LLaMA-3-70B-Instruct、Mixtral-8x22B-v0.1 和 dbrx-instruct——每个 MoA 层均使用相同的模型集。

这些模型在不同任务中各有专长,例如指令遵循、代码生成等。实验通过分析模型在提议者(proposer)和聚合者角色(aggregator)中的表现,优化了 MoA 架构的配置。

例如,Qwen1.5-110B-Chat 在聚合任务中表现出色,能够有效整合多种输入生成高质量输出;而 WizardLM-8x22B 则在提议者角色中表现优异,提供多样化的参考回答。通过对模型性能和多样性的综合考量,团队确保了 MoA 层中模型的协同效应最大化。

实验场景与数据集

实验主要基于三个权威基准测试:AlpacaEval 2.0MT-Bench 和 FLASK[1]。这些数据集覆盖了广泛的任务场景,能够全面评估模型的语言生成能力。

AlpacaEval 2.0:包含 805 条真实用户指令,代表了实际应用场景。评估采用长度控制(LC)的胜率指标,通过 GPT-4 比较模型回答与 GPT-4(gpt-4-1106-preview)输出的优劣,确保公平性。MT-Bench:通过 GPT-4 对模型回答进行评分,评估多轮对话中的表现,强调模型的上下文理解和持续对话能力。FLASK:提供 12 项技能特定的评分,涵盖鲁棒性、正确性、逻辑推理效率、事实性等维度,为模型性能提供细粒度分析。

此外,团队还在 MATH 数据集 上测试了 MoA 的推理能力,验证其在数学推理任务中的表现。这些多样化的测试场景确保了 MoA 性能评估的全面性和可靠性。

评估方法

MoA 的评估方法结合了自动评估和对比分析。核心指标包括:

LC 胜率:在 AlpacaEval 2.0 中,通过 GPT-4 比较模型回答,计算模型优于基准模型的概率,消除长度偏见。MT-Bench 评分:由 GPT-4 给出 0-10 分的评分,评估回答的整体质量。FLASK 技能评分:对 12 项技能进行细粒度评分,分析模型在不同维度的表现。数学任务准确率:在 MATH 数据集上评估模型的推理正确率。

图 3:AlpacaEval 2.0 LC 胜率提升。图中展示了多个模型在参考其他模型输出后的性能提升,证明了语言模型的协作性。

为了深入理解 Mixture-of-Agents (MoA) 的内部机制,研究团队开展了多项深入实验。他们比较了 MoA 与 LLM 排序器(LLM-Ranker)的性能,证实 MoA 在综合生成中的优越性;通过 BLEU、TF-IDF 和 Levenshtein 相似度分析,揭示了聚合者如何智能整合提议者的输出;此外,团队还研究了模型多样性和提议者数量对性能的影响,发现多模型协作显著提升效果;通过分析模型在提议者和聚合者角色中的表现,进一步明确了各模型的专长。这些实验共同阐明了 MoA 高效协作的核心机理。

实验结果:超越 GPT-4 Omni 的壮举

MoA 的实验结果令人振奋,尤其是在 AlpacaEval 2.0 上,MoA 展现了压倒性的优势。以下是主要成果的详细分析。

AlpacaEval 2.0:开源模型的逆袭

在 AlpacaEval 2.0 基准测试中,MoA 取得了 65.1% 的 LC 胜率,超越了 GPT-4 Omni 的 57.5% ,实现了 7.6% 的绝对提升。更令人惊叹的是,这一成绩完全由开源模型实现,充分展示了 MoA 在整合开源模型能力方面的潜力。

团队还测试了两种变体:MoA w/ GPT-4o 和 MoA-Lite。MoA w/ GPT-4o 使用 GPT-4o 作为最终聚合者,LC 胜率达到 65.7% ,进一步提升了性能。而 MoA-Lite 则通过减少层数(2 层)和使用更轻量的 Qwen1.5-72B-Chat 作为聚合者,实现了 59.3% 的 LC 胜率,依然优于 GPT-4 Omni,且成本更低。

图 4:AlpacaEval 2.0和MT-Bench的结果(后者的满分为10)。对于AlpacaEval 2.0, MoA和MoA- lite分别对应3层和2层的6个提议者。MoA w/ gpt - 40对应于使用gpt - 40作为MoA中的最终聚合器。研究进行了三次实验,报告了平均分和标准差。†表示这项研究对对AlpacaEval结果的复制。这项研究的研究者们自己跑了所有MT-Bench的分数,得到了回合制分数。MT-Bench:微小但稳定的领先

在 MT-Bench 上,MoA 的表现同样出色,平均得分为 9.25,略高于 GPT-4 Omni 的 9.19(满分为 10 分)。尽管改进幅度较小,这主要是因为 MT-Bench 的评分已接近饱和(顶级模型得分普遍超过 9 分)。然而,MoA 依然稳居榜首,证明了其在高难度对话任务中的稳定性。

FLASK:多维度的卓越表现

FLASK 的细粒度评估显示,MoA 在鲁棒性、正确性、逻辑推理效率、事实性、常识推理、洞察力、完整性等多个维度上显著优于单一模型 Qwen1.5-110B-Chat。此外,MoA 在正确性、事实性、洞察力、完整性和元认知等指标上甚至超越了 GPT-4 Omni。唯一的不足是输出的简洁性略逊,这可能是由于多模型协作导致回答稍显冗长。

图 5:FLASK 评估结果。MoA 在多个技能维度上表现出色,尤其在正确性、事实性和洞察力等方面超越了 GPT-4 Omni。MATH 任务:推理能力的飞跃

在 MATH 数据集上,MoA 的表现同样令人印象深刻。以 Qwen1.5-110B-Chat 作为聚合者,MoA 在三层架构中的准确率从第一层的 50.0% 提升到第三层的 57.6% ,显示了分层协作在推理任务中的显著效果。这一结果表明,MoA 不仅适用于语言生成,还能有效提升复杂推理能力。

图 6:MATH任务的结果。研究者评估了不同的聚合器,在每个MoA层中,所有六个模型都作为提议者。成本与效率:Pareto 最优的突破

MoA 的另一个亮点是其成本效益。实验通过预算和算力(tflops)分析,绘制了性能与成本的帕累托前沿图。结果显示,MoA 和 MoA-Lite 位于帕累托前沿,意味着它们在相同性能水平下具有更低的成本。例如,MoA-Lite 的成本与 GPT-4 Omni 相当,但性能提升了 **1.8%**;而 MoA 则在更高性能水平下保持了竞争力,相比 GPT-4 Turbo 成本降低了一半以上。

图 7:性能与成本的权衡。MoA 和 MoA-Lite 位于 Pareto 前沿,展现了高性能与低成本的完美平衡。为什么 MoA 如此强大?

MoA 的成功离不开其对协作机制的深刻洞察。实验表明,MoA 的聚合者并非简单选择最佳提议者输出,而是通过复杂的综合过程,整合多种输入的优势。例如,BLEU 相似度分析显示,聚合者的输出与高质量提议者的输出存在较高相关性,表明 MoA 能够智能地“借鉴”最佳内容。

此外,模型多样性和数量对 MoA 的性能至关重要。实验发现,使用多个不同模型(多提议者设置)相比单一模型生成多份输出(单提议者设置),性能显著提升。例如,在 6 个提议者的配置中,多提议者设置的 LC 胜率达到 61.3% ,远高于单提议者的 56.7% 。

未来展望与局限性

MoA 的出现为语言模型协作开辟了新的可能性。它不仅提升了生成质量,还通过开源模型展示了低成本高性能的潜力。然而,MoA 的分层架构可能导致较高的首次令牌时间(TTFT),影响实时应用的用户体验。未来研究可以探索逐块聚合(chunk-wise aggregation)等方法,优化响应速度。

此外,MoA 的可解释性也是一大优势。由于中间输出以自然语言形式呈现,用户可以更容易理解模型的推理过程。这为构建更透明、更符合人类需求的 AI 系统提供了基础。

结语:协作的未来已来

Mixture-of-Agents 技术的诞生标志着语言模型从单打独斗走向团队协作的新时代。通过巧妙的分层架构和角色分工,MoA 将多个模型的智慧融为一体,创造了超越单一模型的惊人性能。无论是 AlpacaEval 2.0 的霸榜表现,还是在成本效益上的突破,MoA 都向我们展示了协作的力量。未来,随着更多模型的加入和架构的优化,MoA 有望进一步释放语言模型的潜能,为 AI 应用带来更多可能性。

想了解更多关于 MoA 的细节?欢迎查阅原文:Mixture-of-Agents Enhances Large Language Model Capabilities[2]。让我们共同期待这场协作革命的下一幕!

参考资料[1] 

FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION BASED ON ALIGNMENT SKILL SETS: https://arxiv.org/abs/2307.10928

[2] 

Mixture-of-Agents Enhances Large Language Model Capabilities: https://arxiv.org/abs/2406.04692

-- 完 --

       原文标题 : 聊聊MoA(混合智能体架构):如何激发LLM潜力并掀起语言模型协作革命?

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存