大模型战争：智能体成关键，刷榜风光不在

2025年被认为将是智能体（Agent）落地元年，客户更看重智能体的效果，生态各方为此已在摩拳擦掌。

文｜赵艳秋周享玥

编｜牛慧

智能体采购，正在成为市场热点。

“如果说2023年项目中标主要围绕智算中心、模型中台建设，那么从今年下半年起，众多客户的招标内容全都转向应用，且越来越细分。” 众数信科联合创始人汪中告诉数智前线，智能体开始走上台前。

智能体已成为客户、大模型企业以及各类服务商关注的核心故事。甚至一家企业能把智能体做好，就能越过大厂，成功中标。

对于大模型企业而言，智能体技术及工具链的支撑能力已成为基本要求。若在这方面表现欠佳，大概率难以与其他模型竞争。单纯靠刷榜体现的优势，如今已很难得到客户认可。

不过，业界对于智能体的定义、涵盖的具体内容，尚未达成共识。有人认为OpenAI 推出的 GPTs 是智能体；也有人认为，只有能调用工具的才算是智能体。从形式上说，不管对话机器人还是各种形式的大模型应用，从广义上都属于智能体范畴。

但有一点是业界公认的，那就是智能体必须能切实解决业务问题，至少在降本增效方面要有 10 倍、20 倍的提升，才能获得客户认可。因为业界越发意识到，大模型模式更难实现商业闭环，单纯的烧钱模式基本难以为继。

而业界这种认知，不仅重构了软件架构，甚至在促使大模型生态企业重塑了商业模式。正如王坚博士所说，AI 不应被视为工具的革命，而应被当作革命的工具。

“客户要求10倍~20倍效果”

“你说电商直播数字人好，那你就帮我卖东西。一单二三十元，我分你两元。”从事生成式AI虚拟人研发的中科深智CTO宋健告诉数智前线。在电商领域，今年客户在购买工具时变得格外谨慎，他们更倾向于按照效果付费，采用分润或CPS（按销售付费）模式。宋健预测，到明年，他们的直播电商数字人客户可能 100% 都会采用这种模式。

“国内外智能体存在很大差异。国外可能仍类似于传统 SaaS 模式，只是利用智能体重构了以往的软件架构。” 宋健表示，国内的情况则更为激进一些，在一些竞争激烈的行业，比如电商领域，不仅重构了软件架构，还重塑了商业模式。

这是因为客户关注的是智能体能否切实解决问题。“无论是降低成本还是提高效率，综合起来至少要有 10 倍、20 倍的提升才行。” 宋健进一步解释道。

“客户现在对大模型技术已经祛魅了。”众数信科汪中向数智前线坦言，这些客户从之前单纯的基础性采购，转变为以应用效果为导向，要求智能体在降本、提效或拓展新业务方面创造价值。

“客户不关心你是怎么实现的，只要看效果。”汪中说。目前行业内的采购模式通常是，技术厂商先迅速为客户进行一个 PoC（概念验证）场景验证，虽然语料范围可能较小，交互形式也较为单一，但要证明能够完成客户场景中的业务逻辑，并运用客户专属的业务知识。之后，客户才会启动采购流程。当然，他们也愿意为这些创新投入一定成本。

众数信科最近做的一个PoC是气象部门的紧急预警方案助手。厦门每年都会遭受台风侵袭，气象部门预测后，需要向港务局、城管等多个部门发送应急通知。这些应急报告原来需要4个专家花费3个小时才能完成。PoC的演示效果显示，借助助手，只需1位专家1小时就能完成，效率大约提升了12倍。

在另一个案例中，原本无法实现的事情，现在成为了可能。在高校学生培养计划中，存在大量评测维度。如果依靠现有的编程技术，针对上万乃至数万学生，只能进行一些通用评测，很难实现个性化定制。在这个案例中，针对课堂环节，多个智能体协同合作，实现了创新。例如，有的智能体负责转录授课语音，有的进行授课水平的分析对比；有的生成随堂小测试卷，有的现场批改试卷；还有的针对每个学生的薄弱点，进一步推荐学习材料…… 因此，在学生评价系统中，新增了多个评测维度。

“每一步背后都有智能体的支撑。” 汪中总结道，随着基础模型能力的发展，智能体的能力和形态更为丰富，已经初步具备协同的基础。汪中说，他们在实践中认识到，每个智能体都要扮演一个人类的社会角色，进行社会化分工并有产出，进而有可能形成群体智慧。智能体不再是单一的工具，未来也不仅仅是单个超级智能体的出现。

为了达到这样的状态，智能体需要具备三个主要特征：能够进行交流和理解；依据反馈和结果进行反思和自我规划；与外部能力单元，如业务系统、其他智能体、工具级应用等进行互动和协同。

在智能体落地应用过程中，客户从购买产品向购买服务的转变趋势愈发显著。智能体与以往信息技术的不同之处在于，它需要持续优化和调整，而目前客户完全依靠自身力量实现这一点，还存在难度。汪中发现，以规模在200万元左右的项目为例，后续每年服务费的占比已从传统信息化项目的 10%~15% 提升到 25%~30%。

而在竞争更为激烈的电商领域，变化更是翻天覆地。宋健注意到，电商直播数字人的迭代速度已经以天计。一旦从销售工具转变为提供服务，涉及的环节会变得极为繁杂。例如，需要密切关注平台的各种规则及其调整变化；之前那种研发、产品和业务相互分离的模式已经行不通了，现在必须协同作战，技术人员要深入一线，每天查看数据、分析运营情况，进行优化迭代；当优化措施不再奏效时，要果断更换产品、调整客户群体。“CPS 模式的优势就在于，各方更容易达成共识。”

生态全都动起来了

在智能体的落地巨变中，虽然大厂仍是当下的主要推动者，但人们认为，由于智能体更看重对客户需求的响应，未来行业智能体的产出来源主要将是两类玩家：

一类是有AI原生能力的服务商。另一类则是行业传统信息化服务商。智能体的落地并非易事，核心技能有业务场景遴选、知识萃取、智能体训练和编排。如果不了解业务场景以及大模型的能力边界，那么在技术响应、经验和效率上就会非常低。这需要人工智能人士和业务人士的双向奔赴。

而大厂在这一过程中，将扮演生态链普及角色。百度、阿里、字节、腾讯等大厂均推出了一站式智能体开发平台。他们走的是标准路线，目的是降低智能体落地门槛、应用广度和深度。比如，无论百度、智谱还是浪潮云，最近发布的新品，都在关注用智能体接管手机等设备的能力，实现一些拟人化操作。

“大家目前都在基于自身大模型，构建整体的智能体生态。”IDC中国高级分析师杨雯告诉数智前线，差异在于各家应用场景、数据积累不同，发力的优先场景和方向选择也有所不同。业界观察，这些企业在智能体支撑策略上差异也较大：

业界反馈，百度生态布局上覆盖较全，有基础模型，APP builder、Agent builder平台，也有对应的硬件如一体机，可直接在客户机房中部署。百度也支撑联合方案开发，定制化产品适配。业界分析，这与李彦宏号召业界不卷模型、卷应用有关。

一些人士建议，千帆平台可以加强除文心之外的商业化模型纳管，并支持更多常见互联网服务的插件开发。

在智能体方面，今年11月，百度推出工具流Agent。“Agent去年一出来特别火，但很快一盆冷水泼下来，大家发现很难用起来。我们的客户里，90%是RAG，10%是Agent。”千帆AppBuilder产品负责人朱广翔告诉数智前线。因为要完成一个企业级任务，可能需要几步甚至更多，如果每一步准确率是95%，多步骤下来，衰减将非常快。它没办法支撑长思考和推理。采用工作流方式，专家把流程描述好，Agent就会稳定很多，会更加落地。

阿里的通义千问模型能力在国内较强、反馈好，其开源模型在业界应用较多。阿里更多通过云端形态支撑应用，私有化支撑较少。这可能与阿里云的“AI驱动、公共云优先”战略有关。在智能体产品方面，阿里通义实验室新推出了自适应规划的多模态检索智能体OmniSearch，能模拟人类，将复杂问题逐步拆解进行智能检索规划。

字节目前在大力推广扣子私有化部署产品，即今年8月推出的HiAgent企业专属AI应用创新平台。与年初打响大模型价格战异曲同工，这次仍通过价格战，抢占市场。不过，它目前还不搭配模型，即字节豆包模型还没有私有化；不做应用，没有硬件，尝试基于HiAgent平台教会客户去搭建Agent应用。它的打法和支撑条件还有待体系化，这与其刚刚启动大模型私有化业务线不无关系。

而腾讯在智能体上的布局，也和其在大模型落地上优先赋能自身产品矩阵的“全家桶”策略类似，更加关注与自身拥有庞大流量的自家产品的结合。比如今年9月，腾讯元器上线的新功能，就支持公众号运营者自主打造专属智能体应用，在公众号内提供陪伴、互动、答疑、知识交流等智能化功能，目的是提升用户体验和公私域运营效率。

除了大厂，“AI六小虎”的智谱AI最近不断更新智能体技术。智谱的优势在于科研能力较强，一些开发者反馈，其模型的某些性能，超过了通义千问。但目前生态方面的支持还有待加强。

在前不久召开的智谱Agent OpenDay上，智谱CEO张鹏表示，Agent可以看作是大模型通用操作系统的雏形，理论上，可以将其推广到手机端、PC端、车端等各类智能设备上，实现基于大模型的互联互通。

“将来的智能体，一定是跨系统操作的，这是0跟1的区别，而不是60分和70分的区别。”一位资深行业人士观察，跨系统、跨App的能力，目前已成为兵家必争之地。

中国电信在今年9月开始智能体平台的开发，近期展出了星辰智能体应用平台。中国电信相关人士告诉数智前线，目前针对政企的标杆项目正在打造之中。

虽然大厂动作不断，但业界期望他们支撑智能体的速度要更快。“目前的速度无法跟上广泛的客户需求。更多业务逻辑没有充分体现，也就是客户专属知识与大模型技术的结合问题，这也是业界在落地上非常关注的。这侧面说明，大模型企业向客户方向靠拢，尚需一个过程。

智能体，何时爆发？

智能体的大方向已成，但何时能够真正爆发？

多位行业人士均向数智前线表示，这很大程度取决于模型能力的发展及市场教育进程。

“我们有一个简单判断，GPT5什么时候能出来，会是一个很直观的对标时间点。”众数信科联合创始人汪中说。

智谱AutoGLM 技术负责人刘潇也告诉数智前线，去年智能体还只能满足用户10%-20%的预期，用户就不太愿意买账，今年达到了50%-60%，一些用户开始意识到这件事情有用，而当智能体能满足用户70%-80%的预期时，应用铺开的速度将非常快。他判断大模型能力达标大概还需半年。

中科深智CTO宋健则表达了不一样的观点。他认为，Agent要真正爆发，必须真的渗透到行业里头，但To b链条的爆发，“明年应该还到不了特别大的规模”。

IDC中国高级分析师杨雯也告诉数智前线，于B端来说，若无法彻底解决大模型的幻觉问题，达到100%的精准度，大规模应用仍然难以实现。智能体爆发，预计可能要1至1.5年时间。

“目前而言，智能体仍处于市场混战阶段，距离成为终极入口标准还有一定的路程。”杨雯说。

但不可否认的是，面向这一确定的方向，处在智能体爆发前夕的玩家们，无一例外，都在通过各种工程化的能力和一系列技术，弥补模型能力不足，提前抢占先机。

“我们测试过大量基础模型，它们的Function Call能力在10个工具里去选，还是比较准的，一旦超过10个，准确度就大幅衰减，但在实际的应用场景中，执行步骤大概率都超过了10个，为了更好的实现业务可控性，我们首创了基于状态机的智能体workflow（工作流），在保证智能体自规划、自治性能力不受影响的前提下，实现业务的精准可控。”汪中说。

智谱刘潇也透露，他们正通过更好的强化学习策略，让智能体能够执行更长的步骤操作。

业界目前也都在研究工作流。“正因为有了工作流，我们发现虽然只增加了一层，但是Agent的落地增长就非常快，能看到很快到两成。”百度朱广翔说，预测明后两年，Agent会逐渐超过RAG应用，因为RAG场景较少，只是问答；但Agent可以实现客服、营销、企业调度、一站式平台，天花板更高。

有行业人士认为，智能体的应用可以至少分为从低到高三个应用层级，目前市场上已经出现不少初级应用和中级应用，高级应用则还需进一步实现。

比如豆包、kimi、文小言等，被认为可以看作是最为初级的智能体。它们具备简单的语言交互和任务理解能力，听得懂人话，能够根据指令，去执行一些简单的操作。“目前绝大多数的智能体是单智能体的初级应用，包括很多GPTs，能够简单的做问答等任务执行。”IDC杨雯说。

中级应用还要更深一层，展现形式已经脱离单纯的Chatbot形态，不再仅仅是对话框模式，规划能力和复杂度也进一步提升，使用的工具不再是联网搜索、天气查询等简单插件，而是需要有对应场景内的专业插件和能力，能完成更复杂的场景任务。

“比如智能客服，就是非常典型的一个Agent应用，比以前可能会有10倍甚至20倍的一个变化，现在我们接到的很多电话，其实都是新的Agent打出来的，你跟它聊半天，可能还以为它是个真人。”宋健说，而且，与传统客服相比，软件设计也变得更加简便。

“第三个级别，也是我们现在在努力去实现的。它除了更丰富的交互形态，能够完成复杂任务，还会额外再增加两个标签。”汪中告诉数智前线。

其一是能够了解场景背后的业务逻辑和知识脉络。“它可能不再那么通用，但它的专业性更强。而如果没有，它还会主动去寻求这些行业知识的支撑。”

其二，从插件和工具的使用能力上来说，它能够读懂现有的业务系统，将现有的业务系统作为其能力插件来源的一部分，而不再只能使用为它定制的插件。

汪中举例说，他们正在与船舶货运公司进行港务调度助手的研发试点，在他看来就是一种高级应用。

一艘船靠岸后，往往需要进行卸货、转运、洗舱、船员登记、物资补给等大量工作，原来这些工作主要靠人工去安排和调度，再登记进入车辆管理系统、补给管理系统等对应的若干个系统里，给到对应的执行单位执行。而现在，客户提出，希望用AI智能体来帮助现场员工，在繁杂的信息流和工作流中，由智能体进行初步的信息收集、分析、业务建议，成为现场员工的“数字同事”。

当然，更高级的应用，仍然有赖于模型能力和工程化能力的提升。

原文标题 : 大模型战争：智能体成关键，刷榜风光不在

大模型战争：智能体成关键，刷榜风光不在

相关推荐