2025年3月,一款名为Manus的AI产品在社交媒体上引发热议。它的内测邀请码一码难求,甚至被炒至数万元,同时带动了150多只AI智能体概念股涨停。
Manus的走红,不仅因为它在GAIA基准测试中超越了OpenAI的Operator模型,达到当前技术最佳水准(SOTA),更因为它代表了一种全新的AI形态——AI Agent(人工智能智能体)。
与我们熟悉的ChatGPT等生成式AI不同,AI Agent实现了从“思考”到“行动”的跨越。ChatGPT更像超级大脑,擅长回答问题、生成内容,但仅停留在思考层面。而AI Agent则更进一步,不仅能思考,还能像人类一样行动。它可以通过感知环境、规划任务、调用工具,自主完成从理解问题到解决问题的全过程。
当AI走向AI Agent,人工智能也从单纯的思考者进化为能够自主决策的行动者。
AI Agent并非横空出世的概念,其思想根源可追溯至古希腊哲学家对“自动机”的想象,以及中国古代《道德经》中“道”作为自主演化实体的隐喻。
20世纪50年代,图灵提出“图灵测试”,将“高度智能有机体”的概念引入人工智能领域,奠定了AI Agent的理论基础。
20世纪60年代,马文·明斯基在其研究中首次提出“Agent”一词,将其定义为一种自主运行的计算或认知实体,具备感知环境、推理决策和执行任务的能力。
此后,AI Agent的演进历经了数十年的迭代:从基于规则的专家系统(如IBM深蓝),到依赖机器学习的反应式代理(如Roomba扫地机器人),再到基于深度学习的复杂决策体(如AlphaGo)。
最初,AI主要依赖于符号主义(Symbolic AI),通过预定义的规则和逻辑推理来解决问题。这种方法在解决简单、结构化的问题时表现出色,但面对复杂、动态的环境时显得力不从心。
随后,反应式AI(Reactive AI)应运而生。它能够根据环境的即时反馈做出快速反应,但缺乏长期规划和记忆能力。例如,早期的自动驾驶系统能根据路况实时调整车辆的行驶方向,但无法进行复杂的路径规划。
直到强化学习(Reinforcement Learning, RL)的出现,AI Agent才真正迎来了突破。强化学习通过奖励机制,让智能体在与环境的交互中学习最优策略。这种方法使得AI Agent能够动态地拆解任务、选择工具,并根据反馈调整行动策略。
2022年,大语言模型的兴起赋予了AI Agent理解能力,犹如为它们装上了人类的大脑。大模型不仅使AI Agent具备了强大的语言理解和逻辑推理能力,让其与人类的交互更加自然,还强化了它们的记忆模块。这让AI Agent能够依据历史交互数据优化决策逻辑,进而提供更个性化的服务。
简言之,Agent=大模型(LLM)+记忆模块+规划引擎+工具库。其最大的特征是“自主性”,不仅能回答问题,还能像人类一样拆解任务、选择工具并完成全流程操作。
例如,当用户提出“规划一次日本深度游”时,AI Agent不再只是推荐景点,而是自动调用机票比价API、分析签证政策、预订酒店,并生成完整的行程文档。
这种“端到端”的执行闭环,让AI从“思考的巨人”转变为“行动的巨人”。
AI Agent的爆发绝非偶然。To B与To C市场的双重需求,驱动着科技巨头争相布局。
在To B领域,AI Agent作为24h全天候待命的“数字员工”,为企业降本增效提供新解法。例如Salesforce的Agentforce通过智能化和自动化提升了销售、客服和营销效率,三季度AI相关订单量同比增长两倍多。BuffGPT平台,通过多智能体协作与动态任务调度,支持100+智能体协同操作,跨系统API调用成功率高达99.2%,解决了企业数据孤岛的痛点。
如果说企业市场拼的是“效率”,那么消费者市场则在重塑“体验”。荣耀MagicOS的“YOYO智能体”可通过一句话指令完成外卖点单、打车预约;Manus则能根据用户职业背景,自动筛选并优化简历,甚至模拟面试对话。值得注意的是,AI Agent的角色正从冰冷的工具成为具备“共情能力”的伙伴。例如,心理健康管理应用Wysa通过AI Agent技术,能够实时分析用户的文字对话内容与语音语调,识别焦虑或抑郁情绪,准确率达89%,已帮助超500万用户改善心理状态。
面对潜在的市场需求,巨头的战略布局围绕三个维度展开:平台化、垂直化与硬件融合。
平台化旨在构建开放的生态系统,吸引开发者与企业入驻,形成技术壁垒与商业闭环。微软将Copilot Studio升级为Agent开发平台,提供1800个模型,吸引超10万家企业的入驻。百度智能云千帆AppBuilder 打造“企业级”AI Agent开发平台,支持从数据管理、模型训练到预测服务部署的全流程服务。北京市市场监管局便通过千帆平台接入DeepSeek大模型,实现7*24小时的数字公务员在线咨询服务。
垂直化聚焦于特定行业或场景,提供深度定制的解决方案。YC合伙人Jared认为,垂直领域AI Agent的市场规模将非常大,可能诞生市值超过3000亿美元的公司。例如,OpenAI推出月费2万美元的博士级Operator服务,瞄准法律、金融等高端专业市场,提供定制服务。
硬件融合结合终端设备与AI技术,锁定用户入口并提升交互体验,构建“端侧Agent”的护城河。Meta的Ray-Ban智能眼镜则集成多模态Agent,可实时翻译菜单文字,支持免提照片和视频拍摄、语音助手控制音乐播放以及 AI 智能提醒。
巨头们的每一步落子,都在试图定义未来规则:平台化构建生态壁垒,垂直化收割高价值场景,硬件融合锁定用户入口。这场竞争没有终点,只有持续的创新与进化,即AI agent的智能化觉醒之路。
AI Agent的崛起标志着技术从“+AI”工具化向AI原生助理的转变。
过去的AI更多是作为附加功能嵌入现有流程(即“+AI”),而未来的AI Agent将围绕任务场景重新设计交互逻辑,成为流程的核心(即“AI原生”)。在医疗领域,传统AI可能辅助医生分析影像数据,而AI原生应用则能自主完成从患者问诊、检查推荐到治疗方案生成的完整链路。
多模态能力的深度融合,是另一关键趋势。未来的AI Agent将像人类一样,通过视觉、语言、听觉等多维度感知环境。结合视觉模型的谷歌RT-1能够在复杂厨房场景中识别食材、操作厨具,执行700多项常见任务,准确率高达97%。结合了视觉语言模型的AI Agent从“单一任务执行者”进化为“多场景适应者”,真正具备了“观察环境”的能力。
行业智能体的专业化发展同样不容忽视。金融领域,AI Agent可通过实时分析市场数据,自主执行高频交易;在教育领域,它能够根据学生知识盲点,动态生成个性化习题库。这种垂直化深耕,精准匹配到细分群体的需求,具有更广阔的市场潜力。
当然,尽管前景广阔,AI Agent仍面临多重挑战。
一是技术壁垒,现在的AI agent都是以LLM-based agent为主要实现路径,底层大模型固有的幻觉等问题,可能会在多任务处理过程中进一步放大。同时,其推理时长和任务复杂度对算力需求提出了更高要求,需要云服务、服务器及国产算力产业链的进一步升级。
其次,伦理问题也值得警醒。AI Agent的爆发,本质上是技术、需求与资本共振的结果。它在提升企业运行效率的同时,也深度嵌入了生活场景,引发出一系列潜在的隐忧。比如,自动驾驶汽车在紧急情况下如何做出道德决策,是优先保护乘客还是行人;AI心理咨询师是否可能黑化,像《猎罪图鉴》里的算法程序一样诱导用户自伤自残;潜在的人类偏见是否会深入到未来的AI政务系统里,加剧现有的不平等与歧视。
当AI从“回答问题”走向“解决问题”,从“辅助人类”进化为“自主执行”,一个更深层次的隐忧出水面:AI Agent的拟人化设计可能导致“人的机器化”。
当机器逐渐具备类人行为和决策能力,算法与人类灵魂的边界逐渐模糊,我们是否会在潜移默化中逐渐丧失情感与道德判断力?
这些问题的答案或许正等待我们去书写,而我们每一个人的选择,都将成为这部未来史书的开篇之笔。
原文标题 : 从思考,到行动:由Manus爆火谈AI Agent