2025年3月的中国AI领域无疑是一颗投入平静湖面的巨石,激起层层巨浪,吸引了全球的目光。先是Manus通用AI Agent以“全球首款执行级智能体”的姿态横空出世,如同一道耀眼的闪电划破科技的夜空;紧接着,GO - 1通用具身基座大模型宣布开源,宣称要“重新定义人机交互边界”,似一场风暴席卷而来。这两大技术的碰撞与竞争,让人们不禁思考:当AI开始从云端走向物理世界,真正参与到现实的交互与创造中,人类距离真正的智能革命究竟还有多远?
Manus:“执行级AI Agent”的降维打击Manus是由中国初创公司Monica.im开发的全球首款通用型AI智能体,其核心定位是自主执行复杂任务并交付成果。Manus的出现标志着AI智能体从单一任务执行向复杂决策的跨越,其名称源自拉丁文“mens et manus”,意为“知行合一”,强调知识与行动的结合。
1. 核心能力:从“思考”到“行动”的闭环
Manus的出现,宛如一场技术革命,打破了传统AI仅仅作为“工具”的属性。它不再是被动地等待指令,而是具备了从理解指令到自主拆解任务、调用工具、跨平台执行并最终交付完整成果的能力,形成了一个从“思考”到“行动”的完美闭环。
在金融分析领域,当用户输入“分析特斯拉股价波动”这样的指令时,Manus就像一位专业的金融分析师,能够自动抓取特斯拉的财报,关联美联储的政策信息,最终生成可视化的报告。这一过程不仅高效,而且精准,大大节省了金融从业者的时间和精力。
在教育场景中,教师只需上传教材,Manus就能自动生成教案、制作PPT、编写练习题,甚至还能模拟课堂互动。这对于教育工作者来说,无疑是一个得力的助手,能够让他们将更多的精力放在教学方法的创新和与学生的互动上。
在企业级应用方面,某跨境电商客户利用Manus完成了竞品分析、广告投放、物流调度等全流程工作,效率提升了400%。这一显著的成效充分展示了Manus在实际业务中的强大执行力和价值。
更值得一提的是,Manus在GAIA基准测试中的表现堪称惊艳。其综合得分达到了86.5%,远超OpenAI Deep Research的67.9%。这一数据表明,AI终于从“实验室玩具”进化为“职场杀手级助手”,能够在实际工作中发挥重要作用。
2. 技术底层:通用智能体的“灵魂三要素”
Manus之所以能够具备如此强大的能力,得益于其通用智能体的“灵魂三要素”。
多模态感知是Manus的重要特性之一。它能够兼容文本、图像、语音等多维度输入,就像人类拥有多种感官一样,能够从不同的渠道获取信息,从而更全面地理解用户的需求。
动态规划则是Manus高效执行任务的关键。通过强化学习,它能够实时调整任务的优先级,根据实际情况灵活安排工作流程,确保任务能够以最优的方式完成。
云端执行是Manus的强大后盾。依托分布式算力网络,它能够实现7×24小时不间断作业,无论何时何地,都能为用户提供及时、高效的服务。
正如团队核心成员季逸超所言:“Manus不是更聪明的AI,而是更像‘人’的AI。”它的出现,让AI更加贴近人类的思维和行为方式,为人类的工作和生活带来了更多的便利。
GO - 1:具身智能时代的“全能智囊团”
如果说Manus代表了人工智能在工具化应用上的突破,那么智元机器人发布的GO-1则是具身智能领域的一次重大飞跃。GO-1是全球首个通用具身基座大模型,它开创性地提出了Vision-Language-Latent-Action(ViLLA)架构。这一架构由VLM(多模态大模型)和MoE(混合专家)组成,通过深度学习和生成式人工智能技术,实现了视觉、语言和动作的深度融合。
1. ViLLA架构:从“数据模型”到“物理世界的交互接口”
ViLLA架构的核心在于弥合图像-文本输入与机器人执行动作之间的鸿沟。与传统的Vision-Language-Action(VLA)架构相比,ViLLA通过引入Latent Action Tokens(隐式动作标记),显著提升了模型的动作规划和执行能力。在实验中,GO-1在五种不同复杂度的任务上表现卓越,成功率比现有最优模型提高了32。
2. GO-1的四大创新
(1)人类视频学习
GO-1能够结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。
(2)小样本快速泛化
在极少数据甚至零样本的情况下,GO-1能够快速泛化到新场景和任务,极大地降低了具身智能的应用门。
(3)一脑多形
GO-1能够灵活部署到不同类型的机器人本体上,支持多种机器人形态,展现出极高的通用性和灵活。
(4)持续进化
通过数据回流系统,GO-1能够在实际使用中不断学习和优化自身性能,越用越聪。
3. GO-1的应用场景
GO-1的推出标志着具身智能向通用化、开放化和智能化方向的快速发展。未来,机器人将不再局限于实验室,而是能够适应多变的真实世界环。例如,在工业制造、物流配送、家庭服务等领域,GO-1能够通过视觉、语言和动作的深度融合,实现高效的任务执行。
产业链重构与竞争升维 以生成式AI和大模型为代表的新一轮人工智能浪潮正在使广泛的价值链受益。例如,算力需求的激增推动了芯片和云计算产业升级,数据成为核心生产资料,催生数据治理和隐私计算市场。同时,智能化应用的深化加速了制造、医疗、内容、金融等行业的转型升级。 从“数据模型”到“物理世界的交互接口”
与Manus侧重“执行”不同,GO - 1主打“理解与生成”,它的技术定位是成为物理世界的交互接口。其核心技术包括多模态大模型、具身推理和工具学习。
多模态大模型支持图文音视频的实时融合分析,能够像人类一样综合处理多种信息,从而更准确地理解物理世界中的各种场景和指令。
具身推理通过传感器数据构建动态环境模型,让GO - 1能够感知周围的环境变化,并根据这些变化做出相应的决策。
工具学习则使GO - 1能够调用机械臂、无人机等实体设备执行指令,真正实现了从虚拟世界到物理世界的跨越。
商业博弈:中国AI军团的全球突围战
Manus派强调“任务导向”,通过标准化接口接入现有工具链,这种方式适合快速商业化。它能够在短时间内为企业和用户提供高效的服务,满足市场的需求。
GO - 1派则专注于 “系统级智能”,通过深度硬件协同与自主决策能力,构建物理世界的实时交互闭环。它更像是 “婴儿学习”—— 从感知环境到动作执行全链路自主进化,而非依赖外部工具。例如,GO-1 通过 AgiBot World 百万真机数据集训练,能在无预设场景下理解人类指令并完成倒水、组装等精细操作,这种能力在工业质检、服务机器人等领域展现出颠覆性潜力。其与蘑菇车联车路云网络的结合,更实现了从 “单车智能” 到 “城市级智能体” 的跃迁,为自动驾驶、低空物流等场景提供系统级解决方案。
两者并无优劣之分。Manus抢占企业服务市场,凭借其强大的执行能力和高效的任务处理能力,为企业提供全方位的解决方案;GO - 1深耕硬件集成领域,通过与实体设备的深度融合,实现物理世界的智能交互。
政策对AI的支持
在政策层面,中国政府高度重视人工智能的发展。2025年全国两会再次强调“人工智能+”行动,提出要持续推进“人工智能+”,将数字技术与制造优势、市场优势更好结合起来。这一政策导向将为人工智能技术的落地和应用提供有力支持。 从“互联网+”到“人工智能+”,AI已成为全球新一轮科技革命和产业变革的核心内容。未来,随着技术的不断进步和政策的支持,人工智能将在更多领域实现突破,推动社会的智能化发展。 AI的 “具身化” 与 “通用化”
从 Manus 的争议到 GO-1 的突破,AI 的发展从未如此贴近现实。当智元机器人在临港工厂量产人形机器人,当 Manus 的更新预告引发期待,我们正站在一个新时代的门槛:AI 不再是屏幕后的代码,而是能感知、思考、行动的 “数字生命体”,
正如蘑菇车联通过深度整合物理世界实时数据的AI大模型--MogoMind构建城市的实时数字孪生底座,其通感算网络已赋能自动驾驶、低空经济等领域,为 AI 与物理世界的深度融合提供了基础设施支撑。这场技术革命,或将重新定义人类与世界的交互方式。
具身化是AI发展的重要方向。AI将从虚拟世界走向物理世界,通过机器人、无人机等终端直接参与生产生活。这意味着AI将不再仅仅是人们在屏幕前使用的工具,而是能够真正融入到人们的生活和工作中,成为人们的伙伴和助手。
通用化也是AI发展的必然趋势。单一任务模型将被基座模型取代,AI系统需同时具备理解、推理、执行的综合能力。这将使AI能够更加灵活地应对各种复杂的任务和场景,为人类提供更加全面、高效的服务。
这一趋势与马斯克的Optimus、特斯拉的AI战略不谋而合。当具身智能与通用智能体深度融合,AI或将真正成为 “人类的延伸”—— 既能在云端运筹帷幄,又能在现实世界动手创造智能时代的终极图景 —— 一个虚实交融、万物互联的实时数字孪生世界。
原文标题 : 从 Manus 到 GO-1:当AI逐渐走入物理世界