对标特斯拉Optimus,这家公司3年后要落地万台人形机器人

星河频率
关注

作者 | 向欣

现下,端到端 VLA 已成为具身智能领域公认的技术范式之一。

今年 2 月,一个可以控制人形机器人上半身,并使其识别、拾取几乎所有家庭物品的端到端 VLA(视觉-语言-动作模型)——Helix,让其研发公司 Figure AI 获得投资人的热捧。该公司目前正在进行一轮高达 15 亿美元(约合人民币108亿)的融资。

其实,有一家中国企业比 Figure AI 更早提出并应用了端到端 VLA。

而且,他们最近还把 VLA 做了一次大升级。

这家企业是智平方科技。4 月 17 日,智平方科技发布了两款新的技术成果:

具身大模型 Alpha Brain:VLA 模型全面进化版,搭载了具备从桌面到开放环境,从单臂到全身协同,从简单任务到长程推理能力的全域全身 VLA(GOVLA)。

通用智能机器人 AlphaBot 2(爱宝 2):全身自由度 34+,无需训练即可完成多种任务。

智平方新品最大的突破在于,把 VLA 拓展到了对人形机器人全身的控制,并且赋予了它应对多场景、多任务的能力。

从这两个新品的发布,不难看出智平方走的是软硬一体的路线,他们既做大模型,也做人形机器人本体。

公司也是行业中最早强调并坚持软硬垂直整合的团队,在技术研发方面有深度积累。

智平方成立于 2023 年 4 月,公司创始人郭彦东博士毕业于美国普渡大学,曾任美国微软总部研究员、小鹏汽车首席科学家、OPPO 首席科学家,完整经历了 PC、手机和汽车三大智能终端的创新周期,在 AI 与硬件的深度结合上拥有丰富的量产经验。

在新品发布会上,智平方也提出了自己的商业化目标:2028 年实现机器人的万台场景应用,2033 年拓展至百万台规模。

今年以来,人形机器人商业化应用的战略价值持续凸显。谁能最先打通从模型到机器人的闭环,谁就掌握了主动权。

智平方选择了走难而正确的路——不是做 Demo,而是从一开始就向着「能用」的终局走去。

业内首次突破

新模型可控制人形机器人全身

智平方在大模型方面有两个研究方向:端到端 VLA、空间智能模型。

端到端 VLA 是一种视觉-语言-动作模型,能够将视觉输入、语言指令直接输出为动作指令。

空间智能模型则专注于空间感知、建模与推理,解决机器人在 3D 环境中的定位、导航、交互等问题。

本次发布的大模型 Alpha Brain,是这两个技术的融合体。

Alpha Brain 由智平方原有具身大模型品牌 AI2R Brain 升级而来,它的核心构成是智平方全栈自研的 GOVLA 大模型(GOVLA:Global & Omni-body Vision-Language-Action)。

可以用全域、全身这两个关键词理解 GOVLA 大模型,这也是该模型的两个重要突破:

全域:具备空间和任务的泛化能力,可以执行从桌面到开放环境、从简单任务到需要长程复杂推理能力的任务。

全身:可以控制从单个机械臂到机器人全身的动作。

其中,为了帮助机器人更好地实现对长程复杂任务的理解和分析,智平方还将 DeepSeek 的技术融入到 VLA 大模型的构建过程中。

在机器人领域,多数 VLA 仅支持 6-7 自由度的单臂控制,动作范围固定,覆盖桌面等单一场景,主要适配抓取、放下等简单的任务。

由于人形机器人自由度更高,一般为 20~60 个,关节数量多,全身协同动作复杂,运动控制难度更高,且获取训练数据也更困难,如何将 VLA 模型部署于人形机器人,并进行有效训练,使其具备完成任务的能力一直是具身大模型的难点。

此前美国人形机器人独角兽 Figure AI 发布的 Helix 模型,就是实现了对人形机器人整个上半身的控制,可协调 35 个自由度,故而在具身智能领域引起轰动,也获得了投资人的高度关注。

Helix 应用于 Figure 人形机器人,整理家庭物品但 Figure AI 在视频中展示的收纳食品、分拣物流的操作任务也限于桌面,未能展现跨区域的移动能力。

GOVLA 大模型更进一步,首次提出了输出全身控制和移动轨迹。

意思就是,GOVLA 大模型可控制人形机器人全身的动作,并根据任务需求在不同区域进行移动,不仅限于桌面。

郭彦东博士举了一个机器人做早餐的例子:

搭载常规 VLA 大模型的机器人,需要人把食材放到桌面,放到机器人的可视范围内,因为它只能看到桌面,只能在桌面操作,做完之后还需要人去给机器人提供服务。

而搭载 GOVLA 大模型的机器人能够 360°感知周围环境,可以自己去冰箱取食材,自己配比健康早餐,做完之后还可以送到餐桌,完成一个管家的全流程服务。这是一个机器人管家和一个自动化设备的最大的区别。

在架构层面,GOVLA 大模型由空间交互基础模型、慢系统和快系统三部分组成,双系统分工协作:

空间交互基础模型:接收、处理环境信息;

慢系统 System2:负责复杂逻辑推理、任务拆解,输出语言交互内容;

快系统 System1:输出机器人全身控制动作与移动轨迹,兼顾实时响应与复杂决策能力。

这种架构与 Figure AI 的 Helix 模型存在共通之处,Helix 由两个系统组成:

系统 2 负责「慢思考」,理解场景和语言;

系统 1 负责「快反应」,实时执行和调整行动。

Figure AI Helix 模型架构

不同之处在于,智平方的 GOVLA 大模型将环境信息感知、处理这一功能分给了空间交互基础模型,提升环境信息处理的独立性,以应对多样化的复杂环境。

虽然 GOVLA 的架构与 Helix 相似,但端到端 VLA 这一技术架构,其实由智平方更早提出。

其实,在模型研发中,前瞻性是智平方一贯以来的特点。

端到端 VLA 成为具身智能领域的技术范式,由两个关键性事件推动。

一是 2024 年 6 月,美国具身智能公司 Physical Intelligence(PI)联合斯坦福大学等高校与机构,发布了端到端 VLA 模型 OpenVLA。

OpenVLA 是一个开源模型,加速了技术的扩散。

二是 2024 年 10 月,PI 发布了新模型π0,π0 让机械臂成功执行了叠衣服的任务,实现了对衣物这种柔软、易形变的复杂对象的操作,以及长程任务的处理。

自此具身智能大模型的技术路线开始向端到端 VLA 方向收敛。

在端到端 VLA 方向上,智平方先于 PI 以及 Figure AI,联合北京大学,在 2024 年 6 月发布了端到端 VLA 模型 RoboMamba。

RoboMamba 不仅比 OpenVLA 更早发表并公开应用,还在未见任务(指模型从未接触过的全新任务类型或场景)的泛化能力上显著超越 Google 的 RT 系列模型。

在智平方的另一模型研发方向:空间智能上,智平方也领先于行业。

空间智能这一技术是在 2024 年 4 月,「AI 教母」李飞飞成立了聚焦空间智能研发的 World Labs 后才获得广泛关注。

而智平方早在 2023 年初就开始布局,经过一年多发展,其研发的空间感知基础模型在多个任务上超越了硅谷头部企业的 SOTA 模型。

凭借前瞻性布局与全栈自研能力,智平方正在把人形机器人从单一场景中的「能动手」带向多场景「会服务」的新阶段。

机器人无需训练

即可干活 8 年后要落地百万台

随着机器人任务边界持续拓展、应用场景日益多元,各行业对其智能性、泛化能力与实时响应提出了更高要求。

机器人系统复杂性不断提升,软硬件之间的协同程度也越来越高。

相比过去单项技术的独立突破,如今的具身智能发展更依赖于软硬件深度融合。「软硬一体」正逐渐成为具身智能企业的发展趋势。

一个典例就是,Figure AI 在今年 2 月宣布与为其提供模型方面技术支持的 Open AI 终止合作。

Figure AI 创始人表示,终止合作的原因之一是公司意识到必须要垂直整合机器人的软硬件系统,他们无法将模型交给外部企业来完成。

与自动驾驶不同,只做软件,对于尚未形成标准化产品的具身智能机器人,尤其是人形机器人来说,存在硬件适配、实时控制和数据闭环上的深度耦合问题。

实现软硬件高度协同,不仅是提升性能的关键,也是企业实现规模化落地的基础。

因此,智平方在研发大模型时,也同步研发人形机器人本体。

智平方一共推出过三代通用智能机器人,分别是 Alpha Bot、Alpha Bot 1S、AlphaBot 2,均为轮式可升降人形机器人。

在 2024 世界机器人大会期间,Alpha Bot 1S 在现场进行了工作、生活场景的真实演示,能够精准放置零件、为人提供咖啡。

最新发布的 AlphaBot 2 较前代有了更大的提升:

灵活度:全身自由度 34+

续航:可连续工作 6h+

操作范围:采用腰腿升降结构,垂直工作范围 0-2.4m,单臂臂展 70cm(不含末端夹具)

感知能力:360°×360°全空间探测感知

AlphaBot 2 最大的亮点在于其操作、学习能力的提升。

机器人无需训练即可完成多种任务,可快速掌握新任务,适应各种变化,适配汽车制造、半导体制造、公共服务、生物科技等多样化任务。

在智平方发布的视频中,AlphaBot 2 与人交流,并通过人类的肢体动作理解其意图,完成泡茶、准备文房四宝等家庭场景中的任务。

例如当人说「我渴了」,机器人会推荐喝茶,并且根据时令推荐茶品,或是通过人的摇头、点头动作意识到肯定与否定的态度,从而改变自己的策略。

除了远期要落地的家庭场景,智平方的智能机器人目前主要面向「汽车+半导体+生物科技」三大核心制造场景。

在汽车制造场景,AlphaBot 直接对标特斯拉 Optimus,拿下国际头部车企订单。

在半导体制造场景,今年 3 月,智平方与吉利科技旗下晶能微电子达成战略合作,在晶能微电子的智能化半导体生产基地,AlphaBot 可执行上下料、产线间物料转运等任务。今年双方将推动 AlphaBot 系列在半导体制造场景的大规模使用。

在生物科技领域,智平方宣布与全球生物科技龙头华熙生物战略合作。智平方机器人未来将在华熙生物的工厂实现物料协同转运、智能拆包消毒、智能视觉检验、多物料协同智能供料等操作。机器人可替代人工,避免交叉污染,降低微生物污染的风险。

智平方曾在今年 1 月宣布已获得大量商业订单,并于 2024 年实现数千万确认收入,成为国内最早进行商业推广的通用智能机器人公司。

此外,智平方机器人还计划在今年第三、四季度分别进入机场、社区(示范小区)等公共服务场景,为大众提供服务。

为了实现多场景落地的目标,智平方已启动自有产线建设,并给出了一个具体的阶段性商业化目标:

2028 年实现万台场景应用;

2030 年力争为南山区产值贡献一个百分点;

2033 年拓展至百万台规模,覆盖工业、物流、家庭服务等多元化场景。

3 年后实现万台落地,8 年后实现百万台应用,这样的量产目标,不仅需要企业具备强大的制造与交付能力,也要拥有高效部署产品,搭建产品运维体系的能力。

智平方团队在成熟的量产级端侧部署经验丰富,曾支撑数亿智能终端(涵盖车机、手机、IoT 等)的稳定本地运行,并与国内外主流芯片厂商深度合作,具备跨平台高性能部署能力,可适配不同算力的芯片环境。

近年来,从国外 Figure AI 的高额融资到国内各家展示机器人超强运动性能的视频刷屏,具身智能正在成为全球科技圈的流量热点。

具身智能并不缺热闹,缺的是系统性的解法。

智平方没有停留在秀模型能力、或是硬件性能的阶段,而是选择同步构建具身智能的底座,打造一套从感知到控制、从软件到硬件的工程体系。

他们没有被某一类示范效应牵着走,而是用自研模型和机器人硬件的逐步提升,试着把人形机器人从设想推向现实。

从行业角度看,智平方不是最早进入公众视野的公司,却可能是少数几个走在正确轨道上的团队。

       原文标题 : 对标特斯拉Optimus,这家公司3年后要落地万台人形机器人

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存