智元正践行:以大脑为驱动,通过“一脑多形”快速部署于多种形态本体;以产品矩阵撬动多场景落地,挖掘更多应用可能性;以量产满足需求,提速具身智能走近物理世界的脚步。
作者:吕鑫燚
编辑:狄鑫彤
出品:具身研习社
“稚晖君”神神秘秘预告要发布“好东西”后,智元机器人仿佛按下了“加速键”,带来了不止一个新东西,但“够不够好”还要静待时间给出答案。
首先,智元机器人发布了首个通用具身基座大模型“智元启元大模型”(Genie Operator-1),该大模型主打四个优势,基于人类视频学习;小样本快速泛化;一脑多形;持续进化。
紧接着,稚晖君更新视频,正式发布双足智能交互人形机器人灵犀X2,能像人一样自然走路,甚至能骑自行车、踩滑板车。搭载了多模态交互大模型“硅光动语”,通过视觉理解和认知世界,可以做到与人进行无缝流畅的交互。
据稚晖君透露,灵犀X2研发了三个月,视频准备了一个月,是迄今为止最复杂的项目。
或许该项目的复杂点在于团队对灵犀X2的创新思考。为了寻找创新性,团队“套用”了鲁迅先生的思想,基于“从来如此,便对吗?”的想法,想一改机器人外表“钢筋铁骨”的固有形态,甚至考虑过使用化妆的美妆蛋作为材料。不过,最终还是选择了亲和的柔性材料。
图片来源:稚晖君
做大脑、推新品、宣布1000台机器人下线,智元机器人破圈动作频频,仿佛距离宇树科技的曝光度只差一个秧歌节目了。
然而上述举措只是智元对外输出的“表象”,其背后指向的是智元机器人在创始人稚晖君“天才少年”标签背后,打磨无限生产力的故事。以大脑为驱动,通过“一脑多形”快速部署于多种形态本体,让机器人更聪明;以产品矩阵撬动多场景落地,挖掘更多应用可能性;以量产满足需求,提速具身智能走近物理世界的脚步。
构想足够性感,但智元机器人的东西“好”到能支撑吗?
做一个能自主进化的大模型
“机器人公司,你如果不做大模型,那是属于没有未来的机器人。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青说道。在姚卯青看来,没有“智能化”支持、没有作业能力只是硬件,机器人能做的事情非常有限。
具体来看,“大模型”智能化高低决定的是人形机器人理解物理世界的程度和落地技能的水平。但这份“高低”也正是当下产业发展的瓶颈。
由于“大脑”智能化受限,导致其泛化能力差,使得人形机器人在新场景的成功率大幅下降;不同本体的数据难以共用,致使数据采集成本高;大模型自身无法实现持续进化,迭代速度较慢。
为了解决上述瓶颈各家都找了多种技术路线的解决方法,例如通过分层端到端模型训练的方式,集百家所长提升泛化能力;推出具身操作算法,通过视频生成大模型进行后训练,基于全过程零真机样本数据,实现多平台泛化等。
智元机器人的GO-1也是延续上述脉络而诞生的。
据智元机器人方面介绍,其提出了Vision-Language-Latent-Action(ViLLA)架构,由多模态大模型(VLM)与混合专家模型(MoE)组成,弥合视觉、语言与动作之间的鸿沟。
基于ViLLA架构,GO-1大模型能结合互联网视频和真实人类示范进行学习,可以更好地理解物理世界;在极少数据甚至零样本下,实现技能泛化到新场景、新任务,降低了具身模型的使用门槛及训练成本;支持不同机器人形态间迁移,适配到不同本体;搭配智元数据回流系统,从实际执行遇到的问题数据中持续进化学习。
举个例子,机器人得到用户下达的“挂衣服”指令后,大模型工作任务流为:根据眼前的画面,理解用户指令对应的任务要求,然后调动训练时学习过的挂衣服视频,自动设想挂衣服涉及到的操作步骤,最后执行并完成。
图片来源:智元机器人
GO-1大模型加持下,机器人能用更低成本学得更快,用较小的数据量掌握更泛化的能力,且能快速部署在不同身体中,并在实际应用中持续进化自主学习。这是一套较为完整的大模型解决方案路线,形成了“数据-泛化-成本-进化”的自驱动发展闭环。
据智元机器人官方表示,GO-1大模型在测试中取得了较为不错的成绩,但究竟有几斤几两还需等待真机部署实地打工时刻之际见分晓。
将视角放大,实际上智元机器人做大模型这件事,有两个标杆性的意义。
其一,整机厂现阶段仍依赖于GPT等大模型,其发展较为被动,通用大模型或行业大模型和人形机器人的适配度有限,成为人形机器人更聪明进化的掣肘;
其二,大摩的报告清晰可见国内在大模型的短板,这条弯道超车的机会不仅留给了大模型创企,还留给了整机厂,机会导向的是中国在人形机器人领域再下一城。
踩自行车而来,跟你做一次情感交流
无论是设计语言还是主打特点,灵犀X2和其前辈灵犀X1都有些差别。
回顾一下灵犀X1,其采用了串并联混合构型手臂和差分驱动双肩关节设计,整臂重量为2.5kg。基于智元X-Lab自研的PowerFlow两款模块化关节,全身实现了三十多个主动自由度。
图片来源:智元机器人
从外观上来看,灵犀X1看起来还有些“僵硬”,直角肩的形态和椭圆形的脑部构型,仿佛缺少了点温度。毕竟灵犀系列面向To C市场,聚焦的是养老方向。当该系列以“养老伙伴”角色出现在日常生活中,或许更具亲和力的外表能提高人类对于机器人的接受度。
而这也是灵犀X2做得最多改变的地方。
从外表来看,灵犀X2采用柔性材料外壳,能做到更抗摔。“圆滚滚”的上半身,还做到了细微起伏的“呼吸感”,看起来更具“柔和感”。基于动作模态集成至模型中,灵犀X2学会了人类的小动作,如暗中观察、坐下的时候偷偷荡腿、走路时胳膊自由摆动甚至还“到处扣扣”。
这些小动作仿佛让灵犀X2多了几分生命力,也更贴合一个“养老伙伴”的角色。当然,稚晖君给其的定位已经不再局限于“养老”而是“吉祥三宝”。
从技术路线来看,灵犀X2全身拥有28个自由度,未使用任何并联结构。配备小脑控制器Xyber-Edge、域控制器Xyber-DCU、智能电源管理系统Xyber-BMS及核心关节模组Powerflow等核心组件。通过结合深度强化学习和模仿算法学习,灵犀X2展现了走路、奔跑、转身、踩滑板车、玩平衡车、骑自行车等高难度动作。
图片来源:稚晖君
在交互能力方面,灵犀X2搭载了基于VLM的多模态交互大模型“硅光动语”,能通过人类的面部表情和语音语调精准判断情感状态,并做出相应的回应。在回答“你和狗狗同时掉进水里,我应该先救谁”的时候,灵犀X2也会迅速给出答案“先救狗狗”。此外,灵犀X2能通过远程裸眼3D交流,不过当人脸图片出现在其脑部显示屏幕的时候,多少有点“恐怖谷效应”。
相比于灵犀X1作为彩蛋,出现在聚光灯照射下的线下发布会,灵犀X2的发布略显简单,一支不到13分钟在办公室完成的视频里,稚晖君通过三大维度讲述了这款灵犀X2的技能点和团队思考。虽然简单但足够有料,也确实和市面上其他人形机器人产品呈现出不一样的技能点。
而且在办公室跑来跑去的灵犀X2,和稚晖君娓娓道来的讲述,也更符合外界对于这位“天才少年”的印象。
但值得一提的是,该视频发布后出现了不同的声音,部分业内人士认为这支视频很难服众。灵犀X2骑自行车的片段只有中间骑行部分,没有上车、下车的部分,很容易联想到稚晖君当年能研发出自动驾驶自行车技能。是真灵犀X2在骑自行车,还是自行车自己动,或许还要看智元接下来如何回应。
智元想“活”成什么?
2024年,智元搞出过最大的动静就是“开源”。
其一,智元机器人开源了百万真机数据集AgiBot World,该数据集是全球首个全功能、全场景、高质量的人形机器人百万真机数据集,100多种数据中,家居占40%、餐饮20%、工业20%、商超10%以及办公场景10%,其中80%的任务均为长程任务。
其二,灵犀X1面向全球正式开源,软硬件全套图纸和代码上线到GitHub,开发指南上线至智元机器人官网。
开源是促动行业整体前行的重要路径之一,通过前辈的成熟经验为后来者铺路,避免行业参与者陷入重复造轮子,消耗大量时间和资金成本。小鹏汽车创始人何小鹏在分享自家机器人时,也曾表示,没有500亿做不好机器人。
此外,在成熟经验基础上前行能在短时间内形成技术差异化路线,避免产业陷入同质化发展。开源的成功案例早在四足机器狗身上上演过,当年MIT开源四足机器狗技术成果后,加速了四足机器人的产业化进程,国内外涌现了一批优秀四足机器人企业。
实际上,开源并不是智元机器人必须完成的任务,也没有义务分享技术推动平权。从这一点可见,或许智元想做的不只是一家机器人公司,如果以后视镜来看其或许想成为“集大成者”,建立多维度商业壁垒,成为中国具身智能绕不开的核心玩家。
但这条路注定困难重重。
首当其冲的就是智元自身要承担大量成本,这便要求智元无论是融资能力还是自造血能力都要跟得上发展步伐。
毕竟,除了真机数据采集外,智元在供应链上也有不少自研部分。硬件方面,自研了核心的关节模组,包括电机、减速器、编码器等。软件方面,自研了具身智能的大脑和发布的大模型。还开源了中间件、操作系统、AimRT等。据了解,智元还在研发高自由度的灵巧手,多款产品在早期打样阶段。
多条腿走路的智元,在触碰多种发展可能性的同时,也将比友商遇见更多困难。
原文标题 : 做大脑、推新品、扩量产,稚晖君的智元想“活”成什么样?