作者|向欣
编辑|白雪
今年,Deepseek 横空出世。
超强性能、免费开源、低训练成本等特点让它如同一声惊雷震撼了全世界,投资市场也在它的诞生和火爆中,看到中国企业做大模型的巨大潜力。
以具身智能大模型为代表的机器人大脑,现已成为具身智能领域,资本重点关注的核心赛道。
最近,具身智能大模型企业穹彻智能就完成了数亿元 Pre-A++轮融资。盛宇投资、清科创投、嘉御资本、云启资本、上海科创基金等机构参投。
现下具身智能大模型技术路线以 VLA(视觉-语言-动作模型)、VLM(视觉-语言模型)为主流。
而穹彻智能则另辟蹊径,把力反馈融入机器人决策过程,选择研发「以力为中心」的具身智能大模型和相关工具与平台,发布了穹彻具身大脑(Noematrix Brain)。
这种技术路线在视觉、语言信息之外,增加了力反馈的信息,使得机器人能够更全面地认识现实世界。
借助 Noematrix Brain,在 2024 年 7 月,机器人就学会了帮人刮胡子,还能削黄瓜、叠衣服、收纳桌面物品。
这个被刮胡子的人就是穹彻智能创始人之一卢策吾
其中,机器人叠衣服这一技能的展示,比美国明星具身智能企业 Physical Intelligence 早了 4 个月。
针对业界普遍头疼的数据问题,穹彻智能也提出了多种低成本、高效率的数据收集与机器人训练方案,包括 CoMiner 伴随式数采系统、规模化力反馈模仿数据与学习模型-力捕捉系统 ForceMimic 等。
宇树科技创始人王兴兴认为,相比硬件本体,机器人大脑才是目前最大的难题,全球都在等待机器人大脑的诞生。
穹彻智能给出了一个切实可行的答案。
创始人来自斯坦福
产业化经验丰富
穹彻智能 2023 年 11 月成立,由成立近十年、估值达 10 亿美元的智能机器人公司非夕科技孵化。
截至目前,穹彻智能已完成 4 轮融资。顶尖投资机构 Prosperity7、红杉中国连续三轮加注,充分显示出资本对这家公司技术路线的高度认可。
纵观具身智能领域,受资本欢迎的企业,在人才上一般为「科研精英+产业老将」的配置,穹彻智能也不例外。
高校,或许是连接两位创始人的纽带。
穹彻智能创始人卢策吾、王世全均来自在机器人领域长期领先的顶尖高校——美国斯坦福大学,且目前都任职于上海交通大学。
卢策吾是斯坦福大学人工智能实验室博士后,师从知名学者李飞飞和 Leo Guibas 教授(美国工程院院士)。
2016 年,卢策吾回国发展,现任上海交通大学人工智能学院副院长及教授。
与卢策吾一样,王世全也在斯坦福大学人工智能实验室工作过。
王世全是斯坦福大学仿生与灵巧操作实验室及人工智能实验室(机器人方向)博士,于 2016 年创办非夕科技,在通用机器人本体 AI 技术融合与场景应用中积累了丰富经验。
2021 年,王世全开始担任上海交通大学客座教授,目前兼任上海市科协常委。
在团队中,卢策吾代表的是前沿科学力量,而王世全则代表商业化能力。
卢策吾是国内最早研究具身智能领域的学者之一,也是该领域唯一的科学探索奖获得者。
卢策吾在学术研究方面成果丰硕,他主导的科研团队在《自然》、《自然-机器智能》、TPAMI、T-RO 等顶级期刊上发表了 100 多篇论文,获国际机器人顶会最佳论文、最佳系统论文提名。
卢策吾团队还原创提出了 AnyGrasp 抓取算法,让机器人首次实现了在杂乱场景中也能像人一样精准抓取物品。
团队也是国内唯一获邀加入 Open X Embodiment Dataset 国际联合具身智能大规模数据集项目的学术力量。
实际上,AnyGrasp 抓取算法也是上海交大-非夕科技联合实验室的研究成果。
该实验室于 2019 年成立,为后续非夕科技孵化穹彻智能奠定了基础。穹彻智能多项技术成果都是与上海交通大学联合推出的。
除了高校科研资源支持外,作为穹彻智能的产业支持方,非夕科技不仅让穹彻智能继承了其在机器人力控技术上的技术优势,也能够为穹彻智能提供硬件基础与产品落地能力,使其技术能够得到规模化应用。
非夕科技是一家自适应机器人公司,2022 年估值已达 10 亿美元(约合人民币 73 亿),已发布两款机器人产品,分别是七轴自适应机器人 RIZON 拂晓、自适应并联机器人玄晖 Moonlight。
自适应机器人可以理解为能够适应多个操作对象、多种环境、多类任务的智能机器人,兼具传统工业机器人的高性能与协作机器人的安全性,主要形态为机械臂、四足机器人等。
2020 年,非夕科技就已实现了规模化量产,首批百台自适应机器人在华南制造中心顺利投产下线。
目前,非夕科技机器人产品已在工业制造、食品加工及医疗服务等多个行业广泛应用,能够执行装配、打磨抛光、汽车座椅熨烫、新能源汽车充电等多种复杂任务,产品已经过市场验证。
这意味着相较其他具身智能大模型企业,穹彻智能拥有天然的硬件优势。其在技术成果展示中,也多次使用非夕科技的机械臂作为载体。
虽然力控技术一脉相承,但两家公司的路线仍然有差异,穹彻展示的技能大多面向家庭场景,而非夕科技的机器人多应用于工业场景。
顶尖科研力量与成熟产业化经验的融合,使得穹彻智能更容易在技术深度与商业落地之间实现高效闭环。
让机器人学会削黄瓜、叠衣服
自主性极高
穹彻智能的研发思路是,回归问题本质提出解决方案,同时保证技术的可实现性与商业上的可落地性。
这两点,恰好满足了现在资本既追求前沿技术,又希望快速实现投资回报的需求。
穹彻智能主要解决具身智能领域两个目前最核心的难题:大模型、数据,提出了创新的解决方案,并且一直以低成本、高效率、可规模化作为贯穿技术研发、方案设计全流程的重要原则。
大模型方面,穹彻智能推出了兼顾泛化性和落地性能要求的具身智能大脑 Noematrix Brain。
卢策吾认为,不能单纯地通过复制语言大模型 Scaling Law 的方式来打造具身智能大模型。
因为语言大模型的训练方法是填充海量的互联网数据。具身智能相应需要的是大量来自现实世界的物理交互数据
按照这种技术路线,具身智能需要 1:1 的实际数据采集,但这些数据的生成、获取难度和成本远高于互联网数据,在数量和质量上都无法满足具身智能大模型的训练需求。
所以,卢策吾团队不依赖于传统路径,而是基于第一性原理,回归到具身智能大模型需要知道「世界是什么」;其次它要知道「如何决策」这两个本质问题上来思考解决方法,重新设计技术框架。
穹彻智能通过将操作的物理常识和力反馈结合在一起,打造了两个大模型。
具身智能大脑 Noematrix Brain 就是由这两个大模型组成,它们分别是:
实体世界大模型:教机器人掌握基本的物理常识,理解世界
机器人行为大模型:机器人结合物理常识和操作时的反馈力来调整动作,像人类一样进行决策、使用力量。
两个大模型构成一体,进行端到端的联合训练。
打个比喻,传统的技术路线是让人类老师亲身给机器人示范动作,并且事无巨细告诉机器人现场的所有细节,每面对一个新环境、新任务,需要重新进行基础教学。
而穹彻智能的技术路线是,让老师教机器人物理知识,理解物体之间的力学关系,结合语言/视觉大模型做预训练或辅助,再让机器人自己在现实世界中根据这些知识和力反馈进行学习。
理论上,穹彻智能创新的技术路线能够降低具身智能大模型的数据量需求,使训练变得低成本、可规模化。而在现实中,它已经展示出可行性。
2024 年 7 月举办的世界人工智能大会期间,具身智能大脑 Noematrix Brain 部署到双臂机器人、单臂移动机器人上,在展会现场首次公开展示多种技能,成功执行了整理、收纳桌面/地面物品,叠衣服,削黄瓜等任务。
这些任务对于人类来说很简单,对于机器人来说却极其复杂,尤其是叠衣服与削黄瓜。
执行这些任务涉及高精度的力控和运动规划,对柔性物体的操作要求极高,需要机器人实时调整抓取力道,避免破损或滑动。
任务之间差异大,也要求大模型具备强大的泛化能力,以便应对不同形态和材质的物品,并根据环境实时调整策略完成操作。
自主性是这个大脑的重要特点。任务执行过程中,具身大脑自主进行的操作包括但不限于物品识别、轨迹规划、决策、避障等等。
降低数据获取成本
数采系统已获百套订单
数据方面,穹彻智能联合上交大研发了三种数据采集方式,并推出了一个数据集,包括:
Noematrix CoMiner 伴随式数采系统,基于「生产伴随」式外骨骼数据采集方式研发;
规模化力反馈模仿数据与学习模型-力捕捉系统 ForceMimic;
视觉-触觉联合记录和追踪系统 ViTaM;
双手复杂操作任务数据集 OakInk2:涵盖厨房、书房、实验室、浴室 4 大交互场景,包含 75 类物体。
这些数据采集方案,都在降低数据获取成本的同时,提高了数据利用效率。
「生产伴随」式外骨骼数据采集方式解决的是传统遥操作设备昂贵且缺乏便携性的问题。
研究团队开发了一款开源、低成本、通用、便携、持久耐用和易维护的外骨骼设备 AirExo,可适配多种机械臂。
AirExo 不仅支持双臂机器人的遥操作完成数据采集,还能不局限于实验室,直接记录广泛且经济的野外演示数据。
团队仅通过 3 分钟的遥操作演示,结合 AirExo 收集的广泛和多样化的野外数据,所训练的机器人策略能够媲美通过超过 20 分钟遥操作演示学习的策略,数采效率提升 7 倍。
规模化力反馈模仿数据与学习模型-力捕捉系统 ForceMimic,则是解决机器人力控数据收集的问题。力控技术在机器人操作中至关重要,而业界缺乏大规模力交互数据。
ForceMimic 系统由两个部分组成:
ForceCapture:能「记录人怎么操作东西」的设备,可精准、实时捕捉并记录操作过程中的力、姿态及运动轨迹等多维度数据;
HybridIL:能「让机器人学会人类怎么操作」的模仿学习算法。
实验表明,ForceCapture 的数据采集效率几乎是遥操作的 3 倍,且该设备几乎无需任何额外培训,比需要对操作员进行专业培训的遥操作设备更具易用性。
系统的另一组成部分——算法 HybridIL 也表现出优秀的性能,能够在严苛的条件下保持 85% 的任务执行成功率。
视觉-触觉联合记录和追踪系统 ViTaM 解决的是数据收集过程中,存在视野盲区的问题。
ViTaM 系统同样由两个部分组成:
一个可伸缩的触觉手套和一个 3D 相机:负责记录操作过程;
一个基于视觉-触觉的联合学习框架:重建被手部遮挡或形变的物体细节。
人在操作时常常会遮挡关键部位,尤其是处理柔软或易变形物体时,单靠视觉难以感知细节。
ViTaM 系统的作用就是,帮助机器人从现实世界中获得操作数据的完整状态,从而实现和人类一样的灵巧操作。
比如在拿一块海绵时,ViTaM 系统能够让机器人感知到其柔软性、面向手掌心部分的形变情况以及接触的力度,从而精确地控制操作。
在商业化方面,穹彻智能的种种技术成果,得到了市场的初步认可,不仅获得了订单,也正在家庭服务、食品加工等场景尝试落地。
穹彻智能具身智能大脑 Noematrix Brain 获得单场景百套订单的突破,基于「生产伴随」式数据采集方式研发的数采系统也获得了近百套订单。
在家庭服务场景,穹彻智能与海尔机器人联合研发了两款家庭机器人,分别能够自主闭环完成地面物品清理、衣物洗烘任务。
在食品加工领域,「穹彻智能」已与知名食品厂商达成合作意向,双方将加快复杂食品生产、加工处理产线的智能化与自动化转型。
具身智能仍面临着许多技术和应用上的挑战,尤其是在大模型训练的数据难题、低效的训练方式以及如何让机器人真正理解和适应复杂的现实世界等问题上进展缓慢。
结合低成本、高效率的数据收集、利用方式,以及创新的具身智能大模型技术路线,穹彻智能为行业提供了一个具有可持续性与可扩展性的技术方案,有望继续拓展具身智能的应用边界。
原文标题 : 红杉中国连投三轮,上海交大教授带队造机器人大脑