5 月 7 日,星动纪元宣布,已与清华大学叉院的 ISRLab 合作,开源首个 AIGC 生成式机器人大模型 VPP(Video Prediction Policy)。
VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。
在今年的 ICML 2025 中,VPP 从超 12000 篇投稿里脱颖而出,入选占比不到 2.6% 的 Spotlight 论文。
当下,AI 大模型领域有两大 “巨头” 流派 —— 基于自回归的理解模型,比如大名鼎鼎的 GPT;和基于扩散的生成模型,例如 Sora。
GPT 的思路演化到具身智能领域,就是以 PI(Physical Intelligence)为代表的 VLA 技术,它从视觉语言理解模型(VLM)微调而来,擅长抽象推理和语义理解。
而生成式技术与机器人的碰撞,就诞生了 VPP 这样的生成式机器人大模型。
VPP 分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。
第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。
以往机器人策略(例如 VLA 模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。而 VPP 能够提前预知未来的场景,让机器人 “看着答案” 行动,大大增强泛化能力。并且,VPP 视频预测结果与机器人实际物理执行结果几乎一致,能被视频生成的,就能被机器人执行。
过去训练机器人策略(例如 VLA 模型),得反复拍很多它干活的视频,成本高又费时间。VPP 就像个 “超级学霸”,不用盯着机器人实操,直接看网上海量人类干活的视频,比如扫地、炒菜,就能学会这些动作,提前 “脑补” 接下来场景,比如端水杯前知道可能会洒,提前调整动作。
高频预测和执行,反应超快不 “卡壳”
以前 AIGC 生成画面很慢,但往往花费大量推理时间,就像电脑加载视频要等好久。
星动纪元研究团队发现,不需要精确地预测未来的每个像素,通过有效提取视频模型中间层的表征,单步去噪的预测就可以蕴含大量未来信息。
VPP 发现不用把画面每个细节都精准预测,抓住关键信息就行。这样一来,它预测下一步动作不到 0.15 秒,控制机器人的频率比普通模型快好几倍,干活一点不拖泥带水。
跨本体学习,技能 “共享” 超方便
不同机器人 “身材” “手臂” 不一样,以前教它们技能很麻烦。
VPP 直接把机器人干活的视频当教材,连人类干活视频也能学,就像学做菜,看别人做一遍,自己就能上手。
在测试中,它完成任务的效率比老方法高 41.5%,在仿真测试接近满分,真机测试成功率也有 67% 。
举一反三,真实世界表现 “全能”
在真实世界的测试中,VPP 模型展现出了惊人的多任务学习能力和泛化能力,学习成果十分惊艳。
在星动纪元单臂 + 仿人五指灵巧手灵巧手 XHAND 平台,VPP 能使用一个网络完成 100 多种精细操作,像叠衣服、拧瓶盖;在双臂机器人上,也能熟练搞定 50 多项复杂任务,比如包饺子、摆餐具。
可解释性与调试优化,问题一眼看穿
VPP 的预测视觉表示在一定程度上是可解释的,开发者在不通过 real - world 测试情况下,通过预测的视频来提前发现失败的场景和任务,进行针对性的调试和优化。
如果机器人干活出错,VPP 能通过预测的视频提前发现问题,就像看彩排视频找漏洞。而以前的模型,得让机器人反复实操,才能找到问题,VPP 大大节省了调试时间。
如今 VPP 已全部开源,武功秘籍已经免费分享出来了。依托行业持续开源优质模型与技术的强劲动力,机器人技术必将开启全新篇章,具身 AGI 也将沿着这条创新之路阔步前行。