清华、星动纪元放大招，开源首个AIGC机器人大模型

5 月 7 日，星动纪元宣布，已与清华大学叉院的 ISRLab 合作，开源首个 AIGC 生成式机器人大模型 VPP（Video Prediction Policy）。

VPP 利用了大量互联网视频数据进行训练，直接学习人类动作，减轻了对于高质量机器人真机数据的依赖，且可在不同人形机器人本体之间自如切换，这有望大大加速人形机器人的商业化落地。

在今年的 ICML 2025 中，VPP 从超 12000 篇投稿里脱颖而出，入选占比不到 2.6% 的 Spotlight 论文。

当下，AI 大模型领域有两大 “巨头” 流派 —— 基于自回归的理解模型，比如大名鼎鼎的 GPT；和基于扩散的生成模型，例如 Sora。

GPT 的思路演化到具身智能领域，就是以 PI（Physical Intelligence）为代表的 VLA 技术，它从视觉语言理解模型（VLM）微调而来，擅长抽象推理和语义理解。

而生成式技术与机器人的碰撞，就诞生了 VPP 这样的生成式机器人大模型。

VPP 分成两阶段的学习框架，最终实现基于文本指令的视频动作生成。

第一阶段利用视频扩散模型学习预测性视觉表征；第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

以往机器人策略（例如 VLA 模型）往往只能根据当前观测进行动作学习，机器人策略需要先理解指令和场景，再执行。而 VPP 能够提前预知未来的场景，让机器人 “看着答案” 行动，大大增强泛化能力。并且，VPP 视频预测结果与机器人实际物理执行结果几乎一致，能被视频生成的，就能被机器人执行。

过去训练机器人策略（例如 VLA 模型），得反复拍很多它干活的视频，成本高又费时间。VPP 就像个 “超级学霸”，不用盯着机器人实操，直接看网上海量人类干活的视频，比如扫地、炒菜，就能学会这些动作，提前 “脑补” 接下来场景，比如端水杯前知道可能会洒，提前调整动作。

高频预测和执行，反应超快不 “卡壳”

以前 AIGC 生成画面很慢，但往往花费大量推理时间，就像电脑加载视频要等好久。

星动纪元研究团队发现，不需要精确地预测未来的每个像素，通过有效提取视频模型中间层的表征，单步去噪的预测就可以蕴含大量未来信息。

VPP 发现不用把画面每个细节都精准预测，抓住关键信息就行。这样一来，它预测下一步动作不到 0.15 秒，控制机器人的频率比普通模型快好几倍，干活一点不拖泥带水。

跨本体学习，技能 “共享” 超方便

不同机器人 “身材” “手臂” 不一样，以前教它们技能很麻烦。

VPP 直接把机器人干活的视频当教材，连人类干活视频也能学，就像学做菜，看别人做一遍，自己就能上手。

在测试中，它完成任务的效率比老方法高 41.5%，在仿真测试接近满分，真机测试成功率也有 67% 。

举一反三，真实世界表现 “全能”

在真实世界的测试中，VPP 模型展现出了惊人的多任务学习能力和泛化能力，学习成果十分惊艳。

在星动纪元单臂 + 仿人五指灵巧手灵巧手 XHAND 平台，VPP 能使用一个网络完成 100 多种精细操作，像叠衣服、拧瓶盖；在双臂机器人上，也能熟练搞定 50 多项复杂任务，比如包饺子、摆餐具。

可解释性与调试优化，问题一眼看穿

VPP 的预测视觉表示在一定程度上是可解释的，开发者在不通过 real - world 测试情况下，通过预测的视频来提前发现失败的场景和任务，进行针对性的调试和优化。

如果机器人干活出错，VPP 能通过预测的视频提前发现问题，就像看彩排视频找漏洞。而以前的模型，得让机器人反复实操，才能找到问题，VPP 大大节省了调试时间。

如今 VPP 已全部开源，武功秘籍已经免费分享出来了。依托行业持续开源优质模型与技术的强劲动力，机器人技术必将开启全新篇章，具身 AGI 也将沿着这条创新之路阔步前行。

相关推荐