机器人界 Sora,清华&星动纪元开源首个 AIGC 机器人大模型


星动纪元宣布已与清华大学叉院的 ISRLab 合作,开源了首个 AIGC 生成式机器人大模型 VPP(Video Prediction Policy)。“利用预训练视频生成大模型,让 AIGC 的魔力从数字世界走进具身智能的物理世界,就好比机器人界的 Sora!”

  • 论文地址:https://arxiv.org/pdf/2412.14803

根据介绍,VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,极大减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。

VPP 将视频扩散模型的泛化能力转移到了通用机器人操作策略中,巧妙解决了 diffusion 推理速度的问题,开创性地让机器人实时进行未来预测和动作执行,大大提升机器人策略泛化性,并且现已全部开源。

VPP 基于 AIGC 视频扩散模型而来。如图所示,VPP 分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

VPP 的一大亮点在于其预测能力。以往机器人策略(例如:VLA 模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。VPP 能够提前预知未来的场景,让机器人 “看着答案” 行动,大大增强泛化能力。通过该模型,机器人的执行速度能够实现 “更快一步”,在仅需150毫秒的推理时间内,预测频率达到6-10Hz,控制频率更是超过50Hz,极大提升了动作执行的流畅性。

VPP 还可以直接学习各种形态机器人的视频数据,不存在维度不同的问题。如果将人类本体也当作一种机器本体,VPP 也可以直接学习人类操作数据,显著降低数据获取成本。同时视频数据也包含比低维度动作更加丰富的信息,大大提高模型泛化能力。

基准测试结果表明,在最近的 Calvin ABC-D 基准测试中,VPP 模型以4.33的任务完成平均长度接近满分5.0。相较于先前技术,VPP 实现了 41.5% 的显著提升。在真实世界的灵巧操作测试中,该模型在多任务学习和泛化能力上同样表现不俗,能完成超过100种复杂操作任务,显示出其在实际应用中的强大潜力。

此外,VPP 的预测视觉表示在一定程度上是可解释的,开发者在不通过 real-world 测试情况下,通过预测的视频来提前发现失败的场景和任务,进行针对性的调试和优化。

VPP 项目开源部署 Tips,供各位开发者参考:

  1. 所有实验均使用一个节点(8 卡 A800/H100)完成;

  2. 详细操作说明可在开源 GitHub 中找到;

  3. 实验仿真平台是标准 Calvin abc-d Benchmark;

  4. 实验真机平台为星动纪元仿人五指灵巧手星动 XHAND1 以及全尺寸人形机器人星动 STAR1。


相關推薦

2025-04-24

日前,由清华博士曹越创立的 Sand.AI,公布了一款名为「Magi-1」的自回归视频生成模型,其主打两个能力: 无限长度扩展:通过前一段生成的内容进行后一段视频的制作,从而实现跨时间的无缝连贯叙事; 生成时长控制精

2024-07-27

也将带来 openKylin 2.0 的最新进展; 国家地方共建人形机器人创新中心首席科学家江磊将分享“开源创新助力人形机器人未来产业” 上海市多媒体行业协会 AIGC 专委会秘书长董道国将介绍大模型在媒体行业的应用实践 华为

2023-06-22

从而更好地理解世界。” 值得一提的是,6 月 19 日,由清华大学计算机系教授、人工智能研究院副院长朱军带领的新团队完成了近亿级天使轮融资,由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今,蚂蚁集团投资的第一个 AI

2024-08-16

型等开源技术,如何通过模块化建造方法,实现具身智能机器人系统的创新与发展。 他提到,未来的具身智能机器人,其物理系统的复杂度非常高, 要走入千行百业还面临诸多挑战,其中三个方面要重点关注:一是开发高性能

2024-08-17

产业前沿两大主题。会上,众多业内专家围绕开源技术在机器人、区块链、操作系统、芯片等领域的生态建设和商业化路径展开分享,以及就 AIGC 技术的创新趋势、商业潜力以及对社会的深远影响展开探讨。 深度聚焦并全

2024-08-09

。 1分钟实现 “破次元壁合照”,快速上手流行 AI 生图模型 本次活动已经吸引了上百位参赛者报名创作,借助 AIGC 实现了不同角色的破次元同框,让用户真切体会到 AI 技术带来的不一样的体验。 大赛为参赛者提供了 3 种创

2024-08-13

理事长,麒麟软件副总经理 江磊,国家地方共建人形机器人创新中心首席科学家 荆博,百度区块链副总经理 赵川峰,华为编译器技术专家,openEuler 社区 TC 委员 任璐佳,芯璐科技创始人 & CEO 赵宏文,蓝芯算

2023-09-08

旬,字节跳动旗下抖音的一款基于云雀大模型开发的 AI 机器人「豆包」开始小范围邀请测试。用户可通过手机号、抖音或者 Apple ID 登录。 「豆包」是此前字节内部代号为 “Grace” 的 AI 项目,目前拥有文生文、文生图的功能。

2025-04-24

智元机器人宣布推出并开源基于仿真功能的模型评测和验证工具Genie Sim Benchmark,专注为具身AI模型提供精准的性能测试和优化支持。 “作为Genie Sim(智元仿真平台)的开源评测版本,Genie Sim Benchmark是智元继开源百万真机数据集

2025-03-20

晨的GTC2025主题演讲上,英伟达发布全球首个开源仿人形机器人基础模型 Isaac GR00T N1 和仿真框架。 NVIDIA 创始人兼 CEO 黄仁勋表示:“通用机器人的时代已经到来,借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框架,全球

2023-11-04

深言科技与清华大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发

2024-02-23

科技创新和产业发展融合不断加深,催生出元宇宙、人形机器人、脑机接口、量子信息等新产业发展方向。大力培育未来产业已成为引领科技进步、带动产业升级、开辟新赛道、塑造新质生产力的战略选择。 我国具备工业体系

2024-09-26

可大幅降低AI应用开发的技术门槛和成本。该项技术是与清华大学高性能计算研究所合作的研发成果,可通过降低模型应用间的耦合性,提高资源利用率。Serverless API简化了AI应用开发过程,开发者只需注册账号即可直接调用,且

2023-06-29

看吧! 🧨Diffusers 库支持 UniDiffuser pipeline UniDiffuser 是清华大学朱军老师团队提出的一个为多模态设计的概率建模框架,你可以在机器之心的这篇文章里了解更多《清华朱军团队开源首个基于 Transformer 的多模态扩散大模型,文