智元机器人开源具身世界模型EVAC与评测基准EWMBench


近日,智元机器人重磅发布具身智能领域双重里程碑式突破:在去年发布的机器人4D世界模型基础上,推出动作序列驱动的世界模型框架 EVAC(EnerVerse-AC),同时配套提出全球首个具身世界模型评测基准 EWMBench,构建从世界模型从训练到评测的全链路闭环。

这两大创新成果现已全面开源,EVAC也成为全球顶尖机器人赛事 AgiBot World Challenge @ IROS 2025 的baseline之一。

EVAC arxiv:https://arxiv.org/abs/2505.09723

EVAC 开源代码:https://github.com/AgibotTech/EnerVerse-AC

EWMBench arxiv: https://arxiv.org/abs/2505.09694

EWMBench 开源代码:https://github.com/AgibotTech/EWMBench

智元机器人这一动作,打破当前具身智能演进面临的两大关键制约:在测试阶段,真机验证代价大、风险高,仿真系统又受制于虚实偏差;在数据层面,海量真机数据尚未构建基于轨迹扩增的高效利用机制,限制了多样性生成与泛化训练。

技术突破:EVAC—— 全球首个机器人动作序列驱动的世界模型

EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。

▍核心能力:从 “物理执行” 到“像素空间”的精准映射

EVAC基于前序工作 EnerVerse 架构持续演进,创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几个方面:

  • 机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为action map,确保物理动作与图像帧的像素级对齐,精准建模 “抓取”、“放置”、“碰撞”、“推拉”、“快速抛掷”、“缓慢摇晃” 等复杂动力学行为;
  • 动态多视图建模:引入Ray Map编码相机运动轨迹,支持头部 、腕部等多视角协同生成一致且连贯的视觉场景,赋予机器人更全面的环境生成能力。;
  • 卓越的长时序一致性:采用 Chunk-Wise 自回归扩散架构与稀疏记忆机制(Sparse Memory),EVAC能够实现单视图稳定生成长达 30 个连续片段、多视图下亦可维持 10 个连续片段的无漂移稳定输出,保证了模拟过程在时间轴上的连贯性与真实性;
  • 数据高效利用:融合 Agibot-World 数据集 + 失败轨迹(如抓取滑脱、路径碰撞)提升生成质量,该策略能有效抑制幻觉现象,使模型能更合理、更全面地建模机器人与环境的交互动态。

▍双重价值:生成式仿真评估+数据引擎双轮驱动

生成式仿真评测

针对真机评测成本高、风险大、难以复现等痛点,EVAC开创性地提出了生成式模拟评测方案,它能与待评测的策略模型进行交替推理,构建起一套完整的交互式评测管线。实验显示,在多个任务中,EVAC所生成的评测结果与真机评测的成功率具有高度一致性,甚至能够可靠地识别出性能更优的模型权重,大幅提升了策略模型的筛选效率。

数据增广引擎:

EVAC 能够基于极少量的专家轨迹数据,通过动作插值与高保真画面生成技术进行大规模数据增广。应用结果表明,采用EVAC数据增广数据训练的策略模型,其任务成功率提升高达29%,目标跟随性得到显著改善,验证了这一方案在具身智能研究中的实用性与高性价比。

 

具身世界模型评测基准EWMBench——打造具身世界模型的 “质检尺”

为了科学、系统地衡量具身世界模型的性能表现,智元机器人推出了全球首个具身世界模型评测基准——EWMBench,旨在填补行业空白,构建统一、可信的评测标准。

▍三维度评估体系:场景 × 动作 × 语义的立体考核

针对机器人操作场景的复杂性与特殊性,EWMBench构建了立体化的评估体系,从场景一致性动作合理性语义对齐与多样性 三大核心指标进行分析:

场景一致性Scene Consistency:评估生成场景中背景/物体/视角等稳固度与真实性,采用微调过的DINOv2特征进行量化。

动作合理性Motion Correctness:利用HSD (Symmetric Hausdorff Distance), nDTW (normalized Dynamic Time Warping) 和 Dynamics Score 三重互补指标协同精确评估生成动作的合理性与动力学真实度。

语义对齐与多样性Semantic Alignment & Diversity:结合MLLM(多模态大模型)和CLIP从全局指令对齐度、关键步骤语义准确性、逻辑合理性等多个层次对生成视频进行语义理解评估。

▍权威数据支撑与便捷开源工具

  • 基准数据集:EWMBench 基于行业领先的开源百万真机数据集 AgiBot World 构建,涵盖了家居、工业、医疗三大场景的 10 类典型机器人操作任务和刚体 / 柔体 / 流体 / 关节物体等多种交互对象,其中包含超过 300个精心设计的测试样本及 30% 挑战性场景(低光照 / 部分遮挡),全面验证模型在复杂环境下的鲁棒性。
  • 开源评测工具:智元机器人同步开源了全流程评测工具,支持一键生成标准化对比报告,大幅降低评估门槛,方便研究者快速开展模型比较与性能分析,加速实验验证与成果复现。

▍卓越评测性能:更贴近人类主观感知

相较于当前主流视频生成评测基准 VBench,EWMBench 在评测结果与人类主观判断的一致性方面表现更优,能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。

协同效应:EnerVerse X EVAC × EWMBench 的 “螺旋进化”

EnerVerse 作为强大的世界模型基础架构,为 EVAC 提供可靠的基础框架与预训练能力,而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化,二者形成 “训练 - 验证” 技术闭环,不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析,研发团队可以精准定位 EVAC 在处理如 “多物体交互”“动态环境避障” 等复杂场景的潜在不足,从而进行更具针对性的优化。

EVAC 与 EWMBench 组合方案,已正式入选 AgiBot World Challenge @ IROS 2025 – World Model赛道的官方基线系统与评测标准。对于致力于具身智能世界模型研究的开发者和团队而言,提供了一个宝贵的实践与验证平台。我们鼓励有兴趣的同行关注并参与此项挑战赛。参赛者将有机会:利用EVAC开源代码与模型权重,训练、调优具身世界模型;通过EWMBench全面的评测维度和标准化工具,客观评估其世界模型的性能;在统一的基准下与全球研究者交流、比较和迭代各自的创新方法。AgiBot World Challenge @IROS 2025旨在促进具身智能领域的前沿探索与技术交流,期待通过这一平台见证更多富有创造力的成果。

具身世界模型 EVAC和具身世界模型评测基准 EWMBench的发布和开源,将全面破解模型评测成本高和数据价值未充分挖掘利用的行业痛点,标志着具身智能进入“算法 - 评测” 协同进化时代。智元机器人也将持续践行具身智能生态发展的创新和协作,持续推动前沿技术开源,引领具身智能迈向更高效、更普适的未来。


相關推薦

2025-05-21

智元机器人宣布开源全球首个基于机器人动作序列驱动的具身世界模型EVAC (EnerVerse-AC),以及具身世界模型评测基准EWMBench。 根据介绍,EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模

2025-04-24

智元机器人宣布推出并开源基于仿真功能的模型评测和验证工具Genie Sim Benchmark,专注为具身AI模型提供精准的性能测试和优化支持。 “作为Genie Sim(智元仿真平台)的开源评测版本,Genie Sim Benchmark是智元继开源百万真机数据集

2024-10-31

等,如今也有了团体标准。 10月28日,国家地方共建人形机器人创新中心(下称国地中心)联合行业内头部企业和机构,在上海率先发布全国首批人形机器人具身智能标准。 人形机器人市场正快速发展,出现了不同结构、不同

2025-05-08

已与清华大学叉院的 ISRLab 合作,开源了首个 AIGC 生成式机器人大模型 VPP(Video Prediction Policy)。“利用预训练视频生成大模型,让 AIGC 的魔力从数字世界走进具身智能的物理世界,就好比机器人界的 Sora!” 论文地址:https

2023-11-04

大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面

2024-08-16

型等开源技术,如何通过模块化建造方法,实现具身智能机器人系统的创新与发展。 他提到,未来的具身智能机器人,其物理系统的复杂度非常高, 要走入千行百业还面临诸多挑战,其中三个方面要重点关注:一是开发高性能

2025-04-08

理式AI”时代。 相比于生成式AI主要以语言大模型与聊天机器人的形式呈现、聚焦生成文本和图像内容等,代理式AI更进一步,能理解任务、进行复杂推理、制定计划并自主执行多步骤操作,业内热议的智能体即为相关应用。由

2023-10-26

,并将为各种AI实际应用奠定坚实基础。PonderV2代码同时开源。 PonderV2具有深度理解和感知三维真实世界的能力,并为广泛的三维应用提供强大支持。在预训练方面,该预训练与模型具备以下四项核心优势。 统一的预训练方式

2023-07-19

6月发布了7B预训练底座模型后,百川智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。 目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间

2023-03-02

动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“新Linux”开源开放生态。 北京

2024-07-11

,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为77。 通义千问(Qwen2-72B)既是排名最高的中国大模型,也是全球最强的开源大模型,性能超越文心一言4.0、讯飞星火V4.0、Llama-3-70B

2025-04-11

字节跳动豆包大模型团队宣布开源首个多语言类 SWE 数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。 据介绍,在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈

2023-07-27

GLM 技术团队宣布开源最新的代码模型 CodeGeeX2-6B。CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型,基于 ChatGLM2 架构注入代码实现。 我们希望每一位程序员,都能在自己机器上跑上一个自己的编程助手。为实现这一目标