智元机器人开源 EVAC 框架与 EWMBench 评测基准


智元机器人宣布开源全球首个基于机器人动作序列驱动的具身世界模型EVAC (EnerVerse-AC),以及具身世界模型评测基准EWMBench。

根据介绍,EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。

EVAC基于前序工作 EnerVerse 架构持续演进,创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几个方面:

  • 机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为action map,确保物理动作与图像帧的像素级对齐,精准建模 “抓取”、“放置”、“碰撞”、“推拉”、“快速抛掷”、“缓慢摇晃” 等复杂动力学行为;
  • 动态多视图建模:引入Ray Map编码相机运动轨迹,支持头部 、腕部等多视角协同生成一致且连贯的视觉场景,赋予机器人更全面的环境生成能力。;
  • 卓越的长时序一致性:采用 Chunk-Wise 自回归扩散架构与稀疏记忆机制(Sparse Memory),EVAC能够实现单视图稳定生成长达 30 个连续片段、多视图下亦可维持 10 个连续片段的无漂移稳定输出,保证了模拟过程在时间轴上的连贯性与真实性;
  • 数据高效利用:融合 Agibot-World 数据集 + 失败轨迹(如抓取滑脱、路径碰撞)提升生成质量,该策略能有效抑制幻觉现象,使模型能更合理、更全面地建模机器人与环境的交互动态。

针对机器人操作场景的复杂性与特殊性,EWMBench构建了立体化的评估体系,从场景一致性、动作合理性 与 语义对齐与多样性 三大核心指标进行分析:

  • 场景一致性Scene Consistency:评估生成场景中背景/物体/视角等稳固度与真实性,采用微调过的DINOv2特征进行量化。
  • 动作合理性Motion Correctness:利用HSD (Symmetric Hausdorff Distance), nDTW (normalized Dynamic Time Warping) 和 Dynamics Score 三重互补指标协同精确评估生成动作的合理性与动力学真实度。
  • 语义对齐与多样性Semantic Alignment & Diversity:结合MLLM(多模态大模型)和CLIP从全局指令对齐度、关键步骤语义准确性、逻辑合理性等多个层次对生成视频进行语义理解评估。

相较于当前主流视频生成评测基准 VBench,EWMBench 在评测结果与人类主观判断的一致性方面表现更优,能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。


相關推薦

2025-05-23

近日,智元机器人重磅发布具身智能领域双重里程碑式突破:在去年发布的机器人4D世界模型基础上,推出动作序列驱动的世界模型框架 EVAC(EnerVerse-AC),同时配套提出全球首个具身世界模型评测基准 EWMBench,构建从世界模型

2025-04-24

智元机器人宣布推出并开源基于仿真功能的模型评测和验证工具Genie Sim Benchmark,专注为具身AI模型提供精准的性能测试和优化支持。 “作为Genie Sim(智元仿真平台)的开源评测版本,Genie Sim Benchmark是智元继开源百万真机数据集

2024-09-27

稚晖君创业公司智元机器人宣布,其自主研发的机器人中间件 AimRT 已正式开源上线,兑现在 8 月 18 日智元2024新品发布会上的开源承诺。 开源地址 官网链接:https://aimrt.org/zh/ 文档链接:https://docs.aimrt.org/index.html Gitee 链

2023-07-19

6月发布了7B预训练底座模型后,百川智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。 目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间

2024-07-11

,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为77。 通义千问(Qwen2-72B)既是排名最高的中国大模型,也是全球最强的开源大模型,性能超越文心一言4.0、讯飞星火V4.0、Llama-3-70B

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面

2025-04-11

字节跳动豆包大模型团队宣布开源首个多语言类 SWE 数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。 据介绍,在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈

2023-08-02

环境 MacBook Pro (M1) JDK 17 JMH 1.36 运行在本机 Docker 内的 mariadb:10.6.4 运行 基准测试代码: https://gitee.com/AhooWang/CosId/tree/main/cosid-benchmark git clone [email protected]:Ahoo-Wang/CosId.git cd cosid-benchmark ./gradlew jmh or gradle

2023-07-27

GLM 技术团队宣布开源最新的代码模型 CodeGeeX2-6B。CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型,基于 ChatGLM2 架构注入代码实现。 我们希望每一位程序员,都能在自己机器上跑上一个自己的编程助手。为实现这一目标

2023-11-04

大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落

2025-04-16

有消息称,OpenAI在刚刚发布的GPT-4.1系列模型中评测其函数调用能力时采用了ComplexFuncBench,这是由智谱团队提出的专用于评估大模型复杂函数调用能力的测试基准。 ComplexFuncBench主要评测大模型在128K的长上下文下进行多步带约

2023-03-02

动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“新Linux”开源开放生态。 北京

2023-10-26

,并将为各种AI实际应用奠定坚实基础。PonderV2代码同时开源。 PonderV2具有深度理解和感知三维真实世界的能力,并为广泛的三维应用提供强大支持。在预训练方面,该预训练与模型具备以下四项核心优势。 统一的预训练方式

2025-04-25

继开源 Skywork-R1V 后,昆仑万维宣布再开源多模态推理模型的全新升级版本 —— Skywork-R1V 2.0(简称 R1V 2.0) 。 公告称,Skywork-R1V 2.0 是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度