北京人形发布具身世界模型体系


北京人形宣布发布了四项具身智能核心成果,包括:具身世界模型体系,打通认知与预判能力;跨本体VLA模型,实现跨本体、多场景、多技能的通用性;人形机器人全身控制自主导航系统,解决移动与操作协同的执行瓶颈;以及千台机器人真实场景数据采集计划,为持续进化提供规模化数据燃料。

其中,“具身世界模型体系”旨在为机器人理解现实与预测变化提供核心大脑。这一体系包含具备物理时空理解与推理能力的72B具身多模态大模型以及实现神经网络驱动世界模拟器的具身智能世界基座模型。

针对通用大模型具身场景下精细空间/几何理解不足,物理交互误差大等问题,北京人形基于千问72B多模态大模型,通过自研数据清洗与混合模态训练框架,实现行业首个长视频理解72B具身多模态大模型PelicanVLM,在现代多模态系统超长视频语言理解评测集Egoschema、李飞飞的视觉空间智能基准评测集VSI-Bench,多模态大模型物理推理能力大规模基准测试集PhyX等6项具身相关公开评测集上超越GPT-4o、Gemini flash 2.0以及原模型,7个公开评测基准平均性能超过SOTA 11%。

基于超过5000小时视频数据训练的具身世界模型WU,则为具身智能机器人提供了“看见未来”的眼睛,并以未见场景下的泛化能力,解锁具身无限数据的可能性。

“跨本体VLA模型”成为通用性和扩展性的关键支撑。北京人形正式发布跨本体VLA模型 XR-1,让同一模型实现跨本体运行、多场景适配、多技能调用。在业界充分验证的 RoboMIND 高质量具身数据基础上,XR-1 通过积累超百万量级的自有多本体数据,采用首创的多模态视动统一表征学习,有效利用各类机器人操作数据和海量互联网视频数据。

在此基础上,XR-1 利用多模态视动统一表征训练、跨本体主网络训练和特定场景微调三阶段训练范式,实现机器人跨本体的通用操作知识积累和特定场景的多任务快速学习。在多种机器人本体上大量真实环境测试,实证了该方法的多本体、多技能、多任务、稳健泛化能力,以及其在快速掌握新技能上的巨大潜力。以 XR-1 为基础,“慧思开物”能够快速构建面向各类场景任务的通用技能库,实现多本体、多场景、多任务的能力,显著减少具身智能应用开发的成本与用时。

“人形机器人全身控制自主导航系统”聚焦机器人在实际工作中的核心能力,由“自主导航系统”和“全身控制系统”组成。自主导航系统具备点对点导航、动态障碍感知和自主避障能力,并搭载OCC环视感知模块,实现对环境的实时占用与语义感知,拓展了自主与语义导航的应用空间。

全身控制系统支持机器人在移动和站立状态下灵活进行上身动作控制,涵盖预设动作、遥操作与自主操作开发。通过稳定的质心控制与精准的末端控制,保障操作任务的稳定高效执行。

“千台机器人真实场景数据采集计划”是业内首个千台级规模的真实场景数据采集计划,通过搭建远程遥操作中心,让千台机器人走出实验室,深入工厂车间、物流仓储、酒店商超等真实工业场景,在执行实际作业任务的同时,持续采集多模态交互数据。


相關推薦

2025-04-08

”创新工场董事长兼零一万物首席执行官李开复3月底在北京举行的2025中关村论坛年会上说。 得益于AI大模型的不断发展,具身智能也在今年进入了迅猛发展期。具身智能是一种将AI融入机器人等物理实体的AI技术,目的是使其具

2025-08-05

学会理事长徐晓兰介绍,自2015年首届世界机器人大会在北京召开以来,我国机器人产业实现一系列科技创新突破。2024年,我国机器人专利申请量占全球机器人专利申请总量的2/3。 产业发展方面,我国是全球第一大机器人生产

2024-10-31

外观等,如今也有了团体标准。 10月28日,国家地方共建人形机器人创新中心(下称国地中心)联合行业内头部企业和机构,在上海率先发布全国首批人形机器人具身智能标准。 人形机器人市场正快速发展,出现了不同结构、

2025-04-02

裁员状况。 达闼于2015年创立,全球总部位于上海,并在北京、成都等地设立分支机构。资料显示,2023年,达闼获得超10亿元人民币C轮融资。 针对上述传闻,达闼创始人、董事长兼CEO黄晓庆对21世纪经济报道记者表示,公司

2025-05-09

据北京人形机器人创新中心公众号消息,2025年4月,北京人形机器人开源社区已正式上线,包含博客、论坛交流、技术文档展示、开源项目展示、活动发布、专家学者认证、开源课程发布等丰富功能。 通过开放共享核心技术与

2025-05-23

近日,智元机器人重磅发布具身智能领域双重里程碑式突破:在去年发布的机器人4D世界模型基础上,推出动作序列驱动的世界模型框架 EVAC(EnerVerse-AC),同时配套提出全球首个具身世界模型评测基准 EWMBench,构建从世界模型

2025-05-08

大减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。 VPP 将视频扩散模型的泛化能力转移到了通用机器人操作策略中,巧妙解决了 diffusion 推理速度

2025-06-07

北京智源人工智能研究院正式发布跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0,并全面开源,包括框架代码、模型权重、数据集与评测基准。 跨本体具身大小脑协作框架 RoboOS 2.0 是全球首个基于具身智能SaaS平台

2025-08-01

级和商用级四足机器人,市场出货量稳步增长。 当前,人形机器人正处于技术快速创新阶段,市场整体保持强劲增长,IDC预测2025年中国人形机器人商用销售出货量预计约5千台,2030年将增至近6万台,年复合增长率超95%。 2024年

2025-04-24

仿真功能的模型评测和验证工具Genie Sim Benchmark,专注为具身AI模型提供精准的性能测试和优化支持。 “作为Genie Sim(智元仿真平台)的开源评测版本,Genie Sim Benchmark是智元继开源百万真机数据集和海量仿真数据集后,又一里程

2024-08-16

。主论坛总体围绕开源生态合作与发展、 RISC-V、多模态具身智能、深度学习平台、企业引入开源、开源 AI 发展、垂域大模型技术等话题展开主题演讲。 2024 GOTC × GOGC 将 GOTC(全球开源技术峰会)与 GOGC(全球开源极客嘉年华)

2025-07-29

地,同比分别实现了12.3%和11.9%的增长,引领作用突出。北京、上海、江苏、山东、广东5个软件重点省市的地位依然稳固。 “软件业应用融合度高,软件产品已融入经济社会各个领域数智化进程。”赛智产业研究院院长赵刚介

2025-05-21

智元机器人宣布开源全球首个基于机器人动作序列驱动的具身世界模型EVAC (EnerVerse-AC),以及具身世界模型评测基准EWMBench。 根据介绍,EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模

2025-07-29

商汤科技在 WAIC 2025 大模型论坛上正式发布「悟能」具身智能平台。 「悟能」以商汤“开悟”世界模型为核心引擎,依托商汤大装置提供的端侧和云侧算力支持,目标为机器人、智能设备赋予感知、视觉导航及多模态交互能力