空间理解模型 SpatialLM 正式发布首份技术报告


近日,空间理解模型SpatialLM正式发布首份技术报告。这一模型此前曾与DeepSeek-V3、通义千问Qwen2.5-Omni一起登上全球最大的开源社区HuggingFace全球趋势榜前三。

作为一款将大语言模型扩展到3D空间理解任务中的模型,SpatialLM能从3D点云输入生成结构化的空间场景描述,这一过程突破了大语言模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力,为具身智能等相关领域提供空间理解基础训练框架。

在开源后经过广泛的实际验证,本次技术报告聚焦SpatialLM 1.1升级版本,其不仅包含了详细的消融实验与训练配方,还在点云编码方式、分辨率、用户指定识别类目等维度上实现优化。

多项基准测试数据显示:该模型在任务数据集微调后,在空间布局识别、3D物体检测任务中,均达到了相比与最新专业模型持平或更优的效果。

本次报告重点围绕算法框架训练数据两方面展开。

在算法架构方面,SpatialLM将大语言模型(LLMs)扩展到3D空间理解任务中,特别在结构化室内建模领域实现了重要突破。

这一技术路线打破了传统任务专属架构(task-specific architecture)的限制,创新性地采用可编辑的文本形式表达场景结构。这一创新设计具有双重技术优势:

一方面发挥了群核科技强大数据集能力,通过持续训练不断优化空间识别精度;另一方面通过接入大语言模型,系统可直接接收并理解自然语言指令,使空间理解模型从简单任务执行工具转变为能够真正理解用户意图的智能系统,从而推进了LLMs在空间理解和推理方向的能力边界。

SpatialLM 模型的网络结构

在训练数据方面,SpatialLM构建了一个全新的包含3D结构化信息的合成点云数据集,打破了真实数据稀缺且难以标注的局限。

 

该数据集包含超1.2万场景、5.4万个房间的结构化室内点云数据,其规模远超ScanNet(仅包含1,513个场景)等现有数据集。所有数据均源自真实项目的专业设计模型,经严格筛选与解析后形成符合真实世界统计分布的虚拟环境,相较程序化生成的ProcTHOR等数据集具有更高真实性。

项目地址:https://manycore-research.github.io/SpatialLM/
报告详情:https://arxiv.org/abs/2506.07491


相關推薦

2023-08-02

系统的完整安全审计方面取得了重大进展 完成多个威胁模型,使 Rust 基金会和 Rust 项目能够更好地了解安全审计发现的风险 开发了多种新工具来增强 Rust 维护人员的安全工作流程并更深入地了解漏洞,包括 Painter。 crates.io

2023-08-11

关的主题和背景,如诗歌、方言等,具备更强的国内落地空间。 在安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率78.18%,与GPT-4并列排名第一,远超其他大语言模型。报告显示,文心

2025-04-03

wen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频和视频等多种模态,同时以流式方式生成文本和自然语音响应。开发团队表示,他们对

2025-06-07

不错,但项目团也承认,其在指令遵循方面仍有一定提升空间。未来除进一步优化编辑性能外,团队还将探索更丰富的编辑操作,让模型拥有连续多图生成、多张图像合成、故事性内容生成等能力。 更多详情可查看官方公告。

2025-05-15

。 Qwen3模型在多项基准测试中表现出色,包括自然语言理解、代码生成、数学推理和多语言能力。 例如,Qwen3-72B在MMLU、GSM8K、HumanEval等多个权威评测中取得了领先成绩。报告还强调了Qwen3在多模态能力、Agent能力以及与外部工

2025-05-23

amba架构处理长序列的高效性与Transformer架构卓越的上下文理解能力。这两种架构的结合,旨在取长补短,实现性能与效率的最大化。模型包含128层,采用了创新的“AMF”(Attention → Mamba2 → FFN)和“MF”(Mamba2 → FFN)模块交错

2024-07-07

力,它基于大语言模型与跨模态模型实现精准的用户意图理解,可以支持古诗词等中文特色的内容理解与生成,并且基于用户反馈持续优化,图像生成效果更贴近大众艺术审美了,支持海量全球艺术风格的生成。 据悉,快手搭

2025-04-02

以及以智能体为标志的应用创新全面发展,从专利视角去理解、发现生成式人工智能全栈技术创新当前的最新发展态势,旨在为突破现有短板和寻求创新路径提供借鉴。 一是我国生成式人工智能技术栈基础层(智能芯片和软件

2025-06-17

求[3]。 2. 多模态能力增强 现代AI编程工具开始支持图像理解、自然语言到代码的转换,以及跨文件的上下文理解。Cursor AI等工具可以处理图像输入并将其转换为代码[4]。 3. 企业级安全与合规 随着企业采用率的提升,安全性和

2025-06-08

。 Playmate 是一种由广州趣丸科技团队提出的基于 3D 隐式空间引导扩散模型的双阶段训练框架,旨在生成高质量且可控的肖像动画视频。该方法通过解耦面部属性(如表情、唇部动作和头部姿态),结合情绪控制模块,实现了对

2023-08-06

选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。 报告以文心一言、GPT-3.5等四大知名大模型为例进行评测,结果显示百度文心一言综合得分第一,超过GPT-3.5,国内大模型排名第一。 内容

2025-05-04

待用户的指令,然后给出回应;而Agent则是一个能够主动理解用户意图,并按照用户规划的流程自主执行任务的智能助手。 5月3日,DeepChat 0.1.0 正式发布。从这个版本开始,DeepChat 从单纯的 ChatBot 向真正的 Agent 工具进化。 我们

2023-02-17

JFrog 最新发布了首份年度 Software Artifact State of the Union 报告,基于来自全球 7000+ 不同规模企业的数据;揭露了当今企业开发人员在将软件从设计到生产过程中最常用的软件包和二进制文件。报告评估的 Top 10 顶级软件技术(2021

2025-05-23

模拟的跃迁。 ▍核心能力:从 “物理执行” 到“像素空间”的精准映射 EVAC基于前序工作 EnerVerse 架构持续演进,创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几