空间理解模型 SpatialLM 正式发布首份技术报告


近日,空间理解模型SpatialLM正式发布首份技术报告。这一模型此前曾与DeepSeek-V3、通义千问Qwen2.5-Omni一起登上全球最大的开源社区HuggingFace全球趋势榜前三。

作为一款将大语言模型扩展到3D空间理解任务中的模型,SpatialLM能从3D点云输入生成结构化的空间场景描述,这一过程突破了大语言模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力,为具身智能等相关领域提供空间理解基础训练框架。

在开源后经过广泛的实际验证,本次技术报告聚焦SpatialLM 1.1升级版本,其不仅包含了详细的消融实验与训练配方,还在点云编码方式、分辨率、用户指定识别类目等维度上实现优化。

多项基准测试数据显示:该模型在任务数据集微调后,在空间布局识别、3D物体检测任务中,均达到了相比与最新专业模型持平或更优的效果。

本次报告重点围绕算法框架训练数据两方面展开。

在算法架构方面,SpatialLM将大语言模型(LLMs)扩展到3D空间理解任务中,特别在结构化室内建模领域实现了重要突破。

这一技术路线打破了传统任务专属架构(task-specific architecture)的限制,创新性地采用可编辑的文本形式表达场景结构。这一创新设计具有双重技术优势:

一方面发挥了群核科技强大数据集能力,通过持续训练不断优化空间识别精度;另一方面通过接入大语言模型,系统可直接接收并理解自然语言指令,使空间理解模型从简单任务执行工具转变为能够真正理解用户意图的智能系统,从而推进了LLMs在空间理解和推理方向的能力边界。

SpatialLM 模型的网络结构

在训练数据方面,SpatialLM构建了一个全新的包含3D结构化信息的合成点云数据集,打破了真实数据稀缺且难以标注的局限。

 

该数据集包含超1.2万场景、5.4万个房间的结构化室内点云数据,其规模远超ScanNet(仅包含1,513个场景)等现有数据集。所有数据均源自真实项目的专业设计模型,经严格筛选与解析后形成符合真实世界统计分布的虚拟环境,相较程序化生成的ProcTHOR等数据集具有更高真实性。

项目地址:https://manycore-research.github.io/SpatialLM/
报告详情:https://arxiv.org/abs/2506.07491


相關推薦

2023-08-02

系统的完整安全审计方面取得了重大进展 完成多个威胁模型,使 Rust 基金会和 Rust 项目能够更好地了解安全审计发现的风险 开发了多种新工具来增强 Rust 维护人员的安全工作流程并更深入地了解漏洞,包括 Painter。 crates.io

2025-04-03

wen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频和视频等多种模态,同时以流式方式生成文本和自然语音响应。开发团队表示,他们对

2023-08-11

关的主题和背景,如诗歌、方言等,具备更强的国内落地空间。 在安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率78.18%,与GPT-4并列排名第一,远超其他大语言模型。报告显示,文心

2025-07-25

ed LiveInterpret 2.0 已初步展现出一定优势,其边界仍有拓展空间。比如,在语言覆盖方面,目前模型主要支持中英互译,其他语种尚未较好支持。此外,其声音复刻的稳定性、语音表现力、情绪复刻能力、极复杂情况下的翻译准确

2025-06-07

不错,但项目团也承认,其在指令遵循方面仍有一定提升空间。未来除进一步优化编辑性能外,团队还将探索更丰富的编辑操作,让模型拥有连续多图生成、多张图像合成、故事性内容生成等能力。 更多详情可查看官方公告。

2025-05-15

。 Qwen3模型在多项基准测试中表现出色,包括自然语言理解、代码生成、数学推理和多语言能力。 例如,Qwen3-72B在MMLU、GSM8K、HumanEval等多个权威评测中取得了领先成绩。报告还强调了Qwen3在多模态能力、Agent能力以及与外部工

2025-08-05

高德地图正式宣布其全面 AI 化,结合前沿的空间智能技术,推出了全球首个 AI 原生地图应用 —— 高德地图 2025。 公告称,高德地图 2025 旨在打造具备深度时空理解和自主推理决策能力的一体化出行生活智能体,以及AI领航、AI

2025-05-23

amba架构处理长序列的高效性与Transformer架构卓越的上下文理解能力。这两种架构的结合,旨在取长补短,实现性能与效率的最大化。模型包含128层,采用了创新的“AMF”(Attention → Mamba2 → FFN)和“MF”(Mamba2 → FFN)模块交错

2025-07-30

局部可控注意力机制等创新技术。同时,通过融合多模态理解信息和联合图文交织数据训练,显著提升了模型对文本指令和输入条件图像视频的感知能力。这意味着模型不仅能生成高质量的图像视频,还能进行多轮对话式高可控

2024-07-07

力,它基于大语言模型与跨模态模型实现精准的用户意图理解,可以支持古诗词等中文特色的内容理解与生成,并且基于用户反馈持续优化,图像生成效果更贴近大众艺术审美了,支持海量全球艺术风格的生成。 据悉,快手搭

2025-08-07

到 60 分,说明在提供更深层次的 SQL 优化上仍有较大提升空间。 方言转换与 SQL 理解表现 : 分别以 77.1 分和 79.3 分位列第五和第六。在方言转换的细分项中,其 国产数据库转换能力 (97.4 分)表现亮眼,几乎达到顶尖水平

2023-02-17

JFrog 最新发布了首份年度 Software Artifact State of the Union 报告,基于来自全球 7000+ 不同规模企业的数据;揭露了当今企业开发人员在将软件从设计到生产过程中最常用的软件包和二进制文件。报告评估的 Top 10 顶级软件技术(2021

2025-04-02

以及以智能体为标志的应用创新全面发展,从专利视角去理解、发现生成式人工智能全栈技术创新当前的最新发展态势,旨在为突破现有短板和寻求创新路径提供借鉴。 一是我国生成式人工智能技术栈基础层(智能芯片和软件

2025-06-17

求[3]。 2. 多模态能力增强 现代AI编程工具开始支持图像理解、自然语言到代码的转换,以及跨文件的上下文理解。Cursor AI等工具可以处理图像输入并将其转换为代码[4]。 3. 企业级安全与合规 随着企业采用率的提升,安全性和