中山大学联合美团打造 X-SAM 模型


中山大学、鹏城实验室与美团三方联合研发的X-SAM图像分割模型近期正式发布,这款多模态大模型在图像分割领域实现了重要突破,将传统的"分割万物"能力升级为"任意分割",显著提升了模型的适应性和应用范围。

传统的Segment Anything Model(SAM)虽然在生成密集分割掩码方面表现出色,但其只能接受单一视觉提示输入的设计局限性明显。针对这一技术瓶颈,研究团队创新性地提出了视觉定位分割(Visual Grounded Segmentation, VGS)任务框架,通过交互式视觉提示实现对所有实例对象的精确分割,为多模态大语言模型提供了像素级的理解能力。

X-SAM的技术架构采用了多项创新设计。模型支持统一的输入格式和输出表示,能够处理多种类型的视觉和文本查询输入。其核心的双编码器架构确保了对图像内容和分割特征的深度理解,而分割连接器则提供多尺度信息融合,大幅提升分割精度。

最值得关注的是,X-SAM集成了最新的Mask2Former架构作为分割解码器,这使得模型能够在单次操作中同时分割多个目标对象,彻底突破了传统SAM只能处理单一对象的技术限制。这一改进不仅提高了处理效率,也为复杂场景下的批量分割任务提供了可能。

在模型训练方面,研究团队采用了三阶段渐进式训练策略,通过逐步增强的学习过程确保模型性能的稳定提升。经过在20多个主流分割数据集上的全面测试,X-SAM在对话生成分割任务和图文理解任务中均取得了领先的性能表现,验证了其技术方案的有效性。

X-SAM的发布为图像分割技术发展指明了新方向,也为构建更加智能的通用视觉理解系统提供了重要的技术基础。研究团队表示,下一步将重点探索该技术在视频领域的应用拓展,推动图像与视频分割技术的统一化发展,进一步提升机器视觉理解能力的边界。

这项研究成果不仅在学术层面具有重要意义,其在自动驾驶、医疗影像、工业检测等实际应用场景中的潜力也值得期待。


相關推薦

2023-03-28

3 月 27 日消息,据“亲爱的数据”独家获悉,前美团联合创始人王慧文团队“正在收购”国产 AI 框架 OneFlow。 OneFlow 是一个采用全新架构设计的工业级通用开源深度学习框架,采用了 Apache 2.0 License。OneFlow 率先提出了静态调度

2023-07-22

本由约 1480.69 万人民币增至约 1652.86 万人民币。股东新增美团旗下天津三快科技有限公司,持股 10.42%。 北京智谱华章科技有限公司于 2019 年 6 月成立,法定代表人为刘德兵,经营范围含技术服务、人工智能基础软件开发、人工

2023-09-22

参与投资。在此之前,智谱AI曾完成B-2轮数亿元融资,由美团战投独家投资。   智谱 AI 是由清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模

2023-10-21

保基金中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等多家机构及包括君联资本在内的部分老股东跟投,华兴担任独家财务顾问。公告称,上述

2023-07-01

力于推动实现 AGI(通用人工智能)与普惠人类。由美团联合创始人、前董事及关联人士王慧文创立及控制,光年之外集团的净现金为 2.85 亿美元。日前,光年之外联合创始人王慧文曾因身体原因离岗就医及休养,引发外界诸多

2023-12-06

由 100 万人民币增至约 105.26 万人民币。 王慧文是美团联合创始人、原非执行董事。 硅动科技成立于今年 8 月。目前,该公司法人、执行董事、经理均为 OneFlow 创始人袁进辉。公司经营范围含软件开发、技术进出口、电子产

2025-08-02

由清华大学语音与语言实验室 (Tencent AI Lab) 联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD (Text to Spoken Dialogue) 近日正式开源。 这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40

2023-03-02

代人工智能重大科技项目支持下,2023年初,智源研究院联合30多家产学研单位共同承担的旗舰项目“人工智能基础模型支撑平台与评测技术”全面启动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全

2025-08-15

香港大学 XLANG Lab 联合月之暗面、斯坦福大学等机构,正式开源了一个名为 OpenCUA 的完整框架,旨在帮助开发者低门槛地构建和扩展 CUA(Computer-Use Agent,计算机使用智能体)。 该框架包括: 无缝捕获人类计算机使用演示的

2025-05-21

据智能涌现消息,美团正在加速其AI战略布局,即将推出一款名为“NoCode”的AI编程工具,并已悄然注册了“nocode.cn”域名,目前该网站正处于灰度测试阶段,预示这款面向非技术用户的全新产品即将正式面世。 该工具由美团研

2023-02-24

持续发展的开源生态越来越受到关注。 开源指南针平台联合了华为、北京大学、南京大学、开源PHP等产业和学术界的中坚力量,共同开展学术研究和技术开发。开源指南针平台立足开源,针对开源生态的健康开展度量和分析,

2023-11-04

深言科技与清华大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发

2025-05-14

苹果公司联合复旦大学,推出 StreamBridge 端侧视频大语言模型(Video-LLMs)框架,助力 AI 理解直播流视频。该框架通过内存缓冲区和轮次衰减压缩策略,支持长上下文交互。 该框架还引入了一个轻量化的独立激活模型,无缝集

2023-11-10

华为近日宣布,与西北工业大学联合研发的首个面向飞行器的流体力学大模型“秦岭・翱翔”现已正式发布。 秦岭・翱翔大模型是西工大流体力学智能化国际联合研究所携手华为 AI4Sci Lab 在国产开源流体计算软件风雷的基础