Vision-R1:强化学习助力视觉定位,图文模型性能提升 50%


中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。

当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。该方法通过设计一种视觉任务评估驱动的奖励机制,为模型的目标定位能力提供了强有力的支持。

具体而言,Vision-R1的奖励机制包括四个核心部分:首先,它采用了多目标预测的方式,以确保在密集场景中有效评估预测质量;其次,设计了双重格式奖励,以解决长序列预测中的格式错误问题;再者,召回奖励鼓励模型尽可能多地识别目标;最后,精度奖励则确保模型生成的目标框质量更高。这些设计相互作用,形成了 “1+1>2” 的优化效果,使模型在复杂视觉任务中表现更为出色。

为了解决预测高质量目标框的挑战,研究团队还提出了一种渐进式规则调整策略,通过动态调整奖励计算规则,促使模型持续改进其性能。训练过程分为初学阶段和进阶阶段,逐步提高奖励标准,以实现从基础到高精度的转变。

在一系列测试中,Vision-R1在经典目标检测数据集 COCO 和多样场景的 ODINW-13上显示出卓越的性能,无论是基础性能如何,经过 Vision-R1训练后,模型的表现都大幅提升,进一步接近专业定位模型。


相關推薦

2023-09-07

和大语言模型完全冻结,保持视觉模型在前置CLIP训练中学习到的视觉特征不损失,大语言模型的语言能力不损失。同时为了更好的关联视觉特征和语言特征,模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器

2023-08-26

京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/s

2023-06-29

6月28日,上海世界移动通信大会期间,中国联通发布图文大模型“鸿湖图文大模型1.0”,并表示这是首个面向运营商增值业务的大模型。 鸿湖图文大模型目前拥有8亿训练参数和20亿训练参数两个版本,可以实现以文生图、视频

2024-08-16

绕开源生态合作与发展、 RISC-V、多模态具身智能、深度学习平台、企业引入开源、开源 AI 发展、垂域大模型技术等话题展开主题演讲。 2024 GOTC × GOGC 将 GOTC(全球开源技术峰会)与 GOGC(全球开源极客嘉年华)进行品牌联名,

2025-04-18

Pro; 创新提出原生多模态预训练方法,将语言和多模态学习整合于同一个预训练阶段,提升及拓展多模态能力的同时,进一步提升纯语言能力; 提出混合偏好优化算法以及多模态测试阶段增强,通过负监督修正模型响应分布

2022-09-08

作者:谦言、临在 一 导读 近年来,自监督学习和Transformer在视觉领域大放异彩。图像自监督预训练极大降低了图像任务繁重的标注工作,节省大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供

2023-08-01

预训练大模型,在此基础上采用有监督精调、人类反馈的强化学习和提示等技术,并具备知识增强、检索增强和对话增强等技术优势。 王海峰解读了文心大模型3.5的核心技术创新,通过飞桨与文心协同优化,文心大模型3.5实

2023-10-21

在现有数据湖上的模型训练和服务性能。用于模型训练的强化 API 集可实现优于商业化对象存储 20 倍的性能。对于模型服务,Alluxio 提供超高并发性,在将离线训练集群中的模型用于在线推理时实现高达 10 倍的速度提升。 适合

2024-07-02

人工智能客服的模块,也提供各种深度学习,机器学习,强化学习,启发式学习,矩阵运算,等底层算法工具。开发者可以通过简单的学习,就能完成根据自身业务,深度开发符合自己业务的小微模型 EasyAI码云下载链接:https

2025-04-18

可直接输出 2K 分辨率图像,从手机端到巨幅海报场景的视觉需求均可满足; 3 秒出图,大幅提升创作效率:面向海报设计、视觉创意等需求,可实现 3 秒左右快速生成高品质图像,实现「所想即所得」的实时创意交互; 小字

2025-03-25

d 属性,优化结构体内存对齐效率。 代码健壮性优化 a. 强化线程创建时的参数校验,防止非法时间片参数导致的系统异常。 b. 修复 rt_exit_critical_safe 返回值误用问题,确保临界区保护逻辑可靠。 调试与诊断新利器 a. 新增CPU/

2022-09-16

Google 开发技术推广工程师 Sumit Chandel 指出今年将进一步强化 Firebase 与谷歌颇受欢迎的开发产品之间相互集成,让开发者能够放心地在 Firebase 中与开放生态圈内的工具协同工作,提升跨平台应用开发效率。 今年&nb

2023-03-01

化,精准应对潮汐峰谷 在低代码平台上体验 AI 机器学习,满足从数据准备、模型训练、到模型发布的全链路需求 目前该项目已在多家金融企业场景中投入使用。以某金融机构为例,其数据平台 IT 部门希望提升数仓平台

2025-03-27

高 新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。 新版 V3 模型的百科知识(MMLU-Pro, GPQA)、数学(M