Vision-R1:强化学习助力视觉定位,图文模型性能提升 50%


中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。

当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。该方法通过设计一种视觉任务评估驱动的奖励机制,为模型的目标定位能力提供了强有力的支持。

具体而言,Vision-R1的奖励机制包括四个核心部分:首先,它采用了多目标预测的方式,以确保在密集场景中有效评估预测质量;其次,设计了双重格式奖励,以解决长序列预测中的格式错误问题;再者,召回奖励鼓励模型尽可能多地识别目标;最后,精度奖励则确保模型生成的目标框质量更高。这些设计相互作用,形成了 “1+1>2” 的优化效果,使模型在复杂视觉任务中表现更为出色。

为了解决预测高质量目标框的挑战,研究团队还提出了一种渐进式规则调整策略,通过动态调整奖励计算规则,促使模型持续改进其性能。训练过程分为初学阶段和进阶阶段,逐步提高奖励标准,以实现从基础到高精度的转变。

在一系列测试中,Vision-R1在经典目标检测数据集 COCO 和多样场景的 ODINW-13上显示出卓越的性能,无论是基础性能如何,经过 Vision-R1训练后,模型的表现都大幅提升,进一步接近专业定位模型。


相關推薦

2025-08-08

将继续优化模型。他们计划扩大跨模态数据规模,并引入强化学习等前沿算法,进一步提升推理泛化能力。通过开源 dots.vlm1,小红书致力于为多模态大模型生态系统带来新的动力,推动行业发展。

2025-07-30

配比预训练数据与全流程治理体系,其推理能力得到显著强化。 该模型还创新构建了113域 ×53能力的二维分级后训练框架,结合动态强化学习策略,使复杂推理能力提升了 35%。测评结果显示,“九天”语言大模型: 在&nb

2025-07-23

复杂任务机器人数据)进一步提升泛化能力。同时,引入强化学习(RL)方法突破模仿学习局限,使机器人在遇到物体滑落等突发情况时能自主调整策略,增强抗干扰能力。 字节跳动Seed团队表示,GR-3的研发旨在解决传统机器人“

2023-09-07

和大语言模型完全冻结,保持视觉模型在前置CLIP训练中学习到的视觉特征不损失,大语言模型的语言能力不损失。同时为了更好的关联视觉特征和语言特征,模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器

2025-04-22

有化部署简便;全新升级模型定制优化工具链,支持SFT、强化学习两种模型定制优化方案,定制门槛低。 ✨三大核心技术创新——大规模多阶段强化学习训练方法、基于快慢思考的统一训练方法、工程技术系统创新保障基于国

2023-08-26

京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/s

2025-07-10

维宣布发布并开源Skywork-R1V 3.0版本。其在后训练阶段通过强化学习策略深度激发模型的跨模态推理能力,在复杂逻辑建模与跨学科泛化方面实现双重飞跃。 公告介绍称,Skywork-R1V 3.0是昆仑万维多模态模型体系的关键节点与核心

2025-08-02

umanoidKick 算法面向人形机器人硬件,通过基于视觉的深度强化学习,实现了“找球 - 追球 - 踢球”全过程的统一策略,在实际足球比赛中验证有效。 HumanoidKick 算法尝试解决以下三项实际挑战: 从视觉到行动的实时联动:

2025-07-08

ra V3 基于B站此前开源的 CogVideoX-5B 和 Wan2.1-14B 模型,结合强化学习与人类反馈(RLHF)框架,显著提升了生成视频的视觉质量和动作一致性。其支持一键生成多种风格的动漫视频镜头,包括番剧片段、国创动画、漫画视频改编、VT

2025-06-28

的架构设计也因此变得简洁。 同时,Agent TARS 关注并学习了 AG-UI 协议,并说明了 Agent Event Stream 在构建上下文方面的差异化优势。 新版本的主要特性包括: Agent TARS CLI:取代了 Electron 应用,具有更容易更新迭代

2023-06-29

6月28日,上海世界移动通信大会期间,中国联通发布图文大模型“鸿湖图文大模型1.0”,并表示这是首个面向运营商增值业务的大模型。 鸿湖图文大模型目前拥有8亿训练参数和20亿训练参数两个版本,可以实现以文生图、视频

2025-05-15

合思 AI费控系统为例,其自研的多模态识别引擎采用深度学习与计算机视觉技术的深度融合,不仅能够快速处理常见的增值税发票、火车票等票据,还能高效识别出租车小票、境外发票等复杂票据,覆盖票据类型超过 99%。该引

2025-07-17

动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路

2025-04-25

提升模型泛化能力;选择性样本缓冲区机制(SSB),突破强化学习“优势消失”瓶颈。 基准测试结果表明,R1V 2.0 相较于 R1V 1.0 在文本与视觉推理任务中均实现显著跃升。 在 MMMU 上取得 73.6 分,刷新开源 SOTA 纪录; 在 Oly