Skywork-R1V 2.0 版本再开源,最强高考数理解题利器


继开源 Skywork-R1V 后,昆仑万维宣布再开源多模态推理模型的全新升级版本 —— Skywork-R1V 2.0(简称 R1V 2.0) 。

公告称,Skywork-R1V 2.0 是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度推理与通用任务场景中均表现优异,真正实现多模态大模型的“深度 + 广度”统一。

R1V 2.0 模型亮点

  • 中文场景领跑:理科学科题目(数学/物理/化学)推理效果拔群,打造免费AI解题助手;
  • 开源巅峰:38B 权重 + 技术报告全面开源,推动多模态生态建设;
  • 技术创新标杆:多模态奖励模型(Skywork‑VL Reward) 与 混合偏好优化机制(MPO),全面提升模型泛化能力;选择性样本缓冲区机制(SSB),突破强化学习“优势消失”瓶颈。

基准测试结果表明,R1V 2.0 相较于 R1V 1.0 在文本与视觉推理任务中均实现显著跃升。

  • 在 MMMU 上取得 73.6 分,刷新开源 SOTA 纪录;
  • 在 Olympiad Bench 上达到 62.6 分,显著领先其他开源模型;
  • 在 MathVision、MMMU-PRO 与 MathVista 等多项视觉推理榜单中均表现优异,多项能力已可媲美闭源商业模型,堪称当前开源多模态推理模型中的佼佼者。

在文本推理方面,在 AIME2024 和 LiveCodeBench 等挑战中,R1V 2.0 分别取得了78.9 分和 63.6 分,展现出了人类专家级数学与代码理解能力。在与专用文本推理模型对比中,R1V2.0 同样展现出卓越的文本推理能力。

R1V 2.0 引入了全新的「多模态奖励模型 Skywork-VL Reward」及「规则驱动的混合强化训练机制」。在显著增强推理能力的同时,进一步稳固了模型在多任务、多模态场景中的稳定表现与泛化能力。

Skywork-VL Reward 在多个权威评测榜单中表现优异:在视觉奖励模型评测榜单 VL-RewardBench 中取得了 73.1 的SOTA成绩,同时在纯文本奖励模型评测榜单 RewardBench 中也斩获了高达 90.1 的优异分数。

目前,Skywork-VL Reward 也已完整开源。

此外,R1V 2.0 还引入了 MPO(Mixed Preference Optimization,混合偏好优化) 机制,并在偏好训练中充分发挥 Skywork-VL Reward 奖励模型的指导作用。


相關推薦

2023-07-18

7月,Ethereal 在经历几次开发暂停后,终于发布其第一个版本v0.2.0。此后,Combs 收到了来自全世界的补丁、错误报告与鼓励信件。Ethereal 的发展就此开始。不久之后,Gilbert Ramirez 看到了它的潜力并贡献了一个底层的解析器。 1998

2023-03-20

了功能展示。 文学创作; 商业文案的创作; 数理逻辑的推算; 中文的理解; 多模态生成; 目前用户在体验 ChatGPT 这样的生成式 AI 时会发现一个问题,那就是即便有事实依据,AI 依然会一本正经地胡说八

2024-07-05

FT和post pretrain,结果有了明显的提升,最近又转到文心4.0版本,仅用了数百条数据,4.0就在情节和逻辑方面展现出了非凡的优势,生成的内容无论是可用率还是优质率都大大超过了轻量级模型,网文作者们如虎添翼! 其实更通

2024-08-17

消息: 近日,新城区公安分局警支大队接到报警,称高考志愿被他人恶意篡改。因为是自治区首起,警支大队即刻针对该案组织开展案情分析会,结合全国此类案件的判例进行分析,摸清案件脉络,讨论研究对此类新型网络

2023-03-23

2023-03-23 新增解题方式选项,提供口算解题和竖式解题.口算解题为原有逻辑,选择竖式解题生成的数学题目之间会留有空白来给学生列竖式,感谢 @tsukasa521 当我们的代码仓库需要更新时,总有一些程序员会挺身而出,提交他们的

2025-03-27

V4 或 R2,而是 DeepSeek V3 模型的一次更新。 目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/deepseek-ai/DeepSeek-V3-0324 深度求索微信官方公众号也确认,本次更新属于小版本升级,

2023-04-14

预览项目。 时隔 4 个月,kkFileView 迎来了 2023 年第一个版本 v4.2.0 的发布,这是一个里程碑版本,新增了更多文件类型的预览支持,并且随着这个版本的迭代,我们确立了项目脱离原公司完全社区化运营迭代的节奏,也发布了我

2022-11-08

卷王问卷考试系统 v1.3.0 版本发布。 经过一年多的发展,卷王系统在问卷编辑、逻辑设置、数据校验、数据导出等很多方面的功能体验超过了问卷星这些主流的商业调查问卷系统。 并且卷王系统提供了多种途径的部署方式,

2025-03-22

近期,鸿蒙应用市场(AppGallery)已升级到6.0.2版本。新版本带来了哪些全新变化和实用小技巧?想要一键找到同类型更多应用,并同时高速下载,有什么好方法呢?本期的跟手教程别错过! 一、“应用更新”优化,长长的更新列

2025-04-03

frames-benchmark 上超过了 GPT-4o 的 Search 功能,成为最强的开源 AI 搜索框架。 这个框架结合语义搜索,并提供了快速和深度搜索两种模式,允许多跳搜索(即不断检索以得到理想答案),并且专门为 AI Agent 优化。  OpenDeepSear

2025-03-21

G 集团旗下的人工智能 (AI) 研发部门 LG AI Research 宣布推出开源 AI 模型系列 Exaone Deep,并声称其 AI 推理模型在科学理解和数理逻辑方面超越了 OpenAI 的 GPT 模型、谷歌 DeepMind 的 Gemini 和 DeepSeek 等全球竞争对手。 共包括三个不同的

2025-04-25

还计划后续推出更多开源模型,可能包括更小规模的模型版本。 OpenAI首席执行官山姆·奥特曼(Sam Altman)此前曾公开表示,公司在技术开源方面“站在了历史的错误面”,并呼吁重新审视开源战略。 奥特曼在今年1月参加问答

2024-07-11

,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为77。 通义千问(Qwen2-72B)既是排名最高的中国大模型,也是全球最强的开源大模型,性能超越文心一言4.0、讯飞星火V4.0、Llama-3-70B

2022-09-17

览器基准(分数越低越好): Blender: Blender 是一个开源的 3D 创作和建模软件项目。这个测试是 Blender 的 Cycles 基准测试(分数越低越好): Appleseed Appleseed 是一个开源的生产型渲染器,专注于基于物理的全局光照渲染