昆仑万维开源第二代奖励模型 Skywork-Reward-V2 系列


昆仑万维宣布继续开源第二代奖励模型(Reward Model)Skywork-Reward-V2系列,共包含8个基于不同基座模型和不同大小的奖励模型,参数规模从6亿到80亿不等,其在七大主流奖励模型评测榜单中全面夺魁。在2024年9月,昆仑万维曾首次开源了Skywork-Reward系列模型及相关数据集。

公告称,在打造这一新一代奖励模型的过程中,昆仑万维方面构建了一个包含总共4000万对偏好对比的混合数据集Skywork-SynPref-40M。

为实现大规模、高效的数据筛选与过滤,特别设计了人机协同的两阶段流程,将人工标注的高质量与模型的规模化处理能力相结合。在这一流程中,人类提供经过严格验证的高质量标注,大型语言模型(LLMs)则根据人工指导进行自动整理和扩充。

基于上述优质的混合偏好数据开发了Skywork-Reward-V2系列,其展现了广泛的适用性,在多个能力维度上表现出色,包括对人类偏好的通用对齐、客观正确性、安全性、风格偏差的抵抗能力,以及best-of-N扩展能力。经实验验证,该系列模型在七个主流奖励模型评测基准上均获得最佳表现。

相比上一代Skywork-Reward,昆仑万维全新发布的Skywork-Reward-V2系列提供了基于Qwen3和LLaMA3系列模型训练的8个奖励模型,参数规模覆盖从6亿至80亿。

即便基于最小模型Skywork-Reward-V2-Qwen3-0.6B,其整体性能已几乎达到上一代最强模型Skywork-Reward-Gemma-2-27B-v0.2的平均水平。更进一步,Skywork-Reward-V2-Qwen3-1.7B在平均性能上已超越当前开源奖励模型的SOTA——INF-ORM-Llama3.1-70B。而最大规模的Skywork-Reward-V2-Llama-3.1-8B。

此外,Skywork-Reward-V2在多项高级能力评估中均取得领先成绩:包括Best-of-N(BoN)任务、偏见抵抗能力测试(RM-Bench)、复杂指令理解及真实性判断(RewardBench v2),展现了出色的泛化能力与实用性。

Skywork-Reward-V2系列模型专注于对偏好数据规模扩展的研究,昆仑万维方面表示,其团队也将研究辐射面陆续转向其他尚未被充分探索的领域,例如替代训练技术与建模目标。

更多详情可查看官方公告。


相關推薦

2023-11-06

2023年11月3日,昆仑万维“天工”大模型宣布通过《生成式人工智能服务管理暂行办法》备案,面向全社会开放服务! 用户在应用商店下载“天工APP”或登陆“天工官网”(www.tiangong.cn)均可直接注册使用。 官方介绍称,「天

2023-10-28

昆仑万维发布了2023年第三季度报告。据报告披露,昆仑万维第三季度全面加速推进“All in” AGI与AIGC的战略布局,在多个方向均取得了突破性进展。截至本报告期末,昆仑万维实现营业收入36.8亿元,同比增长8%。实现经营性现金

2023-10-31

昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型。 除模

2023-09-07

昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。公告称,“这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平,未

2025-03-27

昆仑万维宣布推出 Mureka O1 模型与 Mureka V6 模型。“Mureka O1作为全球首款音乐推理大模型,性能超越Suno、模型登顶SOTA,中国科技创新再次在AI音乐领域领跑全球。” 2024年4月,昆仑万维发布了第一代音乐生成模型:Mureka V1(SkyMus

2025-04-25

继开源 Skywork-R1V 后,昆仑万维宣布再开源多模态推理模型的全新升级版本 —— Skywork-R1V 2.0(简称 R1V 2.0) 。 公告称,Skywork-R1V 2.0 是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度

2023-12-02

12月1日,昆仑万维正式发布「天工SkyAgents」平台,助力大模型走入千家万户。「天工SkyAgents」是国内领先的AI Agents开发平台,基于昆仑万维「天工大模型」打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用

2024-10-31

10月29日,昆仑万维发布了2024年第三季度报告。截至本报告期末,公司实现营业收入38.3亿元,同比增长4%。今年前三季度,公司海外业务收入占比进一步提升至89.7%,同比增加5.6个百分点;整体毛利率达76.9%,继续保持在较高水平

2024-08-20

昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体,旨在让创作者“一键成剧”,轻松制作高质量AI视频。 SkyReels平台集成了昆仑万维自研剧

2025-05-22

昆仑万维最近于海外上线了通用 Agent 产品 Skywork.ai,包含多个专家 Agent 模式和通用模式。 Skywork AI 目前正在进行测试,用户可以直接注册,并且在测试期间完成任务不消耗积分。Skywork AI 旨在通过 AI 驱动的工具提升生产力。

2024-08-14

成员!近日,豆包、通义、360AI搜索、360智脑、360智绘、昆仑万维天工AI、澜舟智库等重磅AI产品登陆麒麟软件商店人工智能专区,涵盖了AI对话、AI写作、AI绘图、AI搜索等多个领域,为用户带来更加丰富、智能的应用体验。 阿

2023-11-07

能(“面壁露卡 Luca”)、出门问问(“序列猴子”)、昆仑万维(“天工”大模型)、美团(模型)、知乎(“知海图 AI”模型)、月之暗面(moonshot)、金山办公(WPS AI)、好未来(MathGPT 大模型)等。 8 月 31 日首批通过备

2025-05-09

云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。 智源研究院于2023年11月首次发布中文互联网语料库C

2023-06-29

们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧! 重要更新 最新音频课程现已发布 近期,我们发布了一个音频