​Qwen 发布全新偏好建模模型系列 WorldPM 模型


阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM(World Preference Modeling),包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。

根据官方介绍,该模型通过对1500万条偏好数据的超大规模训练,验证了偏好建模遵循与语言建模相似的规模化定律(scaling laws)。这一发现意味着,随着数据和模型规模的扩展,偏好模型能够学习到统一的偏好表示,从而显著提升模型在监督学习中的表现。

WorldPM-72B系列基于72亿参数规模打造,专为评估和优化其他模型的输出而设计。官方表示,与从零开始训练相比,基于WorldPM进行微调能够显著提升性能,尤其在需要捕捉人类偏好的场景中表现优异。

值得注意的是,WorldPM并非通用的对话模型,而是专注于为其他模型提供偏好评分和优化指导。例如,开发者可以利用WorldPM-72B对生成式AI的回答进行打分,从而提升模型在特定任务上的表现。


相關推薦

2025-07-05

获得最佳表现。 相比上一代Skywork-Reward,昆仑万维全新发布的Skywork-Reward-V2系列提供了基于Qwen3和LLaMA3系列模型训练的8个奖励模型,参数规模覆盖从6亿至80亿。 即便基于最小模型Skywork-Reward-V2-Qwen3-0.6B,其整体性能已几乎达

2024-08-14

微调) 强化模型处理下游任务的能力,再通过 DPO(直接偏好优化)方法加强模型与人类偏好的对齐。 目前通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本 Qwen2-Audio-7B-Instruct。 https://huggingface.co/Qwen/Qwen2-Audio-7B

2023-09-26

,Qwen-14B-Chat生成内容的准确度大幅提升,也更符合人类偏好,内容创作上的想象力和丰富度也有显著扩展。 用户可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用Qwen-14B和Qwen-14B-Chat。 效果展示: 国际惯例

2025-06-12

Hugging Face 近日发布开放权重模型贡献榜,中国团队Qwen和DeepSeek成功入围前15名。该榜单表彰为开源社区提供高质量模型权重的团队,其模型广泛应用于学术与产业创新。 由阿里巴巴云智能集团支持的Qwen团队,以Qwen3系列模型

2025-06-25

近日,空间理解模型SpatialLM正式发布首份技术报告。这一模型此前曾与DeepSeek-V3、通义千问Qwen2.5-Omni一起登上全球最大的开源社区HuggingFace全球趋势榜前三。 作为一款将大语言模型扩展到3D空间理解任务中的模型,SpatialLM能从3D

2025-07-01

通义千问宣布正式推出 Qwen VLo——一个多模态统一理解与生成模型,目前 Qwen VLo 还属于预览阶段,可在 Qwen Chat(chat.qwen.ai)上直接体验。 “这一全新升级的模型不仅能够看懂世界,更能基于理解进行高质量的再创造,真正实

2025-05-15

阿里巴巴正式发布了Qwen3系列大型语言模型的技术报告。报告详细阐述了Qwen3的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。 https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf Qwen3系列包括Qwen3-0.5B、

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频

2025-03-27

千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)达成过“开源周”,其在2月末连续五天发布五个代码库,并

2025-06-19

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2025-06-18

里通义千问团队宣布正式开源 Qwen3 全系列 32 款 MLX 量化模型。 MLX 是开源机器学习框架,专为苹果芯片深度适配。MLX 框架可高效地训练和部署 AI 大模型,被越来越多的 AI 开发者采用。   为更好服务开发者,通义团队推出

2025-05-17

面客户端,兼容 Windows、Mac 和 Linux 系统。 该项目近日发布新版本 v1.3.0,包含了大量变更。 一、新增功能亮点 v1.3.0 在模型支持、核心体验及界面交互等方面均有显著增强: 模型与服务商拓展: 新增 Grok / X 

2025-05-30

Ollama v0.8.0 已发布,新版本带来了通过工具调用进行流式响应 (Streaming responses with tool calling) 功能,让开发者构建的聊天应用从此能够像流式输出普通文本一样,实时地调用工具并展示结果。 这一更新使得所有聊天应用都能够

2025-05-15

2025年4月29日,MaxKB开源企业级AI助手正式发布v1.10.7 LTS版本。这一版本在第一时间支持接入Qwen3大模型,并且进行了一些功能优化和问题修复。 亮点更新 ■ MaxKB支持接入Qwen3 2025年4月29日,阿里巴巴开源新一代通义千问模型Q