字节跳动 Seed 最新强化学习配方 POLARIS 开源


字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。

实验结果显示,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率,性能超越部分更大规模的闭源模型。尤为突出的是,POLARIS-4B模型的轻量化设计,使其能够在消费级显卡上轻松部署,大大降低了应用门槛。

POLARIS的核心创新在于其训练策略。研究团队发现,通过围绕待训练模型定制训练数据和超参数设置,可以显著提升小模型的数学推理能力。具体实践中,团队动态调整了训练数据的难度分布,构建了轻微偏向难题的数据集,以避免样本难度过于集中。同时,引入数据动态更新策略,根据模型在训练过程中的表现实时剔除过易样本,确保训练的有效性。

在采样控制方面,POLARIS通过精细调控采样温度,平衡了模型性能与生成路径的多样性。研究发现,采样温度对模型性能和路径多样性具有显著影响,过高或过低的温度均不利于模型训练。因此,团队提出了控制探索区的温度初始化方法,并在训练过程中动态调整采样温度,以保持生成内容的多样性。

针对长上下文训练的挑战,POLARIS引入了长度外推技术,通过位置编码RoPE的调整,使模型能够处理超出训练时所见的更长序列。这一创新策略有效补偿了长文本训练中的不足,提升了模型在长文本生成任务上的性能。

此外,POLARIS还采用了多阶段RL训练方法,早期使用较短的上下文窗口进行训练,待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务,提升了训练的稳定性和效果。

目前,POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源。研究团队在多个主流推理评测集上验证了POLARIS的有效性,结果显示,不同规模的模型以及不同的模型家族在应用POLARIS训练方法后,模型效果均有显著提升。


相關推薦

2025-04-17

AI 科技评论独家获悉,字节 AI Lab 即将全部收归 Seed 团队下。 字节 AI Lab 是 Seed 成立之前字节主要的 AI 研发部门,目前由李航管理,自2024年开始向 Seed 时任负责人朱文佳汇报。今年2月下旬,原 Google DeepMind 副总裁吴永辉入职字

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索: 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准

2025-06-25

此前,一份有关字节跳动豆包大模型核心技术人员乔某及同组HRBP程某存在不正当关系的举报文件在网上广泛传播。6月23日,红星资本局获悉,字前字节Seed大语言模型负责人乔木以及关联HRBP已被辞退。 字节在最新发布的一期

2025-05-24

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2

2025-06-17

更新:针对有消息称,字节人工智能实验室 (AI Lab) 负责人李航已经正式卸任,其在内部系统的身份变为劳务/顾问一事,字节相关负责人回应《科创板日报》:“李航是退休返聘,管理范围没有变化。” 据爆料,字节跳

2025-06-28

字节跳动正式发布了 Agent TARS 的 Beta 版本,将其定位为一个开源的多模态 AI Agent 工具,旨在提供与各种现实世界工具的无缝集成能力,并实现“随时随地可用”。 Agent TARS 的早期预览版已于三月份开源。此

2025-06-19

在近期的人工智能视频生成领域,字节跳动悄然发布了一款名为 Seedance1.0的新模型,该模型在独立的评测中已经超越了谷歌最新推出的 Veo3。 Seedance1.0的研究论文中详细介绍了该模型的创新之处。字节跳动的团队通过对空间和时

2025-04-18

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:

2025-06-21

有消息称,字节跳动创始人张一鸣目前主要办公地已从新加坡转到北京,从去年下半年开始,他每月会召集一次字节核心管理层和AI项目负责人的复盘和讨论会。 知情人士向澎湃新闻记者表示,张一鸣一直很关注AI业务。目前张

2025-06-07

字节跳动 Seed 团队宣布正式发布了图像编辑模型SeedEdit3.0,技术报告对外公开,模型同步在即梦网页端开启测试,豆包 App 也即将上线。 SeedEdit3.0 基于文生图模型Seedream3.0开发,通过引入多样化的数据融合方法和特定奖励模型,

2023-04-27

为 Primus 解决的问题。   日均作业百万核的字节跳动实践 经过字节跳动在不断实践中调整打磨的 Primus,拥有以下能力支撑业务需求: 自研训练框架:目前除了业界开源的 Tensorflow、Pytorch,为了满足用户的

2023-03-10

3月7日,由字节跳动主办,英特尔、OCP-OSF(Open System Firmware)、OSFF(Open System Firmware Foundation) 社区联合举办的“云固件交流沙龙”在北京召开。会上,字节跳动正式发布了新一代云固件 Cloud Firmware 2.0,这是首次在 X86 服务器中产品化

2025-07-08

Kling 等通用视频生成模型,AniSora V3 专注于动漫领域。与字节跳动的 EX-4D 相比,AniSora V3 更专注于 2D / 2.5D 动漫风格,而非 4D 多视角生成。

2023-11-18

在近日举办的 Linux Plumbers Conference 上提出,字节跳动 Linux 内核工程师 Cong Wang 发表了一个“Linux Kernel Autotuning”的主题演讲,提议可以使用人工智能(AI)和机器学习(ML)来调整 Linux 内核,从而为特定工作负载带来