字节跳动 Seed 最新强化学习配方 POLARIS 开源


字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。

实验结果显示,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率,性能超越部分更大规模的闭源模型。尤为突出的是,POLARIS-4B模型的轻量化设计,使其能够在消费级显卡上轻松部署,大大降低了应用门槛。

POLARIS的核心创新在于其训练策略。研究团队发现,通过围绕待训练模型定制训练数据和超参数设置,可以显著提升小模型的数学推理能力。具体实践中,团队动态调整了训练数据的难度分布,构建了轻微偏向难题的数据集,以避免样本难度过于集中。同时,引入数据动态更新策略,根据模型在训练过程中的表现实时剔除过易样本,确保训练的有效性。

在采样控制方面,POLARIS通过精细调控采样温度,平衡了模型性能与生成路径的多样性。研究发现,采样温度对模型性能和路径多样性具有显著影响,过高或过低的温度均不利于模型训练。因此,团队提出了控制探索区的温度初始化方法,并在训练过程中动态调整采样温度,以保持生成内容的多样性。

针对长上下文训练的挑战,POLARIS引入了长度外推技术,通过位置编码RoPE的调整,使模型能够处理超出训练时所见的更长序列。这一创新策略有效补偿了长文本训练中的不足,提升了模型在长文本生成任务上的性能。

此外,POLARIS还采用了多阶段RL训练方法,早期使用较短的上下文窗口进行训练,待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务,提升了训练的稳定性和效果。

目前,POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源。研究团队在多个主流推理评测集上验证了POLARIS的有效性,结果显示,不同规模的模型以及不同的模型家族在应用POLARIS训练方法后,模型效果均有显著提升。


相關推薦

2025-08-02

字节跳动 Seed 发文宣布,其与清华大学赵明国教授团队联合研发的人形机器人运动算法 “HumanoidKick” 在 2025RoboCup 机器人世界杯人形组成人组比赛中,成功帮助清华火神队获得冠军。这也是中国机器人足球队首次在机器人世界杯

2025-04-17

AI 科技评论独家获悉,字节 AI Lab 即将全部收归 Seed 团队下。 字节 AI Lab 是 Seed 成立之前字节主要的 AI 研发部门,目前由李航管理,自2024年开始向 Seed 时任负责人朱文佳汇报。今年2月下旬,原 Google DeepMind 副总裁吴永辉入职字

2025-07-23

字节跳动Seed团队正式推出全新Vision-Language-Action Model(VLA)模型 GR-3,该模型在机器人操作领域展现出突破性能力,不仅能理解包含抽象概念的语言指令,还可精准操作柔性物体,并具备快速迁移至新任务、认识新物体的泛化能

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索: 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准

2025-06-25

此前,一份有关字节跳动豆包大模型核心技术人员乔某及同组HRBP程某存在不正当关系的举报文件在网上广泛传播。6月23日,红星资本局获悉,字前字节Seed大语言模型负责人乔木以及关联HRBP已被辞退。 字节在最新发布的一期

2025-05-24

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2

2025-06-17

更新:针对有消息称,字节人工智能实验室 (AI Lab) 负责人李航已经正式卸任,其在内部系统的身份变为劳务/顾问一事,字节相关负责人回应《科创板日报》:“李航是退休返聘,管理范围没有变化。” 据爆料,字节跳

2025-06-28

字节跳动正式发布了 Agent TARS 的 Beta 版本,将其定位为一个开源的多模态 AI Agent 工具,旨在提供与各种现实世界工具的无缝集成能力,并实现“随时随地可用”。 Agent TARS 的早期预览版已于三月份开源。此

2025-07-25

字节跳动 Seed 团队宣布正式推出端到端同声传译模型 Seed LiveInterpret 2.0 —— 首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界SOTA的同时,实现了极低的语音延迟水平。 公告称,Seed Live

2025-07-18

根据网易科技的独家报道,7月17日上午,字节跳动豆包大模型视觉多模态生成方向负责人杨建朝在公司内部宣布“暂时休息”,相关工作已完成交接,其职务由周畅(花名“时光”)接手。 周畅所在架构为“多模态交互与世界

2025-06-19

在近期的人工智能视频生成领域,字节跳动悄然发布了一款名为 Seedance1.0的新模型,该模型在独立的评测中已经超越了谷歌最新推出的 Veo3。 Seedance1.0的研究论文中详细介绍了该模型的创新之处。字节跳动的团队通过对空间和时

2025-08-01

字节跳动于今日上午举办了新一期的All Hands全员会。公司CEO梁汝波、抖音总裁韩尚佑、Seed模型应用负责人朱文佳以及来自绩效与激励、管理研究院等部门的负责人与全体员工交流。 在全员会上,字节跳动也首次回应了社交媒体

2025-04-18

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:

2025-06-21

有消息称,字节跳动创始人张一鸣目前主要办公地已从新加坡转到北京,从去年下半年开始,他每月会召集一次字节核心管理层和AI项目负责人的复盘和讨论会。 知情人士向澎湃新闻记者表示,张一鸣一直很关注AI业务。目前张