腾讯开源 WeChat-YATT:微信强化学习大模型训练库


腾讯基于 Megatron-Core 和 SGLang/vLLM 发了大模型训练库 WeChat-YATTYATT,Yet Another Transformer Trainer内部项目为 gCore,专注于强化学习和多模态模型的训练旨在提供简洁可靠大模型训练能力。

通过定制化的并行计算策略,其训练库能够处理大尺寸模型、长序列输入和大数据集场景解决微信多个实际场景痛点问题显著提升业务训练大模型效率此工具为研究人员和开发者提供了灵活且可扩展的解决方案,以推动多模态和强化学习领域的创新发展。

并提出 WeChat-YATT 训练库,解决了大模型分布式训练过程中面临的两大核心痛点:

  • 多模态场景下的可扩展性瓶颈随着多模态数据(如图像、视频)规模的不断增长,传统架构中由 SingleControlle进行数据管理,容易成为通讯和内存的瓶颈,导致系统吞吐量受限,甚至引发训练流程异常中断。WeChat-YATT 通过引入 Parallel Controller 的并行管理机制,有效分散压力,大幅提升系统的可扩展性和稳定性,更好地应对多模态、大数据量的复杂场景。
  • 动态采样生成式奖励下的效率短板在需频繁动态采样或生成式奖励计算的训练流程中,模型频繁切换和“长尾”任务容易引发大量额外开销,导致无法充分利用 GPU 算力,影响整体训练效率。WeChat-YATT 通过共存策略异步交互大幅度减轻模型切换损耗和长尾任务影响,实现了训练过程中的高吞吐量和高资源利用,更好地支撑大规模 RLHF 任务的高效迭代。

WeChat-YATT 针对不同业务场景,支持了两种资源放置模式:全员共存部分共存,以最大化提升集群的资源利用率。通过灵活的调度策略,WeChat-YATT 能够有效适应不同的训练需求和计算环境。

与此同时,WeChat-YATT 采用了 Parallel Controller 模式,由多个 Controller 协同管理数据任务,显著降低了单节点的内存压力,尤其为多模态训练场景提供了更优的系统支持,相较于传统的 Single Controller 架构具备更强的可靠性。

  • 全员共存模式采用串行调度机制,Actor RolloutsGenRM(Generative Reward Model与 Train 依次串行执行。每个角色完成任务后主动释放计算资源,系统加载下一个任务所需模型。该策略适配绝大多数常规训练场景。值得一提的是,在每个阶段,相关组件均可独占全部 GPU 资源,这极大缩短了资源空闲“气泡”时间,显著提升总体训练吞吐量和效率。
  • 部分共存模式下,Actor Rollouts 与 GenRM 独立部署,并通过异步方式进行高效交互。Actor 训练阶段会占用全部 GPU 资源,在 Rollouts 生成阶段,Actor 将 GPU 资源释放并唤醒 Actor Rollouts 及 GenRM 两大组件协同工作。通过动态的负载评估进行资源分配均衡当 Rollouts 生成完毕,这两者会释放资源,Actor 随之加载到 GPU 上,进入下一轮训练流程。部分共存模式非常适合 Rollouts 与 GenRM 需要高频交互、动态采样的任务场景。

多元的资源放置模式和灵活的调度机制,使 WeChat-YATT 在复杂多变的实际环境下都能实现资源的高效利用,助力大模型微信内部多个场景应用落地

项目特点:

  • 高效内存利用项目采用 Parallel Controller,有效降低了单节点的内存消耗,更适合多模态场景下的大模型训练,提升了系统的扩展性和稳定性。
  • GenRM 高效支持对于 GenRM 场景实现了不同资源放置策略使用者根据场景进行高效训练
  • 智能 Checkpoint 策略 WeChat-YATT 支持异步 Checkpoint 保存,并针对微信业务场景,根据调度流程,实现断点自动保存,进一步保障训练安全与高可用性。
  • 负载均衡优化 在训练过程中,WeChat-YATT 实现了各个数据并行组间的负载均衡,有效减少资源空闲时间,显著提升整体训练吞吐量。

 实验效果

 


相關推薦

2025-05-13

2B 参数模型进行去中心化 RL 训练: prime-RL:新推出的开源库,用于完全异步的去中心化RL,基于具备容错的去中心化训练框架prime开发。 SYNTHETIC-1 & GENESYS:用于RL任务众包和验证环境的库。 TOPLOC:实现高效、可验证

2025-08-05

腾讯混元宣布推出四款开源的小尺寸模型,参数分别为 0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景,且支持垂直领域低成本微调。 根据介绍,新开源的4 个模型属于融

2025-05-23

年初,腾讯混元 TurboS “快思考模型”正式发布,作为业界首款大规模混合 Mamba-MoE 模型,其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾

2025-04-22

有化部署简便;全新升级模型定制优化工具链,支持SFT、强化学习两种模型定制优化方案,定制门槛低。 ✨三大核心技术创新——大规模多阶段强化学习训练方法、基于快慢思考的统一训练方法、工程技术系统创新保障基于国

2025-06-18

月之暗面宣布开源 Kimi-Dev-72B,这是面向软件工程的代码大模型,并在 SWE-bench 上达到了开源模型中的 SOTA。 Kimi-Dev-72B 的设计理念和技术细节包括 BugFixer 和 TestWriter 的双重角色、中期训练、强化学习以及测试时自博弈。 据介

2025-06-07

基础上,使用AReaL-boba²进行强化学习训练,并将相关模型开源。 在多项编程领域权威基准测试上,强化学习后的8B和14B参数模型,实现了同尺寸模型中的SOTA水准。 团队已将该项目的端到端代码、数据集以及一个业界领先的编

2025-06-05

快手 Kwaipilot 团队宣布开源 KwaiCoder-AutoThink-preview 自动思考大模型,针对近期深度思考大模型存在的“过度思考”问题进行了深入研究。 团队不仅提出了一种全新的自动思考模型训练范式,还基于传统强化学习算法(GRPO),创

2025-07-17

供了新路径。 实验结果显示,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率,性能超越部分更大规模的闭源模型。尤为突出的是,POLARIS-4B模型的轻量化设计,使其能够在消

2025-04-09

太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)

2023-10-21

物理机或容器化环境中运行。支持的云平台包括阿里云、腾讯云、百度云、华为云、AWS、GCP、Azure Cloud 等。 下载资源 Alluxio Enterprise AI 下载链接:https://www.alluxio.io/download/ AI Infra Day 在美西时间 10 月 25 日的 AI Infra Day 上,Alluxi

2025-06-24

网易有道宣布正式开源“子曰3”系列大模型的数学模型(英文名称Confucius3-Math),这是国内首个专注于数学教育,可在单块消费级GPU上高效运行的开源推理模型。 据了解,Confucius3-Math 是由网易有道 AI 团队开发的140 亿参数开源

2025-07-30

nVideo2。 目前,中国移动已将多项模型及核心技术进行开源: 开源九天数童结构化数据大模型:包括 JT-DA-8B 模型及后续演进版本,支持下载模型权重、微调代码、推理代码等。 开源九天数学大模型:包括 JT-Math-8B 系列

2025-05-13

微软开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。 Phi-4-Reasoning的基础架构源自微软开源的Phi-4 模型,为了提升其推理能力,微软通过监督微调和强化学习相结合的训练方法行了深度强化。 该方

2025-08-20

“三个转向”: 技术转向:从“一次性预训练”到“强化学习推理” 资源转向:把“算力”视为唯一稀缺资源 落地转向:从“科研样品”到“可审计的生产 Agent” Greg Brockman 透露,GPT-4 发布之后,团队内部复盘“它