清华大学与蚂蚁集团发布异步强化学习训练平台 AReaL-boba²

2025-06-07 發表於开源资讯

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习（RL）训练平台。该平台专为大型语言模型设计，与传统的同步强化学习训练方法相比，它能在保持相似训练结果的同时，大幅缩短训练时间。

这得益于AReaL中实现的“版本感知”算法，该算法使得异步训练成为可能，并简化了多轮次智能体任务的强化学习过程。

AReaL-boba²最大的亮点是完全解耦了模型生成与训练，实现了不间断的流式数据生成和并行训练。在效果不变的前提下，其训练速度达到了上一版本的2.77倍。研究团队还在Qwen3系列模型的基础上，使用AReaL-boba²进行强化学习训练，并将相关模型开源。

在多项编程领域权威基准测试上，强化学习后的8B和14B参数模型，实现了同尺寸模型中的SOTA水准。

团队已将该项目的端到端代码、数据集以及一个业界领先的编码模型完全开源。

开源地址：https://github.com/inclusionAI/AReaL/

论文链接：https://arxiv.org/pdf/2505.24298

SOTA模型下载链接：https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

相關推薦

蚂蚁集团证实正研发语言和多模态大模型，命名“贞仪”

2023-06-22

从而更好地理解世界。” 值得一提的是，6 月 19 日，由清华大学计算机系教授、人工智能研究院副院长朱军带领的新团队完成了近亿级天使轮融资，由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今，蚂蚁集团投资的第一个 AI

蚂蚁回应 AI 训练降本：基于不同芯片持续调优，将逐步开源

2025-03-25

彭博社援引知情人士报道称，蚂蚁集团使用中国制造的半导体开发训练人工智能模型的技术，可将成本降低20%。对此，蚂蚁方面回应称：蚂蚁针对不同芯片持续调优，以降低AI应用成本，目前取得了一定的进展，也会逐步通过开

蚂蚁集团副总裁、前基础大模型负责人徐鹏离职

2025-04-15

蚂蚁集团副总裁、前基础大模型负责人徐鹏已离职。徐鹏一直从事人工智能领域技术研究，曾在谷歌工作11年，负责和领导了谷歌翻译的核心技术研发，并参与了谷歌显示广告系统的算法研发。此前蚂蚁成立AI创新研发与应用部

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 320 亿参数模型

2025-05-13

INTELLECT-2 已正式发布，该项目展示了一种新的大模型训练方式：利用全球分布的、无需许可的计算贡献者组成的动态、异构网络，以完全异步的方式进行强化学习训练。 INTELLECT-2 具备前沿的推理性能，支持异构计算节点，并允

字节跳动 Seed 最新强化学习配方 POLARIS 开源

2025-07-17

动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路

腾讯开源 WeChat-YATT：微信强化学习大模型训练库

2025-08-19

算力，影响整体训练效率。WeChat-YATT 通过部分共存策略和异步交互，大幅度减轻模型切换损耗和长尾任务影响，实现了训练过程中的高吞吐量和高资源利用，更好地支撑大规模 RLHF 任务的高效迭代。 WeChat-YATT 针对不同业务场

智谱 AI 发布 GLM-4.5 技术报告

2025-08-12

航。报告地址：https://arxiv.org/abs/2508.06471 智谱 AI 和清华大学研究团队采用了多阶段的训练策略，包括在 23T tokens 数据上进行预训练，以及结合领域特定数据的 “中训练”（Mid-training），最后通过专家模型迭代和强化学习

Meta 发布强化学习框架 LlamaRL

2025-06-13

Meta 发布了 LlamaRL 强化学习框架，基于 PyTorch 构建全异步分布式架构，通过独立执行器并行处理生成、训练和评分任务，并整合 DDMA 和 NVLink 技术实现高效数据传输。实测显示，该框架在 4050 亿参数模型中，将强化学习步骤耗

蚂蚁集团百灵大模型通过备案，采用 Transfromer 架构

2023-11-07

11月6日，界面新闻从蚂蚁集团获悉，根据国家七部委联合公布的《生成式人工智能服务管理暂行办法》指导要求，蚂蚁百灵大模型已完成备案，基于百灵大模型的多款产品已陆续完成内测，将向公众开放。本次通过备案的是蚂

字节跳动 Seed 助力清华获机器人足球世界杯冠军

2025-08-02

字节跳动 Seed 发文宣布，其与清华大学赵明国教授团队联合研发的人形机器人运动算法 “HumanoidKick” 在 2025RoboCup 机器人世界杯人形组成人组比赛中，成功帮助清华火神队获得冠军。这也是中国机器人足球队首次在机器人世界杯

OpenAI 研究员姚顺雨：AI 将由解决问题转为定义问题

2025-04-19

起作用了，要做的是定义问题和评估。日前，毕业于清华大学姚班，现任 OpenAI 研究院的姚顺雨发布博文，探讨了其对 AI 未来的发展预测。姚顺雨回顾了 AI 的发展历史。其表示，几十年来 AI 主要致力于开发新的训练方

中国开源 AI 社区 7 月高亮时刻回顾

2025-08-05

智源研究院（1个）、中国电信人工智能研究院（1个）、蚂蚁集团（4个）、快手（1个）、捏Ta（1个）、磐石（3个）、上海交通大学（1个）、腾讯（1个）、上海人工智能实验室（1个）、复旦大学（1个）。 1、阿里（9个）：编

讯飞星火 X1 全新升级，基于全国产算力训练的深度推理大模型

2025-04-22

有化部署简便；全新升级模型定制优化工具链，支持SFT、强化学习两种模型定制优化方案，定制门槛低。 ✨三大核心技术创新——大规模多阶段强化学习训练方法、基于快慢思考的统一训练方法、工程技术系统创新保障基于国

AI 热潮中，哪类人才最紧缺？

2025-03-28

专业或成立专门学院，考生的报考热度持续升高。2025年清华大学、中国人民大学等高校扩招计划里均包含人工智能专业。 “人才数量提升的同时，优化培养结构、提升质量显得更为关键。”王亮认为，未来不同层次和领域的AI

熱門推薦