清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习(RL)训练平台。该平台专为大型语言模型设计,与传统的同步强化学习训练方法相比,它能在保持相似训练结果的同时,大幅缩短训练时间。
这得益于AReaL中实现的“版本感知”算法,该算法使得异步训练成为可能,并简化了多轮次智能体任务的强化学习过程。
AReaL-boba²最大的亮点是完全解耦了模型生成与训练,实现了不间断的流式数据生成和并行训练。在效果不变的前提下,其训练速度达到了上一版本的2.77倍。研究团队还在Qwen3系列模型的基础上,使用AReaL-boba²进行强化学习训练,并将相关模型开源。
在多项编程领域权威基准测试上,强化学习后的8B和14B参数模型,实现了同尺寸模型中的SOTA水准。
团队已将该项目的端到端代码、数据集以及一个业界领先的编码模型完全开源。
开源地址:https://github.com/inclusionAI/AReaL/
论文链接:https://arxiv.org/pdf/2505.24298
SOTA模型下载链接:https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5