清华大学与蚂蚁集团发布异步强化学习训练平台 AReaL-boba²


清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习(RL)训练平台。该平台专为大型语言模型设计,与传统的同步强化学习训练方法相比,它能在保持相似训练结果的同时,大幅缩短训练时间。

这得益于AReaL中实现的“版本感知”算法,该算法使得异步训练成为可能,并简化了多轮次智能体任务的强化学习过程。

AReaL-boba²最大的亮点是完全解耦了模型生成与训练,实现了不间断的流式数据生成和并行训练。在效果不变的前提下,其训练速度达到了上一版本的2.77倍。研究团队还在Qwen3系列模型的基础上,使用AReaL-boba²进行强化学习训练,并将相关模型开源。

在多项编程领域权威基准测试上,强化学习后的8B和14B参数模型,实现了同尺寸模型中的SOTA水准。

团队已将该项目的端到端代码、数据集以及一个业界领先的编码模型完全开源。

开源地址:https://github.com/inclusionAI/AReaL/

论文链接:https://arxiv.org/pdf/2505.24298

SOTA模型下载链接:https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5


相關推薦

2023-06-22

从而更好地理解世界。” 值得一提的是,6 月 19 日,由清华大学计算机系教授、人工智能研究院副院长朱军带领的新团队完成了近亿级天使轮融资,由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今,蚂蚁集团投资的第一个 AI

2025-03-25

彭博社援引知情人士报道称,蚂蚁集团使用中国制造的半导体开发训练人工智能模型的技术,可将成本降低20%。对此,蚂蚁方面回应称:蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开

2025-05-13

INTELLECT-2 已正式发布,该项目展示了一种新的大模型训练方式:利用全球分布的、无需许可的计算贡献者组成的动态、异构网络,以完全异步的方式进行强化学习训练。 INTELLECT-2 具备前沿的推理性能,支持异构计算节点,并允

2025-04-15

蚂蚁集团副总裁、前基础大模型负责人徐鹏已离职。徐鹏一直从事人工智能领域技术研究,曾在谷歌工作11年,负责和领导了谷歌翻译的核心技术研发,并参与了谷歌显示广告系统的算法研发。 此前蚂蚁成立AI创新研发与应用部

2023-11-07

11月6日,界面新闻从蚂蚁集团获悉,根据国家七部委联合公布的《生成式人工智能服务管理暂行办法》指导要求,蚂蚁百灵大模型已完成备案,基于百灵大模型的多款产品已陆续完成内测,将向公众开放。 本次通过备案的是蚂

2025-04-19

起作用了,要做的是定义问题和评估。 日前,毕业于清华大学姚班,现任 OpenAI 研究院的姚顺雨发布博文,探讨了其对 AI 未来的发展预测。 姚顺雨回顾了 AI 的发展历史。其表示,几十年来 AI 主要致力于开发新的训练方

2025-04-22

有化部署简便;全新升级模型定制优化工具链,支持SFT、强化学习两种模型定制优化方案,定制门槛低。 ✨三大核心技术创新——大规模多阶段强化学习训练方法、基于快慢思考的统一训练方法、工程技术系统创新保障基于国

2025-03-28

专业或成立专门学院,考生的报考热度持续升高。2025年清华大学、中国人民大学等高校扩招计划里均包含人工智能专业。 “人才数量提升的同时,优化培养结构、提升质量显得更为关键。”王亮认为,未来不同层次和领域的AI

2023-09-22

亿元融资,由美团战投独家投资。   智谱 AI 是由清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型 GLM-130B,并构建了高精度通用知识图谱

2023-09-09

在今日的外滩大会分论坛上,蚂蚁集团正式开源代码大模型 CodeFuse。 据介绍,这是蚂蚁自研的代码生成专属大模型,可以根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释、自动生成测试

2025-04-09

太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)

2023-10-21

合作伙伴一同高速发展。 智谱 AI 成立于 2019 年,是由清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型 GLM-130B,并构建了高精度通用知识图谱

2023-03-02

壁仞科技、天数智芯、燧原科技、摩尔线程等硬件企业,清华大学、北京大学、中科院计算所优势团队,共建“北京国家新一代人工智能创新发展试验区AI开放生态实验室”,共同开展基础软硬件适配、评测等工作,实现拉动基

2023-12-02

往天工开放平台预约申请:https://agentspro.cn/#/ 昆仑万维集团 昆仑万维于2008年成立,2015年深交所上市,从游戏起家到AII In AGI与AIGC, 全面构建多元化的业务生态,至今十余年的发展,我们始终致力于为全球用户提供领先的互联