OpenPipe 发布开源框架 AutoRL,用于简化模型 RL 训练


OpenPipe发布了开源框架AutoRL,旨在简化使用强化学习(RL)为任何特定任务专门化训练开源模型(如Qwen)的过程。

AutoRL的训练流程是,用户首先用一句话定义任务,随后AutoRL会自动生成30个示例场景。Agent使用GRPO算法在25个训练样本上进行训练,最后在剩余的5个测试样本上与SOTA模型(如Sonnet 4)进行性能对比测试。

该框架构建于OpenPipe的ART(Agentic Reasoning & Tool-use)之上,并使用RULER作为其奖励函数。

点此查看更多介绍。


相關推薦

2025-05-13

INTELLECT-2 已正式发布,该项目展示了一种新的大模型训练方式:利用全球分布的、无需许可的计算贡献者组成的动态、异构网络,以完全异步的方式进行强化学习训练。 INTELLECT-2 具备前沿的推理性能,支持异构计算节点,并允

2025-05-01

今天,小米开源首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」,联动预训练到后训练,全面提升推理能力。 在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推

2025-05-31

,提升了模型的训练效率与最终推理性能。 华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。在训练方法上,华为首次披露在昇腾CloudMatrix 384超节点上,打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后

2025-08-12

上月底,智谱 AI 正式发布新一代旗舰模型 GLM-4.5,专为智能体应用打造的基础模型。官方称 “GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA 水平,在真实代码智能体的人工对比评测中,实测国内最佳。” GLM-4.5 不

2025-06-07

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习(RL)训练平台。该平台专为大型语言模型设计,与传统的同步强化学习训练方法相比,它能在保持相似训练结果的同时,大幅缩短训练时间。 这得

2025-07-17

供了新路径。 实验结果显示,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率,性能超越部分更大规模的闭源模型。尤为突出的是,POLARIS-4B模型的轻量化设计,使其能够在消

2025-04-11

系列基准测试中,Llama-3.1-Nemotron-Ultra-253B-v1 优于 Meta 最新发布的 Llama 4 Behemoth 和 Llama 4 Maverick。

2025-04-10

知名大模型训练平台Together AI和智能体平台Agentica联合开源了新模型DeepCoder-14B-Preview。 DeepCoder在Deepseek-R1-Distilled-Qwen-14B基础之上,通过分布式强化学习(RL)进行了微调。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench

2025-08-13

型。 360智脑团队表示,Light-IF系列模型的推出,不仅为开源社区提供了一套可复现的完整路线和配套的开源代码,而且全系模型将陆续开放,供社区使用、对比与复现。同时,训练中使用的冷启动数据集也将同步开放。 此外,

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索: 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准

2023-10-26

Language Model Evaluation Harness 当一个新的大语言模型(LLM)发布时,通常都会被进行评估,将该模型与 ChatGPT 在某个基准上进行比较,很多公司可能会使用 lm-eval-harness 来生成评估分数。lm-eval-harness 由分布式人工智能研究所 Eleuther

2025-04-19

日前,毕业于清华大学姚班,现任 OpenAI 研究院的姚顺雨发布博文,探讨了其对 AI 未来的发展预测。 姚顺雨回顾了 AI 的发展历史。其表示,几十年来 AI 主要致力于开发新的训练方法和模型,取得了显著成就,而这些成就

2025-07-15

me/2025/07/kimi-k2/ 前两天我们忙活了大半年的 Kimi K2 终于发布了,在上线前熬了个大通宵之后饱饱睡了两天,今天终于有闲写一点心得。 叠甲:以下内容全部是我个人观点,不代表公司立场。 再叠甲:以下内容全部是我古法

2023-12-01

微软近日正式发布 ML.NET 3.0,带来了许多新功能和改进。 ML.NET 是一个开源、跨平台的机器学习框架,专为 .NET 开发者设计,可以将自定义的机器学习模型集成到 .NET 应用程序中。 在这个版本中,深度学习方案得到了大幅