OpenPipe 发布开源框架 AutoRL，用于简化模型 RL 训练

2025-08-01 發表於开源资讯

OpenPipe发布了开源框架AutoRL，旨在简化使用强化学习（RL）为任何特定任务专门化训练开源模型（如Qwen）的过程。

AutoRL的训练流程是，用户首先用一句话定义任务，随后AutoRL会自动生成30个示例场景。Agent使用GRPO算法在25个训练样本上进行训练，最后在剩余的5个测试样本上与SOTA模型（如Sonnet 4）进行性能对比测试。

该框架构建于OpenPipe的ART（Agentic Reasoning & Tool-use）之上，并使用RULER作为其奖励函数。

点此查看更多介绍。

相關推薦

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 320 亿参数模型

2025-05-13

INTELLECT-2 已正式发布，该项目展示了一种新的大模型训练方式：利用全球分布的、无需许可的计算贡献者组成的动态、异构网络，以完全异步的方式进行强化学习训练。 INTELLECT-2 具备前沿的推理性能，支持异构计算节点，并允

小米开源首个推理大模型“Xiaomi MiMo”——为“Reasoning”而生

2025-05-01

今天，小米开源首个为推理（Reasoning）而生的大模型「Xiaomi MiMo」，联动预训练到后训练，全面提升推理能力。在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，MiMo 仅用 7B 的参数规模，超越了 OpenAI 的闭源推

华为发布准万亿模型盘古 Ultra MoE

2025-05-31

，提升了模型的训练效率与最终推理性能。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。在训练方法上，华为首次披露在昇腾CloudMatrix 384超节点上，打通大稀疏比MoE强化学习（RL）后训练框架的关键技术，使RL后

智谱 AI 发布 GLM-4.5 技术报告

2025-08-12

上月底，智谱 AI 正式发布新一代旗舰模型 GLM-4.5，专为智能体应用打造的基础模型。官方称 “GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA 水平，在真实代码智能体的人工对比评测中，实测国内最佳。” GLM-4.5 不

清华大学与蚂蚁集团发布异步强化学习训练平台 AReaL-boba²

2025-06-07

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习（RL）训练平台。该平台专为大型语言模型设计，与传统的同步强化学习训练方法相比，它能在保持相似训练结果的同时，大幅缩短训练时间。这得

字节跳动 Seed 最新强化学习配方 POLARIS 开源

2025-07-17

供了新路径。实验结果显示，采用POLARIS训练的40亿参数开源模型Qwen3-4B，在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率，性能超越部分更大规模的闭源模型。尤为突出的是，POLARIS-4B模型的轻量化设计，使其能够在消

英伟达开源 2530 亿参数推理大模型，效果直逼 DeepSeek-R1

2025-04-11

系列基准测试中，Llama-3.1-Nemotron-Ultra-253B-v1 优于 Meta 最新发布的 Llama 4 Behemoth 和 Llama 4 Maverick。

Together AI 和 Agentica 联手发布开源模型 DeepCoder-14B-Preview

2025-04-10

知名大模型训练平台Together AI和智能体平台Agentica联合开源了新模型DeepCoder-14B-Preview。 DeepCoder在Deepseek-R1-Distilled-Qwen-14B基础之上，通过分布式强化学习（RL）进行了微调。该模型只有140亿参数，但在知名代码测试平台LiveCodeBench

360 智脑推出 Light-IF 系列模型

2025-08-13

型。 360智脑团队表示，Light-IF系列模型的推出，不仅为开源社区提供了一套可复现的完整路线和配套的开源代码，而且全系模型将陆续开放，供社区使用、对比与复现。同时，训练中使用的冷启动数据集也将同步开放。此外，

字节跳动最新思考模型 Seed-Thinking-v1.5 技术报告发布

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布，涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索：通过数据层面的精细化处理提升推理能力，融合可验证数据和非可验证数据，并提出全新的评测基准

InfoWorld 公布 2023 年最佳开源软件

2023-10-26

Language Model Evaluation Harness 当一个新的大语言模型（LLM）发布时，通常都会被进行评估，将该模型与 ChatGPT 在某个基准上进行比较，很多公司可能会使用 lm-eval-harness 来生成评估分数。lm-eval-harness 由分布式人工智能研究所 Eleuther

OpenAI 研究员姚顺雨：AI 将由解决问题转为定义问题

2025-04-19

日前，毕业于清华大学姚班，现任 OpenAI 研究院的姚顺雨发布博文，探讨了其对 AI 未来的发展预测。姚顺雨回顾了 AI 的发展历史。其表示，几十年来 AI 主要致力于开发新的训练方法和模型，取得了显著成就，而这些成就

写在 Kimi K2 发布之后：再也不仅仅是 ChatBot

2025-07-15

me/2025/07/kimi-k2/ 前两天我们忙活了大半年的 Kimi K2 终于发布了，在上线前熬了个大通宵之后饱饱睡了两天，今天终于有闲写一点心得。叠甲：以下内容全部是我个人观点，不代表公司立场。再叠甲：以下内容全部是我古法

微软发布跨平台机器学习框架 ML.NET 3.0

2023-12-01

微软近日正式发布 ML.NET 3.0，带来了许多新功能和改进。 ML.NET 是一个开源、跨平台的机器学习框架，专为 .NET 开发者设计，可以将自定义的机器学习模型集成到 .NET 应用程序中。在这个版本中，深度学习方案得到了大幅