INTELLECT-2 发布：首个通过全球分布式强化学习训练的 320 亿参数模型

2025-05-13 發表於开源资讯

INTELLECT-2 已正式发布，该项目展示了一种新的大模型训练方式：利用全球分布的、无需许可的计算贡献者组成的动态、异构网络，以完全异步的方式进行强化学习训练。

INTELLECT-2 具备前沿的推理性能，支持异构计算节点，并允许无需授权的贡献，能对 32B 参数模型进行去中心化 RL 训练：

prime-RL：新推出的开源库，用于完全异步的去中心化RL，基于具备容错的去中心化训练框架prime开发。
SYNTHETIC-1 & GENESYS：用于RL任务众包和验证环境的库。
TOPLOC：实现高效、可验证的推理方法，用于验证INTELLECT-2中所有去中心化rollout节点的计算。
协议测试网：提供基础设施和经济激励，用于聚合和协调全球计算资源，打造真正自主的开源AI生态系统。

INTELLECT-2基础设施主要由三个组件构成：

推理采样节点（Inference Rollout Workers）：一组去中心化节点，用最新的策略模型，从环境中收集推理轨迹（reasoning rollouts），并计算相应的奖励。
TOPLOC验证节点（TOPLOC Validators）：负责高效验证无需授权的rollout工作节点的推理计算，打造无需信任的系统。
GRPO训练节点（GRPO Training Workers）：从去中心化推理采样节点收集到新生成的数据后，采用DeepSeek的GRPO训练方法进行训练。训练完成后，这些训练节点会通过Shardcast库，将更新后的权重广播给所有推理节点，以启动下一轮数据收集。

该基础设施具备以下特性：

完全消除通信开销：通过异步强化学习，新策略模型的广播与正在进行的推理和训练完全重叠，通信不再成为瓶颈。
支持异构推理节点：允许任何人按自己的节奏生成推理轨迹（reasoning traces），跨节点处理速度没有统一要求。
资源需求低：在这种训练设置中，占计算资源大头的推理节点可以在消费级GPU上运行。例如，配备4块RTX 3090 GPU的机器，足以支持32B参数模型的训练。
实现高效验证：推理计算的验证过程，不会引入训练瓶颈。

详情查看：https://www.primeintellect.ai/blog/intellect-2-release

相關推薦

Meta 发布强化学习框架 LlamaRL

2025-06-13

Meta 发布了 LlamaRL 强化学习框架，基于 PyTorch 构建全异步分布式架构，通过独立执行器并行处理生成、训练和评分任务，并整合 DDMA 和 NVLink 技术实现高效数据传输。实测显示，该框架在 4050 亿参数模型中，将强化学习步骤耗

网易有道开源首个专注数学教育的模型 Confucius3-Math

2025-06-24

列大模型的数学模型（英文名称Confucius3-Math），这是国内首个专注于数学教育，可在单块消费级GPU上高效运行的开源推理模型。据了解，Confucius3-Math 是由网易有道 AI 团队开发的140 亿参数开源推理大语言模型，专门针对 K-12 数

字节跳动 Seed 最新强化学习配方 POLARIS 开源

2025-07-17

共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路径。实验结果显示，采用POLARIS训练

AI 重塑千行百业华为云发布盘古大模型 3.0 和昇腾 AI 云服务

2023-07-08

ndSpore，AI开发生产线ModelArts等，为大模型开发和运行提供分布式并行加速，算子和编译优化、集群级通信优化等关键能力。基于华为的AI根技术，大模型训练效能可以调优到业界主流GPU的1.1倍。华为诺亚方舟实验室主任姚骏介

微软开源 Phi-4 系列小参数模型，推理能力媲美 DeepSeek

2025-05-13

自微软开源的Phi-4 模型，为了提升其推理能力，微软通过监督微调和强化学习相结合的训练方法行了深度强化。该方法的核心在于，先通过监督微调让大模型学习高质量的推理演示数据，从而生成详细的推理链，并能够有

Together AI 和 Agentica 联手发布开源模型 DeepCoder-14B-Preview

2025-04-10

eview。 DeepCoder在Deepseek-R1-Distilled-Qwen-14B基础之上，通过分布式强化学习（RL）进行了微调。该模型只有140亿参数，但在知名代码测试平台LiveCodeBench的测试分为60.6%，高于OpenAI的o1模型（59.5%），略低于o3-mini（60.9%）。在Codeforces

华为发布准万亿模型盘古 Ultra MoE

2025-05-31

，提升了模型的训练效率与最终推理性能。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。在训练方法上，华为首次披露在昇腾CloudMatrix 384超节点上，打通大稀疏比MoE强化学习（RL）后训练框架的关键技术，使RL后

字节跳动发布视频生成基础大模型 Seaweed-7B

2025-04-18

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是，该模型以 66.5 万个 H100 GPU 小时训练成本，在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1，具体来看：

小红书开源多模态大模型 dots.vlm1

2025-08-08

小红书 Hi Lab 开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3大语言模型，从零开始完全训练，其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型，

《自然》网站：中国 AI 模型“又一个 DeepSeek 时刻”

2025-07-18

杂志网站16日发表文章说，中国人工智能（AI）模型Kimi K2发布后引发轰动，世界迎来“又一个DeepSeek时刻”。中国在6个月内推出第二款令人印象深刻的模型，表明这一成功并非偶然。文章摘要如下：继今年1月DeepSeek-R1震惊世界

小米开源首个推理大模型“Xiaomi MiMo”——为“Reasoning”而生

2025-05-01

今天，小米开源首个为推理（Reasoning）而生的大模型「Xiaomi MiMo」，联动预训练到后训练，全面提升推理能力。在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，MiMo 仅用 7B 的参数规模，超越了 OpenAI 的闭源推

腾讯开源 WeChat-YATT：微信强化学习大模型训练库

2025-08-19

创新发展。并提出 WeChat-YATT 训练库，解决了大模型分布式训练过程中面临的两大核心痛点：多模态场景下的可扩展性瓶颈：随着多模态数据（如图像、视频）规模的不断增长，传统架构中由 SingleController 进行数

阿里云机器学习 PAI 开源中文 NLP 算法框架 EasyNLP，助力 NLP 大模型落地

2022-09-06

模型，也兼容 EasyTransfer 模型，并且可以借助框架自带的分布式训练框架（基于Torch-Accelerator）提升训练效率。大模型小样本落地技术：EasyNLP 框架集成了多种经典的小样本学习算法，例如 PET、P-Tuning 等，实现基于大模型的小

清华大学与蚂蚁集团发布异步强化学习训练平台 AReaL-boba²

2025-06-07

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习（RL）训练平台。该平台专为大型语言模型设计，与传统的同步强化学习训练方法相比，它能在保持相似训练结果的同时，大幅缩短训练时间。这得

熱門推薦