INTELLECT-2 发布:首个通过全球分布式强化学习训练的 320 亿参数模型


INTELLECT-2 已正式发布,该项目展示了一种新的大模型训练方式:利用全球分布的、无需许可的计算贡献者组成的动态、异构网络,以完全异步的方式进行强化学习训练。

INTELLECT-2 具备前沿的推理性能,支持异构计算节点,并允许无需授权的贡献,能对 32B 参数模型进行去中心化 RL 训练:

  • prime-RL:新推出的开源库,用于完全异步的去中心化RL,基于具备容错的去中心化训练框架prime开发。

  • SYNTHETIC-1 & GENESYS:用于RL任务众包和验证环境的库。

  • TOPLOC:实现高效、可验证的推理方法,用于验证INTELLECT-2中所有去中心化rollout节点的计算。

  • 协议测试网:提供基础设施和经济激励,用于聚合和协调全球计算资源,打造真正自主的开源AI生态系统。

INTELLECT-2基础设施主要由三个组件构成:

  • 推理采样节点(Inference Rollout Workers):一组去中心化节点,用最新的策略模型,从环境中收集推理轨迹(reasoning rollouts),并计算相应的奖励。

  • TOPLOC验证节点(TOPLOC Validators):负责高效验证无需授权的rollout工作节点的推理计算,打造无需信任的系统。

  • GRPO训练节点(GRPO Training Workers):从去中心化推理采样节点收集到新生成的数据后,采用DeepSeek的GRPO训练方法进行训练。训练完成后,这些训练节点会通过Shardcast库,将更新后的权重广播给所有推理节点,以启动下一轮数据收集。

该基础设施具备以下特性:

  • 完全消除通信开销:通过异步强化学习,新策略模型的广播与正在进行的推理和训练完全重叠,通信不再成为瓶颈。

  • 支持异构推理节点:允许任何人按自己的节奏生成推理轨迹(reasoning traces),跨节点处理速度没有统一要求。

  • 资源需求低:在这种训练设置中,占计算资源大头的推理节点可以在消费级GPU上运行。例如,配备4块RTX 3090 GPU的机器,足以支持32B参数模型的训练。

  • 实现高效验证:推理计算的验证过程,不会引入训练瓶颈。

详情查看:https://www.primeintellect.ai/blog/intellect-2-release


相關推薦

2023-07-08

ndSpore,AI开发生产线ModelArts等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。基于华为的AI根技术,大模型训练效能可以调优到业界主流GPU的1.1倍。 华为诺亚方舟实验室主任姚骏介

2025-05-13

自微软开源的Phi-4 模型,为了提升其推理能力,微软通过监督微调和强化学习相结合的训练方法行了深度强化。 该方法的核心在于,先通过监督微调让大模型学习高质量的推理演示数据,从而生成详细的推理链,并能够有

2025-04-10

eview。 DeepCoder在Deepseek-R1-Distilled-Qwen-14B基础之上,通过分布式强化学习(RL)进行了微调。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型(59.5%),略低于o3-mini(60.9%)。在Codeforces

2025-04-18

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:

2025-05-01

今天,小米开源首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」,联动预训练到后训练,全面提升推理能力。 在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推

2022-09-06

模型,也兼容 EasyTransfer 模型,并且可以借助框架自带的分布式训练框架(基于Torch-Accelerator)提升训练效率。 大模型小样本落地技术:EasyNLP 框架集成了多种经典的小样本学习算法,例如 PET、P-Tuning 等,实现基于大模型的小

2023-08-19

木分子联合清华大学智能产业研究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。 此

2023-08-01

和长文本摘要,拓展了大模型能力边界。 根据 IDC 最新发布的《AI 大模型技术能力评估报告,2023》,百度文心大模型3.5在14个参评模型中拿下12项指标的7个满分,得到“综合评分第一,算法模型第一,行业覆盖第一”三个绝对

2023-10-21

se AI 作为一款全新产品,建立在 Alluxio 企业版多年积累的分布式系统经验上,采用了针对 AI/ML 负载优化的新架构。 Alluxio Enterprise Data 是 Alluxio 企业版大数据方向的下一代版本(与 Alluxio Enterprise AI 平行),并将继续成为专注分

2025-04-09

种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。该方法通过设计一种视觉任务评估驱动的奖励机制,为模型的目标定位能力提供了强有力的支持。

2023-12-02

12月1日,昆仑万维正式发布「天工SkyAgents」平台,助力大模型走入千家万户。「天工SkyAgents」是国内领先的AI Agents开发平台,基于昆仑万维「天工大模型」打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用

2025-04-22

有化部署简便;全新升级模型定制优化工具链,支持SFT、强化学习两种模型定制优化方案,定制门槛低。 ✨三大核心技术创新——大规模多阶段强化学习训练方法、基于快慢思考的统一训练方法、工程技术系统创新保障基于国

2023-03-02

,涉及数据、算法、算力及训练基础设施等。智源研究院发布的FlagOpen大模型技术开源体系,是智源及上下游生态合作机构联合开展技术攻关的成果展现,为大模型技术创新提供了“北京贡献”。同时,他对于大模型的发展提出

2023-07-25

,北京知未智能科技有限公司(知未智能KDF)产品与技术发布会于上海召开。会上发布了该公司从零训练的大语言模型——“JIANG”大语言模型,以及基于该模型研发的一系列产品,包括KDF智讯、KDF绝未、KDF中书等。 知未智能