字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索:
-
通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准集合;
-
构建双轨奖励体系,通过可验证问题的智能逻辑验证,融合非可验证问题的两两对比优化,实现数学推理与创意生成等全场景任务的精准训练;
-
通过 SFT 阶段的精准数据构造,和 RL 阶段的关键算法创新,提高大语言模型的推理上限;
-
优化了 HybridFlow 编程模型和流式推理系统,并支持张量/专家/序列三层并行架构。
Seed-Thinking-v1.5 是字节跳动 Seed 团队即将推出的智能推理模型。该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,同时,模型采用 MoE 架构,总参数 200B,激活参数为 20B,具备显著的推理成本优势。
目前 Seed-Thinking-v1.5 技术报告已公开,4 月 17 日将通过火山引擎开放接口供用户体验。
技术报告链接:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5