腾讯混元 TurboS 技术报告发布:560B 参数混合 Mamba 架构、自适应长短链融合


年初,腾讯混元 TurboS “快思考模型”正式发布,作为业界首款大规模混合 Mamba-MoE 模型,其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。

近日,腾讯混元 TurboS 发布了技术报告,其模型架构如下:

据介绍,腾讯混元 TurboS 核心创新体现在以下几个方面:

架构协同:巧妙地融合了Mamba架构处理长序列的高效性与Transformer架构卓越的上下文理解能力。这两种架构的结合,旨在取长补短,实现性能与效率的最大化。模型包含128层,采用了创新的“AMF”(Attention → Mamba2 → FFN)和“MF”(Mamba2 → FFN)模块交错模式。这种设计使得模型在拥有5600亿总参数(56B激活参数)的同时,保持了较高的运算效率。

自适应思维链 (Adaptive Long-short CoT):该机制是Hunyuan-TurboS的一大亮点。它借鉴了短思维链模型(如GPT-4o)的快速响应和计算友好特性,以及长思维链模型(如o3)强大的复杂推理能力。面对简单问题,TurboS自动激活“无思考”(no thinking)模式,以最小计算成本提供足够质量的答案;而当遇到复杂问题时,则自动切换至“思考”(thinking)模式,运用逐步分析、自我反思和回溯等深度推理方法,给出高准确度的回答。

先进的后训练策略:为了进一步增强模型能力,腾讯混元团队设计了包含四个关键模块的后训练流程:

1、监督微调(SFT):通过精心构建的百万级自然和合成指令数据进行微调。

2、自适应长短CoT融合:通过专门训练的教师模型和独特的强化学习框架,实现推理策略的自主选择、计算资源的有效分配,并通过无损压缩和重构长思维链来提升响应的可读性。

3、多轮推敲学习(Multi-round Deliberation Learning):SFT模型在模拟评估环境中与其他先进混元模型进行比较,通过多LLM裁判组和人类专家的评估驱动迭代优化。

4、两阶段大规模强化学习:利用GRPO,第一阶段聚焦于提升推理能力,第二阶段则致力于改善全领域的通用指令遵循能力。

详情查看论文:https://arxiv.org/abs/2505.15431


相關推薦

2025-05-23

腾讯混元宣布模型矩阵全面升级: 旗舰快思考模型混元TurboS、深度思考模型混元T1升级,并基于TurboS基座,腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice 腾讯混元图像2.0、腾讯混元3D v2.5及混元游戏视

2025-05-16

微软的人工智能研究团队 WizardLM,近日被爆出已整体加入腾讯 AI 实验室旗下的“混元”团队。多位核心研究人员在社交平台 X(原推特)上宣布了这一动向。 在周二的帖子中,曾领导多个 WizardLM 项目的微软高级研究员 Can Xu 表

2025-05-15

社交媒体上宣布,他与WizardLM团队已离开微软,并加入了腾讯混元(Tencent Hunyuan)团队。他们将继续致力于推动大型语言模型(LLM)的训练技术发展,并构建更优质的AI模型。 Can Xu提及,腾讯最新的Hunyuan-Turbos模型在lmarena.a

2025-05-01

腾讯对其混元大模型研发体系进行了全面重构,围绕算力、算法和数据三大核心板块,刷新团队部署,加码研发投入。 调整后,腾讯成立两个新的部门:大语言模型部和多模态模型部,分别负责探索大语言模型和多模态大模

2025-05-17

腾讯混元图像2.0模型(Hunyuan Image2.0)已正式发布。该模型主要有两大特点:实时生图、超写实画质。目前已在腾讯混元官方网站上线(https://hunyuan.tencent.com/),并对外开放注册体验。 官方数据显示,在图像生成领域专门测试

2025-05-10

腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具 HunyuanCustom。HunyuanCustom 融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。 HunyuanCustom 整体架构

2024-05-18

5月17日上午,在腾讯生成式AI产业应用峰会上,腾讯副总裁、腾讯混元大模型负责人蒋杰透露称,将在今年三季度开源混元最核心的文生文模型。 蒋杰称,腾讯内部正在训练三种尺寸(S、M、L)的文生文模型供开源使用, S

2025-04-19

腾讯混元宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型Flux的兼容。“通过这个插件,在大模型中,只需要一张图加一句话,你可以让任何角色以你想要的姿势出现在任何地方。” 示例: 输入原始图

2025-03-29

参加 NVDIA GTC 2025 RWKV 社区项目动态 RWKV 端侧 APP 发布并开源 新项目:WorldRWKV(RWKV 多模态) 新项目:RWKV-TTS(RWKV 文本转音频) RWKV 学术研究动态 RWKV 学术研究包括 基于 RWKV 架构的新论文 或 RWKV 社区参加的学术研

2024-07-30

空间中生成高度压缩和可重用的 KV-Cache。 相对于 1.5B 参数的 Finch 和 Llama 模型而言,GoldFinch 的建模性能显着提高。 RWKV 模型介绍 RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度

2025-03-29

腾讯混元日前宣布正式开源基于Hunyuan 3D 2.0技术框架的5款三维生成模型,进一步丰富 3D AIGC 社区。 本次开源的Turbo加速系列、多视图推理模块及轻量级mini模型,均基于Hunyuan 3D 2.0模型,组成了包含6大模型的Hunyuan 3D 2.0 家族。

2023-08-05

根据多家媒体的报道,腾讯自研的“腾讯混元大模型”已经进入应用内测阶段。腾讯员工近期收到了内部邮件邀请,可以通过网页或者小程序体验混元大模型,腾讯内部多个业务也已经接入混元大模型进行测试。 腾讯表示,从

2025-03-21

腾讯混元通过官方公众号宣布,全新的推理模型 T1 将于本周五(北京时间 3 月 21 日 23 时)正式发布。 与此同时,腾讯宣布,混元大模型首次登上 Chatbot Arena 榜单,跻身全球 Top 15。用户在该平台上以匿名方式与多个模型互动

2023-08-01

百度首席技术官王海峰在近日举办的 ACM 中国图灵大会上,就文心大模型的核心技术进行了解读。 文心一言是百度自主研制的知识增强大语言模型,首先从数万亿数据和数千亿知识中融合学习得到预训练大模型,在此基础上