谷歌 DeepMind 团队发表论文《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation》,提出新 Transformer 架构 Mixture-of-Recursions(MoR),旨在同时实现参数共享和自适应计算,以解决大型语言模型训练和部署中的计算与内存开销问题。
https://arxiv.org/abs/2507.10524
MoR 的核心创新包括:
- 参数效率:通过共享层堆栈在不同递归步骤中复用参数,减少参数量。
- 动态计算:轻量级路由器为每个 token 动态分配递归深度,复杂 token 可深入处理,简单 token 可提前退出,从而将计算资源精准分配 。
- 内存优化:采用递归级键值(KV)缓存机制,仅缓存活跃 token 的 KV 对,显著降低内存带宽压力并提升推理吞吐量 。
实验结果显示,在 135M 到 1.7B 参数规模的模型中,MoR 在相同训练计算量下,验证困惑度更低、少样本准确率更高,推理吞吐量相比传统 Transformer 和现有递归基线提升至多 2.18 倍,同时降低内存占用和推理延迟。
因此,MoR 被认为可能在无需承担大模型成本的情况下实现大模型质量,甚至被称为“Transformer 杀手”。