谷歌 DeepMind 新架构 MoR 有望成为“Transformer 杀手”


谷歌 DeepMind 团队发表论文《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation》,提出新 Transformer 架构 Mixture-of-Recursions(MoR),旨在同时实现参数共享和自适应计算,以解决大型语言模型训练和部署中的计算与内存开销问题。

https://arxiv.org/abs/2507.10524

MoR 的核心创新包括:

  • 参数效率:通过共享层堆栈在不同递归步骤中复用参数,减少参数量。
  • 动态计算:轻量级路由器为每个 token 动态分配递归深度,复杂 token 可深入处理,简单 token 可提前退出,从而将计算资源精准分配 。
  • 内存优化:采用递归级键值(KV)缓存机制,仅缓存活跃 token 的 KV 对,显著降低内存带宽压力并提升推理吞吐量 。

实验结果显示,在 135M 到 1.7B 参数规模的模型中,MoR 在相同训练计算量下,验证困惑度更低、少样本准确率更高,推理吞吐量相比传统 Transformer 和现有递归基线提升至多 2.18 倍,同时降低内存占用和推理延迟。

因此,MoR 被认为可能在无需承担大模型成本的情况下实现大模型质量,甚至被称为“Transformer 杀手”。


相關推薦

2023-03-31

一个用于训练和评估大型多模态模型 (LMM)的框架,属于 DeepMind 的 Flamingo 模型(一种能够处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。 其数据集 OpenFlamingo-9B 的 Demo 页面展示了训练结果,用户可以上传图

2023-07-18

创始人 Larry Page 之间的一些交往称,自 2014 年谷歌收购 DeepMind 后,两人曾就 AI 安全问题进行了多次对话,但双方观点截然不同。因此他意识到,有必要建立一个可"制衡"谷歌及其对 AI 领域影响的机构。这个平衡点就是 OpenAI。

2025-06-27

计算机视觉领域代表人物何恺明官宣加入谷歌DeepMind,担任杰出科学家(Distinguished Scientist)。 他在个人主页上表示,自己在 DeepMind 的工作是兼职,还将继续保留 MIT 终身副教授的身份。 何恺明是残差网络(ResNet)的主要发明

2024-08-06

2021 年 10 月离开谷歌。谷歌表示,Shazeer 重返后将加入 DeepMind 研究团队,但没有具体说明他或 De Freitas 的具体职责。 “我们特别高兴地欢迎机器学习领域的杰出研究员 Noam 的回归,他将与他的几位同事一起加入谷歌 DeepMind 的

2023-06-28

谷歌旗下研究实验室 DeepMind 的首席执行官 Demis Hassabis 向《连线》杂志表示,他们的工程师正在使用 AlphaGo 技术来开发一个名为 Gemini 的人工智能系统,比 OpenAI ChatGPT 背后的系统更为强大。 Gemini 本质上与 GPT-4 类似,是一个可以

2025-03-20

NVIDIA 宣布与 Google DeepMind 和 Disney Research 合作,共同开发开源物理引擎 Newton,可让机器人学习如何以更高的精度处理复杂任务。 Newton 基于 NVIDIA Warp 框架构建,将针对机器人学习进行优化,并与 Google DeepMind MuJoCo 和 NVIDIA Isaac

2025-05-20

谷歌 DeepMind 团队推出 AlphaEvolve,这是一个基于 Gemini 的编程智能体 (Coding Agent),用于通用算法设计和优化。AlphaEvolve 结合了 Gemini 模型的创造性问题解决能力与验证答案的自动评估器,并使用进化框架来改进最有潜力的想法。

2025-07-15

易失败(收购协议排他性期限到期未续签 ),谷歌 DeepMind 迅速 “截胡”,宣布聘请 Windsurf 创始人兼首席执行官 Varun Mohan、联合创始人 Douglas Chen 及部分研发人员加入谷歌 DeepMind 团队,专注于以 Gemini 为核心的 AI 编程(智能

2025-05-20

这两年,我依然相信AI为搜索带来了前所未有的机遇。以Transformer架构为基础的模型,如BERT和MUM,已经显著提升了搜索的理解能力和结果质量。 我们大约一年前推出了“AI 概览”(AI Overviews),目前已覆盖全球150多个国家和地

2025-07-23

谷歌 DeepMind 团队宣布,其一个高级版本的 Gemini Deep Think 模型,在国际数学奥林匹克(IMO)竞赛的问题上正式取得了金牌水平的成绩。 该模型在六道题目中完美解决了五道,总共获得 35 分(满分 42 分),达到了金牌分数线。IMO

2023-01-20

也在研发属于自己的对话模型,并宣称即将通过子公司 DeepMind 推出一款与 ChatGPT 竞争的聊天机器人,名为“Sparrow”。 这个名为 Sparrow 的新聊天机器人是去年在一篇研究论文中作为概念验证引入的。DeepMind 首席执行官 Demis Hassabi

2024-08-23

《时代周刊》最新消息称,谷歌 AI 研发部门 DeepMind 内部近 200 名员工签署了一封联名信,呼吁这家科技巨头取消与军事组织的合同。这封信是在 AI 实验室内部越来越担心其技术被出售给参与战争的军方的情况下流传开来的,工

2025-04-12

谷歌 DeepMind 首席执行官 Demis Hassabis 最近在 LinkedIn 联合创始人 Reid Hoffman 联合主持的播客 Possible 上表示,谷歌计划最终将其 Gemini AI 模型与其Veo 视频生成模型相结合,以提高前者对物理世界的理解。 Hassabis 表示:“我们从一开

2025-06-06

penAI 的工程师跳槽至 Anthropic 的比例高达8:1,而来自谷歌 DeepMind 部门的人才流失情况更为显著,比例达到11:1。这一趋势表明,Anthropic 不仅在技术上实力雄厚,更因其对 AI 安全的重视,吸引了众多追求职业发展的专家。 分析认