RWKV-8 系列之 DeepEmbedAttention:精简 KV 缓存,尤其适合混合模型


5 月 27 日,我们公开了 RWKV-8 首个新特性 DeepEmbed:对端侧友好的稀疏设计,解决 MoE 显存占用。

今天,我们公开与其相关的另一个新特性:DeepEmbedAttention(DEA) ,这是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体,拥有极小的 KV 缓存 ,尤其适合混合模型(例如后续的 RWKV-7s 混合模型),可将它们的长上下文性能提升到 Transformer 水准。

DEA 的结构定义例子:

# q: D => 256
# k: D => 32, k_up: 32 => 256, k_emb: V => 256
# v: D => 32, vup: 32 => D, v_emb: V => D
q = ln_q(q(x))
k = ln_k(k_up(k(x)) * k_emb(idx))
v = ln_v(tanh(v_up(v(x))) * v_emb(idx)) 

然后将 QKV 的输出加到 RWKV-7 的输出上。这适合并行计算,例如可在不同设备(或异构计算)计算 QKV 和 RWKV-7 部分。

这个注意力头的维度是 256,但由于 DEA 的 keyvalue 只需缓存 32 维,KV 总共只需缓存 64 个值(32+32)。

对于 RWKV-7,只需在每层加上一个 DEA head,就能显著增强长上下文能力。因此,对比现有的高效注意力机制(例如 MLA 使用 576 个值),DEA 的 KV 缓存进一步缩小到 64/576 = 1/9,实现了极致效率。

图中 loss delta 图的横轴是随着前文长度增加时 token 的位置(token_pos),纵轴表示两种架构在不同 token 位置的 loss 差值(token_loss delta)。

实验结果显示:随着前文长度增加,RWKV-7s(加入 DeepEmbed 和 DEA)在越来越长前文的 loss 相较原版 RWKV-7 持续下降,从 -0.13 降至 -0.17。

这意味着 RWKV-7s 这类添加了 DEA 的混合模型,在处理长上下文时表现更好。因为 token 越靠后,所依赖的前文也越长,而 loss 差值持续扩大,代表 RWKV-7s 对比 RWKV-7 更有能力利用越来越长的前文所包含的越来越多的信息,语言建模能力越来越强。

最后,尽管 DEA 的 KV 缓存非常小,但它仍会随上下文长度而缓慢增长。RWKV-8 的目标,是在完全无 KV 缓存的情况下也能实现强上下文能力,且我们也有方法,后续逐步公布,欢迎大家关注。


相關推薦

2025-05-16

推理。 关键结论 内存效率:DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB,远低于其他模型(如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB)。这使得模型更适合处理长文本和资源受限的环境。 成本效益:M

2025-06-11

Intelligence核心语言基础模型更加高效和强大,从而解锁一系列集成在我们软件平台中的有用功能,并为全球众多语言的用户带来这些功能。我们还为应用开发者提供了直接访问我们设备上的语言基础模型的新Foundation Models框架。

2024-07-30

显著地减少了推理时间和内存占用,使其成为现实应用(尤其是机器人领域)的更佳选择。 图像处理 Restore-RWKV 论文名称: Restore-RWKV: Efficient and Effective Medical Image Restoration with RWKV 论文链接: https://arxiv.org/abs/2407.11087 Res

2025-03-26

在 Windows PC 上实现本地化私密运行 LLM,并针对锐龙 AI 300 系列处理器进行了优化。该应用通过 NPU 提升 AI 任务性能,并支持混合部署量化 LLM。 GAIA 基于 ONNX TurnkeyML 的 Lemonade SDK 开发,采用检索增强生成(RAG)技术,支持 Llama、P

2025-06-18

al 模型支持 :Magistral 是 miniwob 上针对 OPT-125m 微调的模型系列,该模型在 miniwob 基准测试中表现突出,vLLM 现已支持该模型。 支持 FlexAttention :为开发者提供了更灵活的注意力机制选择,有助于适配不同模型架构和任务需求。

2025-05-09

了动力,OpenSearch 开发者社区抓住了这个机会,推出了一系列技术创新,将 OpenSearch 提升到新的能力、性能和多样性层面。感谢他们的努力,以及技术指导委员会的监督,OpenSearch 3.x 系列现已准备好,帮助你应对未来应用所需的

2025-06-09

面壁智能正式发布并开源了「面壁小钢炮」端侧系列最新力作——MiniCPM 4.0 模型,实现了端侧可落地的系统级软硬件稀疏化的高效创新。英特尔与面壁智能从模型开发阶段就紧密合作,实现了长短文本多重推理效率的提升,端侧

2024-10-08

和首次运行时的锁定问题 修复空指针解引用问题 改进缓存清理机制:在设置键值对为默认值之前清除缓存 改善垃圾回收(GC)算法,解决某些情况下的收集失败问题 支持128位写粒度、缓存性能优化,垃圾回收速度提升2倍

2025-05-24

提供快速易用的库。该工具支持分布式部署和先进的 KV 缓存管理,并能与工业级 LLM 基础设施集成。 漏洞存在于 PyNcclPipe 类中,该类通过点对点消息传递实现分布式节点间的 KV 缓存传输。其 CPU 端消息传递机制使用 Python 的 pick

2024-08-01

显著地减少了推理时间和内存占用,使其成为现实应用(尤其是机器人领域)的更佳选择。 相关链接: Decision-RWKV 论文地址:https://arxiv.org/abs/2407.16306 Decision-RWKV GitHub 仓库:https://github.com/ancorasir/DecisionRWKV 8 月预告 RWKV

2023-10-30

3.1.X 维护及 3.2.X 开发。2.7.16.Final 版本是 Dante Cloud 2.7.X 系列最后一个版本,代码仍旧会保留,可在工程 2.7.X 分支中获取。 本次更新内容 【主要更新】 [升级] Spring Boot 版本升级至 3.1.5 [升级] Spring Authorization Server 版本升

2025-04-08

部署冗余,实现高可用性、故障转移安全的基于 Redis 的缓存或发布/订阅。 Ollama 的 JSON 模式格式:增加了在与 Ollama 兼容的模型中使用 JSON 模式定义格式的支持,提高了模型输出的灵活性和验证性。 聊天侧边栏搜索“清除”

2025-03-29

",一种新的序列建模架构。 通过引入广义 Delta Rule 等一系列优化,RWKV-7 的语言建模能力在所有开源 3B 规模模型中达到 SoTA 水平,计算效率、任务表现和模型表达力全面超越 Transformer 和过去的 RWKV-6 架构。 ChemRB 论文名称

2025-06-11

的燃料。然而,企业在将数据应用于AI时,普遍面临着一系列严峻挑战: 数据质量参差不齐:不准确、不完整、标签错误或充满噪声的数据是AI项目失败的常见元凶。 数据孤岛与集成难题:数据往往散落在企业内部各个孤立