DeepSeek 团队近日发表了新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,把 DeepSeek-V3 在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。
论文主要介绍了 DeepSeek-V3 在硬件架构方面的挑战和创新,以及如何通过软硬件协同设计实现高效训练和推理。
关键结论
- 内存效率:DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB,远低于其他模型(如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB)。这使得模型更适合处理长文本和资源受限的环境。
- 成本效益:MoE 架构允许在训练时仅激活部分参数,从而显著降低计算需求。例如,DeepSeek-V3 在扩展到 671B 参数时,每个 token 的激活参数仅为 37B,相比全参数激活的密集模型(如 72B 的 Qwen 和 405B 的 LLaMA),计算成本大幅降低。
- 推理速度:通过重叠计算和通信以及多令牌预测模块,DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如,多令牌预测模块可以将生成速度提高 1.8 倍。
- 低精度计算:FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练,通过细粒度量化策略,相对 BF16 的精度损失控制在 0.25% 以内。
- 网络优化:采用多平面两层 Fat-Tree 网络拓扑,相比传统的三层 Fat-Tree 拓扑,显著降低了网络成本,并提高了网络的鲁棒性和可扩展性。
论文还提出了对未来 AI 硬件的建议和展望。详情查看:https://arxiv.org/pdf/2505.09343