DeepSeek 新论文公开 V3 大模型降本方法

2025-05-16 發表於开源资讯

DeepSeek 团队近日发表了新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》，把 DeepSeek-V3 在训练和推理过程中，如何解决“硬件瓶颈”的方法公布了出来。

论文主要介绍了 DeepSeek-V3 在硬件架构方面的挑战和创新，以及如何通过软硬件协同设计实现高效训练和推理。

关键结论

内存效率：DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB，远低于其他模型（如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB）。这使得模型更适合处理长文本和资源受限的环境。
成本效益：MoE 架构允许在训练时仅激活部分参数，从而显著降低计算需求。例如，DeepSeek-V3 在扩展到 671B 参数时，每个 token 的激活参数仅为 37B，相比全参数激活的密集模型（如 72B 的 Qwen 和 405B 的 LLaMA），计算成本大幅降低。
推理速度：通过重叠计算和通信以及多令牌预测模块，DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如，多令牌预测模块可以将生成速度提高 1.8 倍。
低精度计算：FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练，通过细粒度量化策略，相对 BF16 的精度损失控制在 0.25% 以内。
网络优化：采用多平面两层 Fat-Tree 网络拓扑，相比传统的三层 Fat-Tree 拓扑，显著降低了网络成本，并提高了网络的鲁棒性和可扩展性。

论文还提出了对未来 AI 硬件的建议和展望。详情查看：https://arxiv.org/pdf/2505.09343

相關推薦

百度端到端语音语言大模型发布成本宣称最高降90%

2025-04-01

”，通过整合百度自研的文心X1、文心4.5等模型，并接入DeepSeek-R1等第三方优质模型，实现了多模型间的智能协同。用户可以选择“自动模式”，一键调用最优模型组合，也可根据需求灵活选择单一模型完成特定任务，大幅提升

RWKV 社区七月动态：RWKV7-G0 7.2B 模型发布，8 篇高质量论文

2025-08-01

入了 DeepEmbed 技术，总参数 0.9B RWKV 学术研究动态新论文：AuroraLong: Bringing RNNs Back to Efficient Open-Ended Video Understanding（基于 RWKV 的视频理解，已入选 ICCV 2025）新论文：An Efficient Image Fusion Network Exploiting Unifying Language and Ma

Goose 起飞！RWKV 社区三月新增 14 篇学术论文和若干多模态项目

2025-03-29

事！ 3 月动态省流版（TL;DR） RWKV 学术研究动态新论文：RWKV-7 "Goose"（RWKV-7 架构论文）新论文：ChemRB（RWKV 分子生成模型）新论文：LALIC（RWKV 图像压缩）新论文：TabulaTime（RWKV 急性冠状动脉综合征预测）新论文

一键式 RWKV RAG、RWKV-Keras、新论文...RWKV 社区 7 月动态速览！

2024-08-01

大家好，《RWKV 社区最新动态》迎来了第三期内容，本期统计了 RWKV 社区 7 月的重要动态，一起来看看吧！省流版本： RWKV 官方公告 RWKV-6-World 14B 模型已发布 RWKV 中文官网 rwkv.cn 正式上线 RWKV 社区新项目 RWKV RAG：

DeepSeek 启用硬盘缓存技术，大模型价格再降一个数量级

2024-08-04

DeepSeek 宣布启用上下文硬盘缓存技术，把预计未来会重复使用的内容，缓存在分布式的硬盘阵列中。如果输入存在重复，则重复的部分只需要从缓存读取，无需计算。该技术不仅降低服务的延迟，还大幅削减最终的使用成本。

Llama 4 不是真开源，比 DeepSeek 格局差多了

2025-04-08

显得异常复杂。1littlecoder指出，即使是中国公司的模型如DeepSeek和Qwen，用户只需点击几下即可下载。而Meta的模型却设置了多重障碍： "Meta的模型要求你首先登录Hugging Face账户，这点我能理解，他们可能有垃圾邮件问题。然后填

DeepSeek V3 模型更新，大幅提升编程能力

2025-03-27

北京时间 3 月 24 日晚，DeepSeek 「突然」发布了模型更新。但暂时还不是 DeepSeek V4 或 R2，而是 DeepSeek V3 模型的一次更新。目前，其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/dee

微软开源 DeepSeek-R1 魔改版「MAI-DS-R1」：响应 99% 敏感提示、风险降 50%

2025-04-19

微软今天开源了一款“魔改版”的 DeepSeek-R1 模型「MAI-DS-R1」，其在保留原有推理性能的基础上进行了大幅度增强，尤其是在响应和屏蔽词方面有了显著改进： MAI-DS-R1 可以响应 99.3% 的敏感话题提示，比原版 R1 提升了2倍，这

蚂蚁回应 AI 训练降本：基于不同芯片持续调优，将逐步开源

2025-03-25

节省了近20%。同时，性能与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。

李彦宏谈 DeepSeek 现存痛点，称 Deepseek又慢又贵

2025-04-26

钟演讲，正式发布文心大模型4.5Turbo与X1Turbo版本，并披露DeepSeek模型在百度生态中的落地进展与现存挑战。李彦宏透露，百度旗下文小言、百度搜索、百度地图等核心产品已接入DeepSeek满血版模型，在智能客服、搜索增强等场景

小米大模型团队开源对角蛇形自回归图像生成方式

2025-04-19

小米大模型团队宣布，其最新提出了一种新的生成方法，即具有方向感知的对角蛇形（diagonal snake-likeorder）自回归图像生成方式（DAR）。目前，相关的论文、训练代码、模型权重已经开源。根据介绍，它不是一行一行地画，而

Diboot 低代码 v3.6.0 版本发布 - 集成 DeepSeek，强化 AI 赋能

2025-03-27

，方便管理三方应用接入、授权、日志 AI组件支持接入DeepSeek，支持DS推理 PC前端：角色管理支持配置角色人员、菜单资源支持配置移动端菜单、确认删除提示支持明确哪条数据等 devtools工具：创建模型时支持导入视图、

DeepSeek 新专利公开：优化网页采集流程，降低网络资源消耗

2025-04-03

4月1日，DeepSeek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利在国家知识产权局正式公布。据专利摘要介绍，该方法旨在在尽可能多发现网页链接的同时，降低网站流

幻方量化旗下 DeepSeek 发布 67B 开源大模型

2023-12-01

布，其探索 AGI（通用人工智能）的新组织“深度求索（DeepSeek）”继 11 月初发布 Coder 代码模型之后，正式发布通用大语言模型：DeepSeek LLM 67B。模型已完全开源，同时服务已经全面开放内测。目前 DeepSeek 已同时开源 7B 和 67B 的