DeepSeek 新论文公开 V3 大模型降本方法


DeepSeek 团队近日发表了新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,把 DeepSeek-V3 在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。

论文主要介绍了 DeepSeek-V3 在硬件架构方面的挑战和创新,以及如何通过软硬件协同设计实现高效训练和推理。

关键结论

  • 内存效率:DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB,远低于其他模型(如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB)。这使得模型更适合处理长文本和资源受限的环境。
  • 成本效益:MoE 架构允许在训练时仅激活部分参数,从而显著降低计算需求。例如,DeepSeek-V3 在扩展到 671B 参数时,每个 token 的激活参数仅为 37B,相比全参数激活的密集模型(如 72B 的 Qwen 和 405B 的 LLaMA),计算成本大幅降低。
  • 推理速度:通过重叠计算和通信以及多令牌预测模块,DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如,多令牌预测模块可以将生成速度提高 1.8 倍。
  • 低精度计算:FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练,通过细粒度量化策略,相对 BF16 的精度损失控制在 0.25% 以内。
  • 网络优化:采用多平面两层 Fat-Tree 网络拓扑,相比传统的三层 Fat-Tree 拓扑,显著降低了网络成本,并提高了网络的鲁棒性和可扩展性。

论文还提出了对未来 AI 硬件的建议和展望。详情查看:https://arxiv.org/pdf/2505.09343


相關推薦

2025-04-01

”,通过整合百度自研的文心X1、文心4.5等模型,并接入DeepSeek-R1等第三方优质模型,实现了多模型间的智能协同。用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求灵活选择单一模型完成特定任务,大幅提升

2025-03-29

事! 3 月动态省流版(TL;DR) RWKV 学术研究动态 新论文:RWKV-7 "Goose"(RWKV-7 架构论文) 新论文:ChemRB(RWKV 分子生成模型) 新论文:LALIC(RWKV 图像压缩) 新论文:TabulaTime(RWKV 急性冠状动脉综合征预测) 新论文

2024-08-04

DeepSeek 宣布启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。

2024-08-01

大家好,《RWKV 社区最新动态》迎来了第三期内容,本期统计了 RWKV 社区 7 月的重要动态,一起来看看吧! 省流版本: RWKV 官方公告 RWKV-6-World 14B 模型已发布 RWKV 中文官网 rwkv.cn 正式上线 RWKV 社区新项目 RWKV RAG:

2025-03-27

北京时间 3 月 24 日晚,DeepSeek 「突然」发布了模型更新。 但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。 目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/dee

2025-04-08

显得异常复杂。1littlecoder指出,即使是中国公司的模型如DeepSeek和Qwen,用户只需点击几下即可下载。而Meta的模型却设置了多重障碍: "Meta的模型要求你首先登录Hugging Face账户,这点我能理解,他们可能有垃圾邮件问题。然后填

2025-04-19

微软今天开源了一款“魔改版”的 DeepSeek-R1 模型「MAI-DS-R1」,其在保留原有推理性能的基础上进行了大幅度增强,尤其是在响应和屏蔽词方面有了显著改进: MAI-DS-R1 可以响应 99.3% 的敏感话题提示,比原版 R1 提升了2倍,这

2025-03-25

节省了近20%。同时,性能与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。

2025-04-26

钟演讲,正式发布文心大模型4.5Turbo与X1Turbo版本,并披露DeepSeek模型在百度生态中的落地进展与现存挑战。 李彦宏透露,百度旗下文小言、百度搜索、百度地图等核心产品已接入DeepSeek满血版模型,在智能客服、搜索增强等场景

2025-04-03

4月1日,DeepSeek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利在国家知识产权局正式公布。 据专利摘要介绍,该方法旨在在尽可能多发现网页链接的同时,降低网站流

2023-12-01

布,其探索 AGI(通用人工智能)的新组织“深度求索(DeepSeek)”继 11 月初发布 Coder 代码模型之后,正式发布通用大语言模型:DeepSeek LLM 67B。模型已完全开源,同时服务已经全面开放内测。 目前 DeepSeek 已同时开源 7B 和 67B 的

2025-03-27

,方便管理三方应用接入、授权、日志 AI组件支持接入DeepSeek,支持DS推理 PC前端:角色管理支持配置角色人员、菜单资源支持配置移动端菜单、确认删除提示支持明确哪条数据等 devtools工具:创建模型时支持导入视图、

2025-04-19

小米大模型团队宣布,其最新提出了一种新的生成方法,即具有方向感知的对角蛇形(diagonal snake-likeorder)自回归图像生成方式(DAR)。目前,相关的论文、训练代码、模型权重已经开源。 根据介绍,它不是一行一行地画,而

2025-04-18

库对接 支持 AI 模型 AI 大模型 支持 DeepSeek √ ChatGTP √ Qwq √ 智库 √ Ollama 本地搭建大模型 √ 等等。。 √ AIGC 应用平台介绍 JeecgBoot 平台的 AIGC 功能模块,是一套类