根据《The Information》的报道,DeepSeek 工程师在过去几个月一直致力于完善 R2 模型,但梁文锋对 R2 现在的性能还不满意,工程师团队仍在全力优化和打磨,发布时间待定。梁文峰要求模型达到更出色的结果才批准发布。
此外,由于美国出口管制导致中国市场英伟达服务器芯片(H20)短缺,R2 的大规模普及可能面临困难。
目前,大多数使用 DeepSeek R1 模型的中国云客户仍依赖 H20 芯片。报道指出,如果 DeepSeek 即将推出的 R2 模型其性能超过目前市面上的开放替代模型,预计使用量将激增,超出中国云平台的处理能力。因为他们需要先进的英伟达芯片来运行 AI 模型。
DeepSeek 已向部分中国云公司提供了 R2 的技术规范,以指导其托管和分发模型的计划,但尚未公布具体的发布日期。
相关阅读
DeepSeek-R1-0528 更新:思考更深,推理更强
DeepSeek R1 模型完成小版本试升级,逻辑理解能力提升