DeepSeek 开源 DeepSeek-Prover-V2-671B


DeepSeek 在官方 Hugging face 库上低调开源发布了其最新开源模型 DeepSeek-Prover-V2-671B。一个专注于数学定理证明的大语言模型,专门针对形式化数学证明任务进行优化。

新模型具有以下特点:

  • 模型规模巨大:参数量约为671B(6710亿参数),这从模型分片数量(163个)和每个分片大小(约4.3GB)可以看出
  • 使用了DeepSeek-V3的架构:采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层
  • 专为数学定理证明优化:从名称"Prover"(证明者)可以看出,这是一个专注于数学推理和定理证明的专业模型
  • 支持超长上下文:最大位置嵌入达163840,使其能处理复杂的数学证明
  • 采用FP8量化:通过量化技术减小模型大小,提高推理效率

相關推薦

2025-04-11

关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。 测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-25

2025-04-12

工单SLA管理 工单统计和报表 ... AI大模型 Ollama/DeepSeek/ZhipuAI/... 智能体 工作流 ... 客户之声 意见反馈 服务投诉 问卷调查 ... 项目看板 待办todo卡片 日报/周报 统计 ... 工作流 自定义表单

2025-05-08

理 工单SLA管理 工单统计和报表 ... AI Agent Ollama/DeepSeek/ZhipuAI/... 智能体 工作流 ... 客户之声 意见反馈 服务投诉 问卷调查 ... 项目看板 待办todo卡片 日报/周报 统计 ... 工作流 自定义表单

2025-05-15

理 工单SLA管理 工单统计和报表 ... AI Agent Ollama/DeepSeek/ZhipuAI/... 智能体 工作流 ... 客户之声 意见反馈 服务投诉 问卷调查 ... 项目看板 待办todo卡片 日报/周报 统计 ... 工作流 自定义表单

2025-04-30

6)、AIME'24(85.7)、LiveCodeBench v5(70.7)等测试中,优于DeepSeek-R1、o1、Grok-3等模型,仅在AIME'25(81.5)略低于Gemini-2.5-Pro(86.7)。 Qwen3-30B-A3B:在ArenaHard(91.0)、AIME'24(80.4)等测试中,超越QwQ-32B(激活参数为其10倍)。 Qwen3

2025-04-10

台Agentica联合开源了新模型DeepCoder-14B-Preview。 DeepCoder在Deepseek-R1-Distilled-Qwen-14B基础之上,通过分布式强化学习(RL)进行了微调。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型(59.5%

2025-05-20

理 工单SLA管理 工单统计和报表 ... AI Agent Ollama/DeepSeek/ZhipuAI/... 智能体 工作流 ... 客户之声 意见反馈 服务投诉 问卷调查 ... 项目看板 待办todo卡片 日报/周报 统计 ... 工作流 自定义表单

2025-05-24

本刚于上月发布,显著提升了翻译质量。在电商行业中,DeepSeek-R1的表现同样突出,显示了其在特定领域的竞争力。 在文化特性方面,Qwen 系列模型表现亮眼,Qwen2.5-0.5B-Instruct 和 Qwen2.5-1.5B-Instruct 分列前两位,展示了其在跨文化

2025-05-25

理 工单SLA管理 工单统计和报表 ... AI Agent Ollama/DeepSeek/ZhipuAI/... 智能体 工作流 ... 工作流 自定义表单 自定义流程 工单流程可视化 ... 客户之声 意见反馈 服务投诉 问卷调查 ... 呼叫中心 基

2025-03-25

Xinference v1.4.0 发布 🚀! ✨ Gemma-3 模型重磅来袭,DeepSeek-v3 现已支持 Function Calling! 🎉 社区贡献者突破 100+!感谢大家的支持,期待更多伙伴加入贡献代码 💪💖。 🌍 社区版 📌 更新指南 * Pip:pip install 'xinference==1.4.0

2024-07-18

的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。 开发人员可以从 GitHub 仓库或通过 HuggingFace 修改和部署 Codestral Mamba。它将采用开源 Apache 2.0 License。 Mistral 声称,Codestral 早期版本的性能优于 CodeLlama 70B 和 Deep

2025-03-21

辑方面超越了 OpenAI 的 GPT 模型、谷歌 DeepMind 的 Gemini 和 DeepSeek 等全球竞争对手。 共包括三个不同的尺寸:具有 320 亿个参数的 Exaone Deep 32B、具有 78 亿个参数的 Exaone Deep 7.8B 和具有 24 亿个参数的 Exaone Deep 2.4B。 LG 表示,韩国

2025-04-09

B     💰 Fin-R1(金融领域)      🧐 Deepseek-VL2 ✨ 新功能     新增 n_worker 校验机制,若超出可用 worker 数量,则拦截避免错误 🚧     Fin-R1 模型支持 GPTQ(int4, int8)和 FP8   SGLang 引

2025-03-27

源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)达成过“开源周”,其在2月末连续五天发布五个代码库,并于近日继续开源上线了升级后的DeepSeek-V3模型。 阶跃星辰则在一个月左右时间开源三款多模态大