幻方量化旗下 DeepSeek 发布 67B 开源大模型

2023-12-01 發表於开源资讯

知名私募巨头幻方量化宣布，其探索 AGI（通用人工智能）的新组织“深度求索（DeepSeek）”继 11 月初发布 Coder 代码模型之后，正式发布通用大语言模型：DeepSeek LLM 67B。模型已完全开源，同时服务已经全面开放内测。

目前 DeepSeek 已同时开源 7B 和 67B 的两种规模模型，均含基础模型（base）和指令微调模型（chat）。无需申请，免费商用。同时，项目团队还将训练中途的9个模型 checkpoints 开放下载。

相比开源的同级别模型 LLaMA2 70B，DeepSeek LLM 67B 在近 20 个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力（如：HumanEval、MATH、CEval、CMMLU）。

相關推薦

MaxKB 知识库问答系统入选 Gitee 最有价值开源项目

2024-09-30

千问、腾讯混元、字节豆包、智谱 AI、百度千帆、Kimi、DeepSeek等），以及国外公共大模型（包括OpenAl、Azure OpenAI、Gemini等）； ■ 灵活编排：内置强大的工作流引擎和函数库，支持编排AI工作流，有效满足复杂业务场景下的应用

DeepSeek 开源 DeepSeek-Prover-V2-671B

2025-05-01

DeepSeek 在官方 Hugging face 库上低调开源发布了其最新开源模型 DeepSeek-Prover-V2-671B。一个专注于数学定理证明的大语言模型，专门针对形式化数学证明任务进行优化。新模型具有以下特点：模型规模巨大：参数量约为671B（671

360 旗下纳米 AI 发布“MCP 万能工具箱”

2025-04-25

负责人梁志辉介绍，MCP让大模型可调用工具，大家熟悉的Deepseek大模型过去只能做文本理解、内容生成的事情，但现在在纳米AI客户端里给DeepSeek 加上MCP 工具，DeepSeek 能帮你作图、编辑视频，或者调用其他工具来帮你办到过去大

Hugging Face 发布开放权重模型贡献榜：Qwen 与 DeepSeek 跻身 TOP15

2025-06-12

Hugging Face 近日发布开放权重模型贡献榜，中国团队Qwen和DeepSeek成功入围前15名。该榜单表彰为开源社区提供高质量模型权重的团队，其模型广泛应用于学术与产业创新。由阿里巴巴云智能集团支持的Qwen团队，以Qwen3系列模型

百川智能开源医疗增强大模型 Baichuan-M2

2025-08-12

后的模型精度接近无损，可以在RTX4090上单卡部署，相比DeepSeek-R1 H20双节点部署的方式，成本降低了57倍。面向急诊、门诊等对于交互速度要求更高的场景，基于Eagle-3架构优化的Baichuan-M2-Spec版本在单用户场景下实现了74.9%的toke

李彦宏谈 DeepSeek 现存痛点，称 Deepseek又慢又贵

2025-04-26

钟演讲，正式发布文心大模型4.5Turbo与X1Turbo版本，并披露DeepSeek模型在百度生态中的落地进展与现存挑战。李彦宏透露，百度旗下文小言、百度搜索、百度地图等核心产品已接入DeepSeek满血版模型，在智能客服、搜索增强等场景

DeepSeek 新论文公开 V3 大模型降本方法

2025-05-16

DeepSeek 团队近日发表了新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》，把 DeepSeek-V3 在训练和推理过程中，如何解决“硬件瓶颈”的方法公布了出来。论文主要介绍了 DeepSeek-V3 在硬件架构

🔥Xinference v1.4.1 重磅发布！分布式推理全面升级，AI 模型效率大幅提升

2025-04-09

B 💰 Fin-R1（金融领域） 🧐 Deepseek-VL2 ✨ 新功能新增 n_worker 校验机制，若超出可用 worker 数量，则拦截避免错误 🚧 Fin-R1 模型支持 GPTQ（int4, int8）和 FP8 SGLang 引

DeepSeek 采用 UE8M0 FP8 标准：华为积极适配、彻底和英伟达决裂了

2025-08-26

深度求索近日正式对外发布 DeepSeek-V3.1，官方提到 DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。在 DeepSeek 官方公众号文章页面，DeepSeek 进一步解释称：UE8M0 FP8 是针对即将发布的下一代国产芯片设计。 FP 英文全称为 Floating Point

Qwen3 正式发布！模力方舟首发上线体验，昇腾算力全面适配

2025-04-30

6）、AIME'24（85.7）、LiveCodeBench v5（70.7）等测试中，优于DeepSeek-R1、o1、Grok-3等模型，仅在AIME'25（81.5）略低于Gemini-2.5-Pro（86.7）。 Qwen3-30B-A3B：在ArenaHard（91.0）、AIME'24（80.4）等测试中，超越QwQ-32B（激活参数为其10倍）。 Qwen3

3 月全球人工智能领域新看点

2025-04-08

的问题。 AI推理时代即将到来？今年年初，中国AI公司DeepSeek模型的横空出世在AI领域掀起巨浪，R1模型因其高效推理能力和低成本训练受到全球关注，也对英伟达等芯片企业形成了前所未有的冲击。英伟达公司年度开发者大

CloudCanal v4.7.0.0 发布，支持 PG 向量结合大模型提供 RAG 服务

2025-04-02

据向量化(embedding) 支持添加 OpenAI、阿里云 DashScope、DeepSeek、HuggingFace、Cohere、LocalAI 等 LLM 类型数据源，为数据向量化和 RagApi 服务新链路开放 Dameng -> MySQL/StarRocks/Doris 链路结构迁移、全量迁移、增量同步、数据校

腾讯开源文档理解与语义检索框架 WeKnora

2025-08-07

量数据库。能够无缝集成 Ollama 等平台，灵活切换 Qwen、DeepSeek 等主流模型，满足企业知识库高效定制需求。精准推理与可信决策保障：结合私有化部署、多轮上下文深度理解与全链路可视化评估，为高敏感场景提供可靠的知

理想同学 MindGPT 3.0 上线：深度思考能力媲美 DeepSeek

2025-04-19

思考能力尤为引人注目。该模型在性能上可与行业领先的DeepSeek-V3-0324（短思维链）及DeepSeek-R1(长思维链)相媲美，标志着理想汽车在AI技术上的深厚积累。用户现在可以通过理想同学手机App及网页版免费体验这一全新模型，感受

熱門推薦