幻方量化旗下 DeepSeek 发布 67B 开源大模型


知名私募巨头幻方量化宣布,其探索 AGI(通用人工智能)的新组织“深度求索(DeepSeek)”继 11 月初发布 Coder 代码模型之后,正式发布通用大语言模型:DeepSeek LLM 67B。模型已完全开源,同时服务已经全面开放内测。

目前 DeepSeek 已同时开源 7B 和 67B 的两种规模模型,均含基础模型(base)和指令微调模型(chat)。无需申请,免费商用。同时,项目团队还将训练中途的9个模型 checkpoints 开放下载。

相比开源的同级别模型 LLaMA2 70B,DeepSeek LLM 67B 在近 20 个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力(如:HumanEval、MATH、CEval、CMMLU)。

 


相關推薦

2024-09-30

千问、腾讯混元、字节豆包、智谱 AI、百度千帆、Kimi、DeepSeek等),以及国外公共大模型(包括OpenAl、Azure OpenAI、Gemini等); ■ 灵活编排:内置强大的工作流引擎和函数库,支持编排AI工作流,有效满足复杂业务场景下的应用

2025-04-09

B     💰 Fin-R1(金融领域)      🧐 Deepseek-VL2 ✨ 新功能     新增 n_worker 校验机制,若超出可用 worker 数量,则拦截避免错误 🚧     Fin-R1 模型支持 GPTQ(int4, int8)和 FP8   SGLang 引

2025-04-08

的问题。 AI推理时代即将到来? 今年年初,中国AI公司DeepSeek模型的横空出世在AI领域掀起巨浪,R1模型因其高效推理能力和低成本训练受到全球关注,也对英伟达等芯片企业形成了前所未有的冲击。 英伟达公司年度开发者大

2025-04-02

据向量化(embedding) 支持 添加 OpenAI、阿里云 DashScope、DeepSeek、HuggingFace、Cohere、LocalAI 等 LLM 类型数据源,为数据向量化和 RagApi 服务 新链路 开放 Dameng -> MySQL/StarRocks/Doris 链路 结构迁移、全量迁移、增量同步、数据校

2025-04-19

思考能力尤为引人注目。该模型在性能上可与行业领先的DeepSeek-V3-0324(短思维链)及DeepSeek-R1(长思维链)相媲美,标志着理想汽车在AI技术上的深厚积累。用户现在可以通过理想同学手机App及网页版免费体验这一全新模型,感受

2025-04-11

关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。 测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-25

2025-04-08

ompson 的深度对谈中,其中聊到 GPT-5 的进展,并表示受到 DeepSeek 的影响, GPT-5 将可以免费使用。 访谈中主持人向 Altman 提问「DeepSeek 为何能走红?」,而 Altman 表示,DeepSeek 的开放性给了 OpenAI 一个警醒,并且也让他重新思考 Op

2025-03-20

Ollama 是开源跨平台大模型工具,让运行 Llama 3、DeepSeek-R1、Gemma 3 以及其他大语言模型变得更容易,现已发布最新版本 0.6.2。 Ollama 是一个开源的本地大语言模型运行框架,简化了利用 llama.cpp 后端运行各种 LLM 以及与其他桌面

2025-03-29

MaxKB是飞致云历史上成长速度最快的开源项目。伴随着DeepSeek行业落地进程的深入,MaxKB正在被政府、公共事业、教育、医疗、交通运输、零售电商等行业用户所广泛采纳,构建服务于千行百业的AI助手。 ■ 1Panel开源面板 1Panel

2024-07-07

内公共大模型(包括通义千问、智谱AI、百度千帆、Kimi、DeepSeek等),以及国外公共大模型(包括OpenAl、Azure OpenAI、Gemini等); ■灵活编排:内置强大的工作流引擎,支持编排AI工作流程,有效满足复杂业务场景下的应用需求;

2025-04-15

DeepSeek 在其 GitHub 仓库发布预告称,即将开源推理引擎 DeepSeek Inference Engine。 考虑到代码分支和维护资源等问题,他们选择了直接和 vLLM 等现有开源项目合作的方式进行开源。 下面是官方公告: 几周前,在开源周期间,

2025-03-25

Xinference v1.4.0 发布 🚀! ✨ Gemma-3 模型重磅来袭,DeepSeek-v3 现已支持 Function Calling! 🎉 社区贡献者突破 100+!感谢大家的支持,期待更多伙伴加入贡献代码 💪💖。 🌍 社区版 📌 更新指南 * Pip:pip install 'xinference==1.4.0

2024-08-04

DeepSeek 宣布启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。

2025-03-26

上新!DeepSeek-V3重磅升级 昨夜,DeepSeek-V3迎来一波更新,升级至「DeepSeek-V3-0324」版本。 不仅将模型参数量由原版的671B提升至685B,编程、数学等推理思考能力大幅提升,性能表现可以与Claude 3.5/3.7 Sonnet相媲美。同时,模型的开