幻方量化旗下 DeepSeek 发布 67B 开源大模型


知名私募巨头幻方量化宣布,其探索 AGI(通用人工智能)的新组织“深度求索(DeepSeek)”继 11 月初发布 Coder 代码模型之后,正式发布通用大语言模型:DeepSeek LLM 67B。模型已完全开源,同时服务已经全面开放内测。

目前 DeepSeek 已同时开源 7B 和 67B 的两种规模模型,均含基础模型(base)和指令微调模型(chat)。无需申请,免费商用。同时,项目团队还将训练中途的9个模型 checkpoints 开放下载。

相比开源的同级别模型 LLaMA2 70B,DeepSeek LLM 67B 在近 20 个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力(如:HumanEval、MATH、CEval、CMMLU)。

 


相關推薦

2024-09-30

千问、腾讯混元、字节豆包、智谱 AI、百度千帆、Kimi、DeepSeek等),以及国外公共大模型(包括OpenAl、Azure OpenAI、Gemini等); ■ 灵活编排:内置强大的工作流引擎和函数库,支持编排AI工作流,有效满足复杂业务场景下的应用

2024-08-04

DeepSeek 宣布启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。

2024-07-07

内公共大模型(包括通义千问、智谱AI、百度千帆、Kimi、DeepSeek等),以及国外公共大模型(包括OpenAl、Azure OpenAI、Gemini等); ■灵活编排:内置强大的工作流引擎,支持编排AI工作流程,有效满足复杂业务场景下的应用需求;

2024-07-18

的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。 开发人员可以从 GitHub 仓库或通过 HuggingFace 修改和部署 Codestral Mamba。它将采用开源 Apache 2.0 License。 Mistral 声称,Codestral 早期版本的性能优于 CodeLlama 70B 和 Deep

2024-07-05

万物:https://platform.lingyiwanwu.com/docs#api-%E5%B9%B3%E5%8F%B0 Deepseek:https://platform.deepseek.com/api-docs/zh-cn/   UOS AI 如何接入本地模型 Ollama Ollama是一个开源的大语言模型本地部署工具,通过它可以方便的在本机部署开源大模型

2023-10-11

DataCanvas公司完成总融资额3亿元D1轮融资。中国电子集团旗下中电智慧基金、华民投、中国太平旗下太平创新、浙江东方旗下东方嘉富等央国企旗下投资机构,以及卓源资本等专注人工智能赛道的知名财务投资机构参与本轮融资

2023-11-07

马斯克旗下 xAI 团队发布其首个 AI 大模型产品 —— Grok;目前只训练了 2 个月左右的时间,因此尚处于非常早期的测试阶段。 Grok 是一款仿照《银河系漫游指南》设计的人工智能,可以回答几乎任何问题,更难能可贵的是,

2024-08-27

功能可以分为通用语言处理、语音处理、图像处理以及向量化处理等多个类别,琳琅满目。面对如此众多的选择,用户在挑选合适模型时难免会感到无所适从,患上所谓的“选择困难症”。在这样的背景下,用户如何做出明智的

2024-08-08

根据36氪的独家报道,李开复创办的AI大模型独角兽公司「零一万物」已经完成新一轮融资,金额达数亿美元。 知情人士表示,此轮融资参与方包括某国际战投、东南亚财团等多家机构。 「零一万物」成立于2023年5月,由创新

2024-07-09

据智谱清言官方消息,旗下代码生成大模型 CodeGeeX正式发布CodeGeeX4系列模型的开源版本:CodeGeeX4-ALL-9B。 CodeGeeX4-ALL-9B作为最新一代CodeGeeX4系列模型的开源版本,在GLM-4强大语言能力的基础上继续迭代,大幅增强代码生成能力。

2023-08-31

进行训练。该模型由 Cerebras、阿联酋人工智能大学和 G42 旗下子公司 Inception 合作研发。 Jais 的命名来自阿联酋的最高峰,阿联酋人工智能大学教授 Timothy Baldwin 表示,由于没有足够的阿拉伯语数据来训练 Jais 大小的模型,因此

2024-03-01

较小的模型可能在处理速度上更有优势。Llama 3正在由Meta旗下的独立基础人工智能研究团队(FAIR)以外的生成人工智能团队开发。 理论上,Llama 3将拥有更强大的语义理解能力,能够准确辨别一个单词在不同上下文中的多重含义

2024-04-18

分参数的高效微调方法、支持Deepspeed微调、支持int8、int4量化和国产芯片训练推理,推动大模型国产化进程。 与此同时,星辰大模型也在深入推动人工智能与各行各业的融合,积极探索新兴的应用场景。星辰语义大模型已应用

2023-09-08

课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。 具体包括: