幻方量化旗下 DeepSeek 发布 67B 开源大模型


知名私募巨头幻方量化宣布,其探索 AGI(通用人工智能)的新组织“深度求索(DeepSeek)”继 11 月初发布 Coder 代码模型之后,正式发布通用大语言模型:DeepSeek LLM 67B。模型已完全开源,同时服务已经全面开放内测。

目前 DeepSeek 已同时开源 7B 和 67B 的两种规模模型,均含基础模型(base)和指令微调模型(chat)。无需申请,免费商用。同时,项目团队还将训练中途的9个模型 checkpoints 开放下载。

相比开源的同级别模型 LLaMA2 70B,DeepSeek LLM 67B 在近 20 个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力(如:HumanEval、MATH、CEval、CMMLU)。

 


相關推薦

2023-10-11

DataCanvas公司完成总融资额3亿元D1轮融资。中国电子集团旗下中电智慧基金、华民投、中国太平旗下太平创新、浙江东方旗下东方嘉富等央国企旗下投资机构,以及卓源资本等专注人工智能赛道的知名财务投资机构参与本轮融资

2023-11-07

马斯克旗下 xAI 团队发布其首个 AI 大模型产品 —— Grok;目前只训练了 2 个月左右的时间,因此尚处于非常早期的测试阶段。 Grok 是一款仿照《银河系漫游指南》设计的人工智能,可以回答几乎任何问题,更难能可贵的是,

2024-04-18

分参数的高效微调方法、支持Deepspeed微调、支持int8、int4量化和国产芯片训练推理,推动大模型国产化进程。 与此同时,星辰大模型也在深入推动人工智能与各行各业的融合,积极探索新兴的应用场景。星辰语义大模型已应用

2023-08-31

进行训练。该模型由 Cerebras、阿联酋人工智能大学和 G42 旗下子公司 Inception 合作研发。 Jais 的命名来自阿联酋的最高峰,阿联酋人工智能大学教授 Timothy Baldwin 表示,由于没有足够的阿拉伯语数据来训练 Jais 大小的模型,因此

2024-03-01

较小的模型可能在处理速度上更有优势。Llama 3正在由Meta旗下的独立基础人工智能研究团队(FAIR)以外的生成人工智能团队开发。 理论上,Llama 3将拥有更强大的语义理解能力,能够准确辨别一个单词在不同上下文中的多重含义

2023-09-08

课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。 具体包括:

2023-07-22

华为云正式发布了旗下自动驾驶开发平台。 据介绍,该平台基于盘古大模型和 ModelArtsAI 开发生产线,提供了数据生成、自动标注、模型训练、云端仿真、虚实结合仿真、数据闭环等一系列能力。 据称该平台目前已经在长安、

2023-09-16

nce。这是由腾讯微信研发,采用SQL交互的,基于分布式向量化的统计分析、因果推断计算库;目前已在微信视频号、微信搜一搜等微信内部多个业务进行了应用。 根据介绍,该项目旨在解决已有统计模型库(R/Python)在大数据下的

2023-09-05

首个开源 Llama 2 的中文语言大模型;零一万物则是李开复旗下的大模型公司。 “多模态大型语言模型近来备受关注。不过,大多数研究都集中在视觉-语言多模态模型上,这些模型在遵循视觉和语言指令方面具有很强的能力。

2023-10-28

维AI业务矩阵之一的AI游戏也取得了重要进展。昆仑万维旗下Play for Fun游戏工作室自研的首款AI游戏《Club Koala》于8月25日在德国科隆国际游戏展亮相。Club Koala 引入了AI NPC,并通过Atom系统控制NPC行为,使AI NPC拥有自我意识及记忆

2023-07-25

考虑将其用于客户支持。 上周,外媒报道称,随着OpenAI旗下AI聊天机器人ChatGPT和谷歌旗下AI聊天机器人Bard的兴起,苹果也在开发自己的聊天机器人,这款机器人在该公司内部称之为“Apple GPT”。 今日,一位长期关注苹果的分

2023-09-07

型在多模态方面跻身世界领先水平,未来将有力支撑公司旗下AI业务矩阵取得关键性突破。” 腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、

2023-07-27

大 8192 序列长度,推理速度较一代 CodeGeeX-13B 大幅提升,量化后仅需6GB显存即可运行,支持轻量级本地化部署。 更全面的AI编程助手:CodeGeeX插件(VS Code, Jetbrains)后端升级,支持超过100种编程语言,新增上下文补全、跨文件补

2022-09-08

理加速技术,在EasyCV中也集成了IO优化,模型训练加速、量化裁剪等功能,在性能上具备自己的优势。基于阿里云的PAI产品生态,用户可以方便地进行模型管理、在线服务部署、大规模离线推理任务。 2 主要特性 丰富完善的