AMD 开源首款小语言模型 AMD-135M


AMD 宣布推出 AMD-135M —— Llama 家族的第一个小型语言模型。该模型具有推测解码功能,其训练代码、数据集和权重都是开源的,以便开发人员可以重现该模型并帮助训练其他 SLM 和 LLM。

“大语言模型通常使用自回归方法进行推理。然而,这种方法的一个主要限制是每次前向传递只能生成单个 token,导致内存访问效率低下并影响整体推理速度。

推测解码的出现解决了这个问题。其基本原理是使用小型草稿模型生成一组候选 token,然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token,而不会影响性能,从而显著减少内存访问消耗,并实现几个数量级的速度提升。”

公告称,AMD-135M 使用 AMD Instinct MI250 加速器从头开始训练,拥有 6700 亿个 token,包括 AMD-Llama-135M 和 AMD-Llama-135M-code 两个型号。

  • 预训练:使用四个 MI250 节点,在六天内用 6700 亿个通用数据 token 从头开始训练 AMD-Llama-135M 模型。
  • 代码微调:AMD-Llama-135M 代码变体利用另外 200 亿个代码数据 token 进行了微调,在同一硬件上耗时四天。

更多详情可查看官方公告。

下载地址:https://huggingface.co/amd/AMD-Llama-135m


相關推薦

2024-11-01

正在与博通(Broadcom)及台积电(TSMC)合作,设计并制造首款用于支持其人工智能系统的自研芯片,OpenAI 希望借此减少对单一芯片供应商的依赖,分散其芯片供应,并满足 AI 模型对高计算需求的支持。 OpenAI 的原计划是与台

2022-08-18

程 (Language Oriented Programming, LOP) 的思想,它被实现为一种小语言。此实现只有一个 C 文件(加上用 Zuo 实现的库),所以它很容易编译。zuo/build 库是以 make 和 Shake 为模型的,用于跟踪依赖关系和构建步骤 支持模板向量 (stencil ve

2022-07-12

,包括 Ubuntu 22.04 LTS。 MNT Pocket Reform MNT 是德国一家开发开源硬件和软件的公司,该公司认为未来的数字生活是可持续并且开源的,并且此前曾发布了一台 999 美元起售的 MNT Reform 的笔记本电脑。现在 MNT 又将推出一台名为 Pocket

2023-08-25

使命,自主研发,提供多种主流语言的开发环境,是国内首款同时支持麒麟、统信、Windows、Mac OS 等多环境的 IDE 工具。 CEC-IDE 提供了代码编写、智能辅助、编译调试、版本控制等功能,同时自建插件市场,除了提供 1600 余种技

2023-08-24

「朱雀仿宋」是刚刚开源的仿宋字体,其灵感来自民国时期的仿宋活字“南宋”,并以此作为蓝本。 字体效果预览: 以下内容来自官方介绍: 「朱雀仿宋」是璇玑造字的开源仿宋字体计划,志在最终提供高质量的、

2023-11-10

流体力学智能化国际联合研究所携手华为 AI4Sci Lab 在国产开源流体计算软件风雷的基础上,依托昇腾 AI 澎湃算力及昇思 MindSpore AI 框架共同研发的面向飞行器流体仿真的智能化模型。 大模型通过打造智能通用的流体力学软件平

2023-09-08

大语言模型。百川智能称,截止今日,Baichuan-7B/13B 两款开源模型在 Huggingface 下载量已突破三百万。 Baichuan-53B 在线体验:https://www.baichuan-ai.com/home 商汤(日日新大模型) 商汤大模型应用 “商量 SenseChat” 也于 8 月 31 日宣

2023-11-12

欺骗性产品评论的初创公司 Fakespot。现在它推出了自己的首款大模型 Fakespot Chat。 地址:https://www.fakespot.com/activate-fakespot-chat 根据介绍,Fakespot Chat 会在消费者在线购物时为其提供帮助,评估商品,回答有关产品的问题,甚至

2023-10-24

提升至量化管理。同时,AI提词支持百度文心一言大语言模型;DevOps安装时支持一键安装多个相关应用、支持使用命令行进行版本升级,大幅提升安装和升级效率。 新增功能点 度量项: BI二级菜单新增度量项模块。

2023-01-31

Coreboot 原名 LinuxBIOS,是一个旨在取代计算机中专有固件(BIOS 或 UEFI)的软件项目,它采用轻量级固件设计,只执行加载和运行现代 32 位或 64 位操作系统所需的最少量任务。由于 coreboot 要初始化硬件,所以必须为所要支持的每

2022-11-09

Upstream Coreboot 已逐步停止支持较旧的 AMD 14h / 15h / 16h 系列处理器和相关主板。 如 Phoronix 所述,由于这些较旧的 AMD 平台依赖于旧的 SMP 初始化路径,并且从未移植到较新的代码,因此在弃用之后,这些 targets 已从上游 Cor

2023-11-04

大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落

2024-05-18

裁、腾讯混元大模型负责人蒋杰透露称,将在今年三季度开源混元最核心的文生文模型。 蒋杰称,腾讯内部正在训练三种尺寸(S、M、L)的文生文模型供开源使用, S版主要部署在手机端,拥有3B参数量; M版主要部署在PC

2023-10-20

【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 百度首席技术官王海峰在解读文心大模型 4.0 背后的关键技术和最新进展时表示,文心大模型 4.0 的理解、生成、逻辑、记忆四大能力都有显著