M2 Ultra 可并行运行 128 个 Llama2-7B 流


llama.cpp 是开发者 Georgi Gerganov 用纯 C/C++ 代码实现的 LLaMA 模型推理开源项目。所谓推理,即是「给输入-跑模型-得输出」的模型运行过程。

最近 Georgi Gerganov 用搭载苹果 M2 Ultra 处理器的设备运行了一系列测试,其中包括并行运行 128 个 Llama 2 7B 流

具体结果如下:

via https://github.com/ggerganov/llama.cpp/pull/3228

对于 M2 Ultra 的这番表现,有人给出了解释,M2 Ultra 或 M1 和 M2 系列 CPU 的速度之所以如此快,是因为执行推理任务的主要瓶颈是内存带宽,而不是计算能力

而 M2 Ultra 的带宽为 800 GB/s,是普通现代台式机 CPU(双通道 DDR4-6400 带宽为 102 GB/s)的 8 倍。

如此高的带宽是苹果为 M1 和 M2 芯片设计了统一内存架构的结果。通常在笔记本电脑或台式机上,CPU 和 GPU 拥有不同的内存系统:高带宽(但容量相对较低)的显存和相对低带宽(但容量较高)的 CPU 内存。

苹果公司简化了这种方案,转而采用 CPU 和 GPU 共享的单一高带宽内存系统。这样做的唯一缺点是,这种高带宽内存必须紧密集成在 M2 封装中,因此最大容量受到限制。

例如,无论你花费 5,600 美元(最便宜的 Mac Studio 机型,配备 M2 Utra 和 192 GB 内存),还是 10,000 美元以上(最顶配 Mac Pro),都只能获得最大 192 GB 内存。但另一方面,如果你的工作负载(如推理)不需要超过 192 GB 的内存,那就再好不过了。

如此看来,苹果在这方面做出了正确的权衡。通常来说,在通用 CPU 的单插槽上实现 800 GB/s 的内存带宽,这在以前从未实现过。


相關推薦

2023-11-03

款 iMac 搭载了 4.05 GHz 的基础版 M3 芯片,配备 16GB 内存,运行 macOS 14.1,单核最高 3076 分,多核 11863 分。 作为对比,目前 Geekbench 中收录的 Mac 单核最高分为 Mac Studio (2023) 的 2803 分(M2 Max),多核为 21316 分(M2 Ultra)。

2023-09-27

星火,商汤日日新,腾讯混元大语言模型 开源大模型:Llama2 ,ChatGLM2 ,AquilaChat 7B ,Bloomz 7B 等,后续还将开放更多 文生图、图生图、超分辨率、黑白图片上色等功能,集成 Stable Diffusion 模型,支持 SDXL 1.0 今天最新版本的

2023-06-08

布最新操作系统:visionOS 苹果 AR 眼镜 Apple Vision Pro 运行的正是苹果最新操作系统 ——visionOS,苹果称其为 “第一个为空间计算而设计的操作系统”。 在架构层面,visionOS 与 macOS 和 iOS 共享核心模块,但增加了一个 “实时

2023-09-05

考录到同时具备中文和英文能力,LLM 的选择则为 Chinese-LLAMA2-7B -LLAMA2-7B。在跨模态指令微调阶段,模态适配器和 LLM 会接受多任务训练。 与此同时,研究人员还发布了一个大规模的中英文语音-文本跨模态指令遵循数据集 LL

2023-11-01

过这一功能和全新图形处理器架构的加成,专业级 App 的运行速度最高可达到 M1 系列芯片的 2.5 倍。 此外,全新图形处理器还给 Mac 带来硬件加速网格着色功能,实现图形处理能力和能效的双重提升,更可支持游戏和对图形处理

2023-06-06

6. GreatSQL Release Notes GreatSQL 8.0.32-24版本发布,增加并行load data、(逻辑 & CLONE)备份加密、MGR读写节点可绑定动态VIP、Oracle兼容扩展、审计日志增强等重磅特性。 直播预告:GreatSQL 8.0.32-24发布会 直播时间:2023.06.05 1

2022-01-06

次要关注的内容,针对自动驾驶领域发布的 Mobileye EyeQ Ultra 芯片才是重点。 Mobileye 是英特尔子公司,英特尔于 2017 年以 153 亿美金的价格将其收购,主要开发自动驾驶汽车和与之相关的辅助系统。CES 期间 Mobileye 发布了一

2023-06-08

了其第一款空间计算设备 Apple Vision Pro。 Apple Vision Pro 运行的正是苹果最新操作系统——visionOS,苹果称其为“第一个为空间计算而设计的操作系统”。 在架构层面,visionOS 与 macOS 和 iOS 共享核心模块,但增加了一个“实时

2022-08-08

断操作的过期修复使 SQLite 能够安全运行。 filer.sync可以并行同步多个文件更改。(在修复之前,所有更改只能在目标文件管理器集群中一一应用)。 更改日志: FUSE Mount 修复 truncate 操作导致新文件较小时数据写入失

2023-07-26

Shuffle的计算方式,通过设置运算节点数量调整任务执行并行度,系统将单运算节点内的统计消息依据统计项标识、维度标识、时间批次、统计运算单元拆分成不同的计算类型。统计结果数据和中间态数据基于外部存储实现。本

2023-11-10

的基础构架。 具体来说,大模型采用自研多级分布式并行自适应框架,多层级融合流体力学经典理论和人工智能方法,构造数学物理关联特征、开展多范式一体化建模、搭建不变性可实现性多模态统一框架。同时,在模型算

2023-06-06

抗锯齿和进程外 2D Canvas 光栅化创建了新的算法,以提高并行性。 上图是在 M2 Macbook Pro 上使用 Chrome 115.0.5773.4 得到的测试结果,这一结果也标志着 Chrome 浏览器在去年的基础上,有了近 3 倍的性能改进。 目前 Google 与 Chrome 团

2023-08-27

编写离线和批处理应用程序,旨在为开发对企业系统日常运行至关重要的批处理应用程序提供支持。 发布公告写道,5.0.3 和 4.3.9 是补丁更新,包含许多错误修复、改进和依赖项升级。具体内容查看 release notes:5.0.3 和 

2023-04-22

非常大的开销,A100 或 A800 可以单卡运行,NVIDIA 3090 只能并行多卡运行,GPU 要至少 30GB。 MOSS 是一个支持中英文双语和多种插件的开源对话语言模型,moss-moon 系列模型具备 160 亿参数,在 FP16 浓度下可在单张 A100/A800 或两