摩尔线程 MUSA 架构成功适配开源推理框架 llama.cpp


MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的通用并行计算架构。官方近日宣布 MUSA 已正式完成与开源推理框架 llama.cpp 的适配,进一步融入全球 AI 生态。

llama.cpp 作为纯 C/C++ 实现的大语言模型推理工具,以轻量化部署和跨硬件兼容性著称,支持 LLaMA、Mistral 等主流模型及多模态应用。此次适配意味着用户可在 MTT S80/S3000/S4000 系列 GPU 上通过官方容器镜像高效运行 AI 推理。

今年 4 月,MUSA SDK 4.0.1 已扩展至 Intel 处理器与国产海光平台,此次与 llama.cpp 的联动,进一步降低了开发者部署大模型的门槛,为本土 AI 硬件生态注入新动能。


相關推薦

2024-09-24

近日,摩尔线程宣布其自研统一系统架构MUSA已完成与开源计算机视觉库OpenCV的适配,并正式发布OpenCV-MUSA开源项目。 该项目旨在为开发者和研究人员提供更加高效与便捷的工具,使其在开发基于全功能GPU的各类计算机视觉应用

2023-11-25

布,在社区爱好者以及 deepin 研发团队的推动下,完成了摩尔线程 MTT S80 显卡的适配工作,成功在 deepin V23 Beta2 版本上驱动 MTT S80 显卡。 据悉,此次适配的摩尔线程 MTT S80 显卡,于 2022 年 11 月发布,搭载了完整的“春晓”芯片

2023-12-05

在11月,FVP正式支持deepin V23 ,deepin V23成功适配国产显卡摩尔线程MTT S80 11月deepin SIG组共提交PR 1828 个 ,提交Issues 210个,个人贡献PR316个,个人提交Issues16个 社区产品 deepin(深度)操作系统 11月deepin V23  系统前

2025-06-05

🧩 Transformers 的视觉语言(VL)模型推理逻辑全面重构新架构支持 continuous batching,显著提升多模态模型在高并发场景下的处理效率。 🦙 llama.cpp 引擎支持 Auto NGL(自动分层部署)功能系统可自动判断每张显卡的显存大小,智

2023-10-14

。 如此高的带宽是苹果为 M1 和 M2 芯片设计了统一内存架构的结果。通常在笔记本电脑或台式机上,CPU 和 GPU 拥有不同的内存系统:高带宽(但容量相对较低)的显存和相对低带宽(但容量较高)的 CPU 内存。 苹果公司简化了

2024-08-27

摩尔线程宣布开源音频理解大模型—MooER(摩耳)。公告称,MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。 摩尔线程AI团队在该工作中

2025-05-28

式灵活:源码、动态库 支持多种AI硬件后端:英伟达、摩尔线程等五家厂商 架构插件化设计:支持高差异度模块,相关的芯片平台可自行维护这部分模块的代码仓库 跨平台编译与快速验证能力 CI/CD:构建完备CI/CD,覆盖多

2025-07-24

rence,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。   Xinference 的功

2024-08-24

详细介绍了《deepin 23丨如意玲珑正式集成至deepin 23,生态适配超千款》,很多用户在评论区也纷纷留言,给我们提出了很多好的建议。今天我们继续和大家聊一聊deepin 23的UOS AI在多模型对接、个人AI助手、操作系统管理、AI赋能

2023-04-19

国产显卡厂商摩尔线程正在致力于优化旗下显卡产品的软件生态。据外媒 phoronix 报道, 摩尔线程的工程师最近对视频加速 API (VA-API) 库和视频库 FFmpeg 都提交了一些驱动代码。 摩尔线程成立于 2020 年,致力于研发国产 GPU 芯片

2025-04-22

,平台提供直观的模型加载界面,确保操作简便。 技术架构:OpenVINO优化本地性能 AI Playground基于Intel的OpenVINO框架,针对Arc GPU与Core Ultra处理器进行了深度优化。AIbase分析,其关键技术包括: OpenVINO加速:为聊天与图像生成提

2025-07-26

英语和多语言能力均强于同规模的开源模型: 得益于架构和数据的提升,RWKV7-G0 7.2B 的 MMLU 准确度为 62.7%,显著超过 RWKV6-World-V3-7.6B 的 54.2%。后续我们会发布训练 8T tokens 的满血 RWKV7-G1 7.2B,目标是 MMLU 达到 70%,看齐前沿模型

2025-04-24

频模块界面,AI 视频创作更直观、操作更友好。 🚀 昇腾适配能力增强 适配模型范围进一步扩展,支持更多模型在昇腾上稳定高效运行。 我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持,也欢迎更多使用者和开发者参

2025-05-17

及修复模型卸载后进程持续运行的问题 Ollama 是一个开源的本地大语言模型运行框架,简化了利用 llama.cpp 后端运行各种 LLM 以及与其他桌面软件方便集成的过程,为普通用户提供简单易用的大语言模型(LLM)的本地部署和管