微软开源“原生 1-bit”模型:超过 20 亿参数、大幅减少内存占用


微软近日发布了20亿参数的1-bit模型——BitNet b1.58 LLM家族,称此新型模型比主流Transformer LLM更不占内存且更低能耗,适合在CPU或较小型硬件平台上执行。

Hugging Face 地址:https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

微软研究院与中国科学院研究人员2023年发布名为《BitNet: Scaling 1-bit Transformers for Large Language Models》的论文,首度发布为大语言模型设计的1-bit Transformer架构,称为BitNet。

https://arxiv.org/pdf/2310.11453

微软表示,这是第一个参数20亿的开源原生1-bit LLM。它是以4兆字词的数据集训练而成,具备4096 token的context length。

研究团队说明,在BitNet b1.58模型中,单一参数或权重是三元( {-1, 0, 1})的。此类新模型架构引入BitLinear作为nn.Linear层的替代,能够训练1-bit的权重,训练出的LLM和同样参数量及训练字词的全精度(FP16)Transformer LLM模型相较,具有相同的困惑度(perplexity)及终端任务性能,但却能大幅减少了内存占用和能源耗损,就延迟性及传输率表现而言也更省成本。

微软团队认为,最重要的是, BitNet b1.58提出了新的模型扩展法则,可用于训练高性能及低成本的下时代LLM,而且BitNet b1.58对CPU设备更为友善,更适合执行于边缘和移动设备上,显示出性能和能力。研究人员相信1-bit LLM可催生出新的硬件和为其优化的系统。

根据研究团队比较测试,BitNet b1.58-3B/3.9B版本占用内存为2.22GB及2.38GB,远小于LLaMA-3B的7.89GB。延迟性来看,BitNet b1.58-3B/3.9B各为1.87ms及2.11ms,优于LLaMA-3B的5.07ms。二个BitNet b1.58的PPL以及零样本训练准确性表现,也都超越LLaMA-3B。

微软已在Hugging Face开源三个版本的Bitnet-b1.58模型权重,一是BitNet b1.58 2B4T,适合模型部署。二是Bitnet-b1.58-2B-4T-bf16,仅适合模型训练或微调。BitNet-b1.58-2B-4T-gguf则包含GGUF格式的权重,兼容bitnet.cpp函数库用于CPU推论。

论文地址:https://arxiv.org/abs/2504.12285

但微软也警告开发人员,目前Transformers函数库的执行方式并没有包含为BitNet设计、高度优化的计算核心,因此无法彰显BitNet架构的好处。

所以,虽然开发人员可能会因这个模型使用了量化(quantized)的权重而看到节省了一点内存,但无法看出速度快、能耗低等性能优势,因为transformers本身不支持BitNet所需要的底层运算加速。想要体验论文中提到的性能(包括低功耗和高效率的推论),必须使用官方提供的C++ 实例版本:bitnet.cpp。


相關推薦

2025-03-29

腾讯混元日前宣布正式开源基于Hunyuan 3D 2.0技术框架的5款三维生成模型,进一步丰富 3D AIGC 社区。 本次开源的Turbo加速系列、多视图推理模块及轻量级mini模型,均基于Hunyuan 3D 2.0模型,组成了包含6大模型的Hunyuan 3D 2.0 家族。

2023-06-25

权重和偏差的总和)比测试版大幅增加。 SDXL 0.9 是所有开源图像模型中参数数量最多的一个,它拥有一个 35 亿的参数基础模型和一个 66 亿的参数模型集合管道(最终输出是通过在两个模型上运行并汇总结果而产生的)。管道

2023-11-01

下载相关APP进行体验。 阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。 阿里云是国内最早开源自研大模型的头部科技企业,已先后开源通义千问70亿参数模型Qwen7B和140

2024-07-27

区别在于初始图的选择、以及构图剪枝过程中 引入宽松参数,在图直径和节点连通度上达到平衡,图的质量相对有所提升。   其次,为了规避多次随机读写磁盘数据,DiskANN 算法 结合两类算法:聚类压缩算法和图结构算

2025-03-30

roid和鸿蒙的消息列表运行流畅。pc端程序卡死,内存占用超过2G 混合操作 android和鸿蒙正确显示1000笔已读消息,android和鸿蒙消息列表运行流畅 pc端程序卡死,内存占用太高2G多点  由于pc端程序内存占用超过2G,

2023-07-05

助用户大幅节约了计算与存储资源成本,而面向未来的云原生架构,我们已经走出了坚实的一步。 从降本增效的趋势出发,用户对于计算和存储资源的需求可以概括为以下几方面: 计算资源弹性:面对业务计算高峰时可以

2023-07-08

演讲中,华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中,盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向,持续打造核心竞争力,为行业客户、伙伴及开发者提供更好的服

2024-03-19

规模也在7B左右,除非是MoE架构可能不同。数月前,曾有微软CODEFUSION论文意外泄露当时GPT-3.5模型参数为20B,在后续论文版本中又删除了这一信息。(量子位)

2023-07-27

GLM 技术团队宣布开源最新的代码模型 CodeGeeX2-6B。CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型,基于 ChatGLM2 架构注入代码实现。 我们希望每一位程序员,都能在自己机器上跑上一个自己的编程助手。为实现这一目标

2025-03-26

,性能表现可以与Claude 3.5/3.7 Sonnet相媲美。同时,模型的开源协议升级为更宽松的MIT许可,进一步降低了商业应用门槛。 优刻得云平台始终密切关注 AI 技术发展动态,在新版本发布后迅速响应,第一时间在模型服务平台UMode

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2024-07-30

科技公司走上盈利的道路。在过去的几个月里,我们看到微软、苹果和 NVIDIA 争夺全球最有价值公司的桂冠。市场分析师将它们的收入和利润增长归因于它们在产品和服务中早期投资和采用这项技术。 讽刺的是,AI 领域的关键

2023-10-31

重构了技术栈的 API 中间件层,并简化了架构,删除超过 10 万行代码和数千个未使用的内部端,消除未采用的客户端服务。 关闭萨克拉门托数据中心并重新配置 5,200 个机架和 148,000 台服务器,每年节省超过 1 亿美元。

2023-04-04

AI 芯片公司 Cerebras 宣布在 Apache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT,参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重,供研究以及商业社区免费使用