AI PC 新突破 端侧首次支持 128K 上下文窗口 实现 2.2 倍推理优化


面壁智能正式发布并开源了「面壁小钢炮」端侧系列最新力作——MiniCPM 4.0 模型,实现了端侧可落地的系统级软硬件稀疏化的高效创新。英特尔与面壁智能从模型开发阶段就紧密合作,实现了长短文本多重推理效率的提升,端侧AI PC在Day 0全面适配,128K长上下文窗口等多方面突破。

双方开展了深度技术协同,基于英特尔硬件架构定制投机解码配置。通过硬件感知的草稿模型优化策略,结合英特尔加速套件与KV Cache内存增强技术,实现端到端推理效率的2.2倍提升1,携手为业界带来了全新的模型创新和端侧性能体验。

https://img.qwephp.com/attach/20250609/808bc8aea9ae8ed419703a61803a6b06ef019148.webp

此次,面壁推出的MiniCPM 4.0系列LLM模型拥有 8B、0.5B 两种参数规模,针对单一架构难以兼顾长、短文本不同场景的技术难题,MiniCPM 4.0-8B采用「高效双频换挡」机制,能够根据任务特征自动切换注意力模式:在处理高难度的长文本、深度思考任务时,启用稀疏注意力以降低计算复杂度,在短文本场景下切换至稠密注意力以确保精度,实现了长、短文本切换的高效响应。

目前,具有CPU、GPU、NPU三个AI运算引擎的英特尔酷睿Ultra处理器已迅速对此适配,并借助OpenVINO™ 工具套件为MiniCPM 4.0系列模型提供优化的卓越性能表现。英特尔再次在NPU上对模型发布提供第零日(Day 0)支持,为不同参数量模型和应用场景提供更多样化的、更有针对性的平台支持。

https://img.qwephp.com/attach/20250609/f9cfb541b8e48269b184857a0ac586c3ae326ad4.webp

* 上述测试评估了在int4混合精度和fp16精度设置下1K输入的首词元延迟和平均吞吐量。每项测试在预热阶段后执行三次,选取平均值作为报告数据。性能结果基于以下SKU1或SKU2配置2

在长上下文窗口的技术创新方面,英特尔也有了新的突破。依托分块稀疏注意力机制,结合深度算子融合与硬件驱动的算法优化,实现了长文本缓存的大幅锐减,和推理效率的进一步提升。 在保证输出质量的前提下,我们首次在基于英特尔锐炫™ Pro B60上将长上下文窗口扩展至128K。相较于稠密模型,首Token延迟降低了38%3,Token速率提升多达3.8倍3。经过这样的提升,一整部300多页的哈利波特小说,可以在90秒内完成阅读、分析和总结。这不仅极大地提升了AI PC的用户体验,也为解锁更多端侧AI新应用建立了强大的基础。未来,英特尔将持续保持与面壁的深度合作和协同研发,进一步提升长上下文窗口应用的性能。

对128K的文本输入进行处理的效果请参考视频演示。

 

MiniCPM Video CN Final

在当今数字化时代,人工智能技术正以前所未有的速度发展,英特尔作为全球领先的科技企业和AI PC的发起和倡导者,始终致力于推动端侧AI模型的创新发展。

此次合作不仅彰显了英特尔在AI领域的强大技术实力,也体现了其对创新生态系统的坚定承诺。通过整合双方的技术优势和资源,英特尔平台和MiniCPM 4.0系列模型联合解决方案的广泛应用和落地部署已经奠定了坚实的基础,有望在智能生活、生产力提升等多个场景中发挥关键作用。

展望未来,英特尔将继续与面壁智能保持紧密合作,同时积极拓展合作关系,不断探索AI技术的新边界。英特尔致力于通过持续创新,推动人工智能技术的普及与发展,构建更加智能、高效的未来社会。

快速上手指南 (Get Started)

  • 参考代码:https://blog.csdn.net/inteldevzone/article/details/148473561
  • llm-chatbot notebook:https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-chatbot
  • GenAI API:https://github.com/openvinotoolkit/openvino.genai
  • 魔搭社区OpenVINO™专区:https://www.modelscope.cn/organization/OpenVINO
  • OpenVINO™ Model Hub:https://www.intel.com/content/www/us/en/developer/tools/openvino-toolkit/model-hub.html

1基于SD Eagle2 优化前与优化后,2nd token推理速度的提升

2SKU 1 (Intel® Core™ Ultra 7 258V) Brand: Intel, OEM: Lenovo, Model: Yoga Air 15s ILL9, CPU: Core Ultra 7-258V, Memory: 32GB LPDDR5-8533MHz, Storage: WD PC SN740 1TB, OS: Windows 11, OS Version: 24H2 (26100.4061), Graphics: Intel Arc 140V GPU, Graphics Driver Version: 32.0.101.6790, Resolution: 2880 x 1800 200% DPI, NPU Driver:32.0.100.4023, Software Version: Openvino 2025.2.0-dev20250520, Openvino-genai 2025.2.0.0-dev20250520

SKU2 (Intel® Core™ Ultra 9 285H) Brand: Intel, OEM: Lenovo, Model: Ideapad Pro 5 16IAH10, CPU: Core Ultra 9-285H, Memory: 32GB LPDDR5-8533MHz, Storage: Kioxia KBG60ZNT1T02 1TB, OS: Windows 11, OS Version: 24H2 (26100.4061), Graphics: Intel Arc 140T GPU, Graphics Driver Version: 32.0.101.6790, Resolution: 2880 x 1800 200% DPI, NPU Driver:32.0.100.4023, Software Version: Openvino 2025.2.0-dev20250520, Openvino-genai 2025.2.0.0-dev20250520

3基于Spare Attention优化前与优化后,输入128K长文本,1st token加载时间缩短 与 2nd token 推理速度的提升

©英特尔公司,英特尔、英特尔logo及其它英特尔标识,是英特尔公司或其分支机构的商标。文中涉及的其它名称及品牌属于各自所有者资产。


相關推薦

2025-04-30

-32B、14B、8B、4B、1.7B、0.6B,均为Apache 2.0开源协议。 2. 上下文长度:密集模型中,0.6B、1.7B、4B为32K,8B及以上为128K;MoE模型均为128K。 模力方舟上的昇腾算力已为您准备好首批0.6B、8B、30B三款模型,其中 30B 为 Mixture-of-Experts

2025-03-26

,实现跨节点通信开销降低37%,推理速度提升 128K超长上下文:可解析50页PDF文档或完整代码库,多轮对话记忆保持能力提升 FP8混合精度训练:显存占用压缩,单卡推理成本较初代降低 2. 代码生成质的飞跃 单次生成400+

2025-03-20

。该模型提高了文本能力和多模态理解能力,并具备 128K 上下文窗口。 核心特性 轻量级部署:可在 单个 RTX 4090 或 32GB RAM 的 Mac 上运行,非常适合本地或设备端应用。 快速对话响应:优化交互体验,适用于

2024-09-27

督微调、拒绝采样和直接偏好优化模型。 最后模型支持上下文扩展到 128K 个,同时也针对性优化了模型的多种能力,例如摘要、重写、指令遵循、语言推理和工具使用。

2025-04-11

(检索增强生成)和工具调用等任务。该模型支持 128K 的上下文长度,并且可以在单个 8xH100 节点上进行推理。 据介绍,Llama-3.1-Nemotron-Ultra-253B 的设计目标是支持高级推理、指令遵循以及 AI 助手工作流程。技术特点如下:

2024-07-26

、Java、C、C++、JavaScript 和 Bash。 Mistral Large 2 拥有 128k 的上下文窗口,支持包括中文在内的数十种语言以及 80 多种编码语言。该模型在 MMLU 上的准确度达到了 84.0%,并在代码生成、推理和多语言支持方面有非常明显的改进。 M

2025-04-18

助手全套开源解决方案,自带运营管理后台,开箱即用。支持AI写作,AI生图,AI生音乐,AI生成视频,AI智能体等功能。 GeekAI v4.2.2 更新内容 功能优化:开启图形验证码功能的时候现检查是否配置了 API 服务,防止开启之后

2025-03-29

合 RWKV 机制,ChemRB 将 RNN 的线性计算效率与 Transformer 的上下文感知相结合,有效捕获 SMILES 序列中的长程依赖性。该模型引入两个预训练任务 ------ 环级特征预测和全局跨度闭合预测,以提升分子有效性,尤其针对复杂环系统。

2025-06-11

,如果D = 4,PT可将同步开销减少87.5%。 为支持更长的上下文输入,我们设计了一种交错注意力架构,结合滑动窗口局部注意力层、旋转位置嵌入(RoPE)和无位置嵌入(NoPE)的全局注意力层。这种设置提高了长度泛化能力,减

2025-03-27

家。另有数据显示,阿里通义开源模型的衍生模型数量已突破10万个,成为全球最大的开源模型族群。 中国大模型密集开源,影响几何? 中国科学院院士梅宏曾表示,大语言模型在未来需要像互联网一样,走向开源,由全世界

2024-09-26

了升级,数学能力提升了 36%,专业知识能力提升了 35%,上下文窗口 token 数由128k 增加到了256K。对于大型语言模型,上下文窗口的大小是一个重要的参数,它决定了模型能够处理的长序列的能力。上下文窗口越大,模型

2024-08-24

能力 UOS AI接入了llama.cpp和OpenVINO推理框架,实现了本地端侧模型的部署。用户可以在本地设备上直接运行大型语言模型,并通过UOS AI进行管理和应用,增强了模型的可访问性和响应速度。 UOS AI API 面向开发者提供接入API,赋能

2025-05-21

头等产品,近年来随着AI技术的进步,各大厂商积极探索端侧AI应用场景,一部分品类的知名度和普及度渐渐提升,智能眼镜成为当前重要的AI硬件落地形式。 根据wellsenn XR,2024年全球AI智能眼镜销量152万台,同比增长533%,2026年

2025-06-05

步开销控制在总耗时的15%以内。 数据流编排引擎的技术突破 框架内置的Fluid DAG引擎彻底改变了传统AI流水线的刚性结构。当处理风力发电机组的振动信号时,系统能根据传感器数据的信噪比动态调整STFT(短时傅里叶变换)的窗口