微软开源轻量级推理模型 Phi-4-mini-flash-reasoning


微软发布了一款专为受限环境设计、参数量仅为3.8B的轻量级开源模型Phi-4-mini-flash-reasoning,其在数学推理任务上表现出色,且吞吐量大幅提升。

Phi-4-mini-flash-reasoning专为在内存和计算资源受限的环境下执行高强度、多步骤的数学推理任务而设计。该模型采用了混合SambaY架构,结合了差分注意力、状态空间模型(SSM)和分组查询注意力(GQA),并支持64K的上下文长度。

Phi-4-mini-flash-reasoning的训练数据完全由更强大的推理模型Deepseek-R1生成的合成数学内容构成,旨在从更强的模型中提炼知识。

在AIME、Math500和GPQA Diamond等多个数学推理基准测试中,Phi-4-mini-flash-reasoning的表现与许多参数量远大于它的模型相当。与Phi-4-mini-reasoning相比,新模型在处理长序列生成任务时,吞吐量提升高达10倍,且延迟增长接近线性。

该模型已在Hugging Face上以MIT许可证发布,并可在Azure AI Foundry中使用。

https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning
https://azure.microsoft.com/en-us/blog/reasoning-reimagined-introducing-phi-4-mini-flash-reasoning/
https://aka.ms/flashreasoning-paper
https://github.com/microsoft/PhiCookBook


相關推薦

2025-05-13

微软开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。 Phi-4-Reasoning的基础架构源自微软开源的Phi-4 模型,为了提升其推理能力,微软通过监督微调和强化学习相结合的训练方法行了深度强化。 该方

2025-06-28

腾讯宣布开源混元大模型家族的新成员——混元-A13B模型。该模型采用基于专家混合(MoE)架构,总参数规模达800亿,激活参数为130亿。 公告称,该模型在保持顶尖开源模型效果的同时,大幅降低了推理延迟与计算开销。对个

2025-06-20

OpenBMB推出了CPM.cu,这是一个轻量级且高效的开源CUDA推理框架,专为端侧大型语言模型(LLMs)的部署而设计,并为MiniCPM4提供优化,核心支持稀疏架构、投机采样和低位宽量化等前沿技术创新。 CPM.cu 亮点包括: 集成了InfLLM v

2025-04-05

OpenAI 官方信息显示,此次融资由软银集团领投。此外,微软、Coatue、Altimeter 和 Thrive 等公司也参与了本轮投资。而据 CNBC 援引知情人士消息称,本次融资中有 180 亿美元将用于 OpenAI 的 Stargate 项目基础设施建设。 附上报名链接

2024-07-05

创始人袁进辉是前OneFlow(一流科技) 创始人及CEO,曾任微软亚洲研究院主管研究员,获得微软亚洲研究院院长特别奖。 通俗地理解,硅基流动所在的AI Infra层,是上接AI应用层、下接算力芯片层的中间层,相当于大模型时代的

2025-04-04

摘掉 Beta 标签,开始面向所有用户推送。 今年 3 月初,微软确认正在开发原生 Copilot 应用程序。与之前的版本不同,这个新版本完全采用原生架构,通过 XAML 框架调用系统 API 处理 AI 请求,不使用基于 Microsoft Edge 的组件。

2024-07-05

微软开源了基于图的 RAG 工具 GraphRAG,可以在私有或以前未见过的数据集上进行问题解答。 GraphRAG 通过创建知识图谱来增强模型的推理和生成性能,使用 LLM GPT-4 对 GraphRAG 和传统 RAG 进行评估, GraphRAG 在全面性和多样性方

2025-06-05

晶圆检测的实际部署中,框架的资源调度器会智能识别:轻量级YOLOv5模型的前处理阶段适合部署在带NPU(神经网络处理单元)的工业相机,特征提取层分配至工厂级边缘服务器集群,而复杂的分类决策则交由厂区级GPU节点完成。这

2025-04-19

微软今天开源了一款“魔改版”的 DeepSeek-R1 模型「MAI-DS-R1」,其在保留原有推理性能的基础上进行了大幅度增强,尤其是在响应和屏蔽词方面有了显著改进: MAI-DS-R1 可以响应 99.3% 的敏感话题提示,比原版 R1 提升了2倍,这

2025-05-15

前微软北京AI研究团队WizardLM的核心成员Can Xu在社交媒体上宣布,他与WizardLM团队已离开微软,并加入了腾讯混元(Tencent Hunyuan)团队。他们将继续致力于推动大型语言模型(LLM)的训练技术发展,并构建更优质的AI模型。 C

2024-07-18

美元的 B 轮融资,估值接近 60 亿美元。该公司还获得了微软和 IBM 等科技巨头的投资。

2023-07-27

CodeGeeX-13B 大幅提升,量化后仅需6GB显存即可运行,支持轻量级本地化部署。 更全面的AI编程助手:CodeGeeX插件(VS Code, Jetbrains)后端升级,支持超过100种编程语言,新增上下文补全、跨文件补全等实用功能。结合 Ask CodeGeeX 交

2025-05-16

理模型的现状和未来作出了分析总结。 Epoch AI 通过各家开源的技术报告,来分析了目前推理模型的训练成本,同时也进一步总结,目前前沿的推理模型其推理训练规模仍未见顶,还能持续扩展(scalable),并且推理模型还有潜

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面