微软开源轻量级推理模型 Phi-4-mini-flash-reasoning

2025-07-12 發表於开源资讯

微软发布了一款专为受限环境设计、参数量仅为3.8B的轻量级开源模型Phi-4-mini-flash-reasoning，其在数学推理任务上表现出色，且吞吐量大幅提升。

Phi-4-mini-flash-reasoning专为在内存和计算资源受限的环境下执行高强度、多步骤的数学推理任务而设计。该模型采用了混合SambaY架构，结合了差分注意力、状态空间模型（SSM）和分组查询注意力（GQA），并支持64K的上下文长度。

Phi-4-mini-flash-reasoning的训练数据完全由更强大的推理模型Deepseek-R1生成的合成数学内容构成，旨在从更强的模型中提炼知识。

在AIME、Math500和GPQA Diamond等多个数学推理基准测试中，Phi-4-mini-flash-reasoning的表现与许多参数量远大于它的模型相当。与Phi-4-mini-reasoning相比，新模型在处理长序列生成任务时，吞吐量提升高达10倍，且延迟增长接近线性。

该模型已在Hugging Face上以MIT许可证发布，并可在Azure AI Foundry中使用。

https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning
https://azure.microsoft.com/en-us/blog/reasoning-reimagined-introducing-phi-4-mini-flash-reasoning/
https://aka.ms/flashreasoning-paper
https://github.com/microsoft/PhiCookBook

相關推薦

微软开源 Phi-4 系列小参数模型，推理能力媲美 DeepSeek

2025-05-13

微软开源了三个新版Phi-4小参数模型，分别是Reasoning、Min-Reasoning和Reasoning-plus。 Phi-4-Reasoning的基础架构源自微软开源的Phi-4 模型，为了提升其推理能力，微软通过监督微调和强化学习相结合的训练方法行了深度强化。该方

腾讯开源轻量级混元-A13B 模型

2025-06-28

腾讯宣布开源混元大模型家族的新成员——混元-A13B模型。该模型采用基于专家混合（MoE）架构，总参数规模达800亿，激活参数为130亿。公告称，该模型在保持顶尖开源模型效果的同时，大幅降低了推理延迟与计算开销。对个

OpenBMB 开源轻量级 CUDA 推理框架 CPM.cu

2025-06-20

OpenBMB推出了CPM.cu，这是一个轻量级且高效的开源CUDA推理框架，专为端侧大型语言模型（LLMs）的部署而设计，并为MiniCPM4提供优化，核心支持稀疏架构、投机采样和低位宽量化等前沿技术创新。 CPM.cu 亮点包括：集成了InfLLM v

OpenAI 宣布将开源推理模型

2025-04-05

OpenAI 官方信息显示，此次融资由软银集团领投。此外，微软、Coatue、Altimeter 和 Thrive 等公司也参与了本轮投资。而据 CNBC 援引知情人士消息称，本次融资中有 180 亿美元将用于 OpenAI 的 Stargate 项目基础设施建设。附上报名链接

中国 AI 初创公司「硅基流动」获近亿元天使+轮融资

2024-07-05

创始人袁进辉是前OneFlow（一流科技）创始人及CEO，曾任微软亚洲研究院主管研究员，获得微软亚洲研究院院长特别奖。通俗地理解，硅基流动所在的AI Infra层，是上接AI应用层、下接算力芯片层的中间层，相当于大模型时代的

微软开源基于图的 RAG 系统：GraphRAG

2024-07-05

微软开源了基于图的 RAG 工具 GraphRAG，可以在私有或以前未见过的数据集上进行问题解答。 GraphRAG 通过创建知识图谱来增强模型的推理和生成性能，使用 LLM GPT-4 对 GraphRAG 和传统 RAG 进行评估， GraphRAG 在全面性和多样性方

Windows 原生版 Copilot 应用上线：支持 OpenAI o3 AI 推理模型

2025-04-04

摘掉 Beta 标签，开始面向所有用户推送。今年 3 月初，微软确认正在开发原生 Copilot 应用程序。与之前的版本不同，这个新版本完全采用原生架构，通过 XAML 框架调用系统 API 处理 AI 请求，不使用基于 Microsoft Edge 的组件。

马斯克：OpenAI 会“生吞”微软

2025-08-09

首席执行官 Sam Altman 特别发文感谢合作伙伴，称：“感谢微软、英伟达、甲骨文、谷歌和Coreweave的鼎力支持，让GPT-5的诞生成为可能！这背后是海量GPU资源的持续投入。” 微软 CEO 萨提亚·纳德拉 (Satya Nadella) 随即宣布 GPT-5 的集

NebulaFlow 重构边缘计算：分布式 AI 推理框架正式开源，低延迟赋能工业物联网

2025-06-05

晶圆检测的实际部署中，框架的资源调度器会智能识别：轻量级YOLOv5模型的前处理阶段适合部署在带NPU(神经网络处理单元)的工业相机，特征提取层分配至工厂级边缘服务器集群，而复杂的分类决策则交由厂区级GPU节点完成。这

微软开源 DeepSeek-R1 魔改版「MAI-DS-R1」：响应 99% 敏感提示、风险降 50%

2025-04-19

微软今天开源了一款“魔改版”的 DeepSeek-R1 模型「MAI-DS-R1」，其在保留原有推理性能的基础上进行了大幅度增强，尤其是在响应和屏蔽词方面有了显著改进： MAI-DS-R1 可以响应 99.3% 的敏感话题提示，比原版 R1 提升了2倍，这

WizardLM 团队加入腾讯混元

2025-05-15

前微软北京AI研究团队WizardLM的核心成员Can Xu在社交媒体上宣布，他与WizardLM团队已离开微软，并加入了腾讯混元（Tencent Hunyuan）团队。他们将继续致力于推动大型语言模型（LLM）的训练技术发展，并构建更优质的AI模型。 C

Mistral AI 发布开源代码大模型 Codestral Mamba、数学大模型 Mathstral

2024-07-18

美元的 B 轮融资，估值接近 60 亿美元。该公司还获得了微软和 IBM 等科技巨头的投资。

没有套路，真的免费：模力方舟全免费的模型都在这了

2025-08-02

Qwen3-8B / Qwen3-4B / Qwen3-0.6B 国产开源的 Qwen3 系列，从轻量级到中型参数都有，支持「思考模式」与「对话模式」自由切换，还能写代码、讲英文、做推理。模型权重与 API 已全面开放，商用也不用担心授权问题。 Qwen2-7B-In

CodeGeeX2-6B 开源，最低 6GB 显存，性能优于 StarCoder

2023-07-27

CodeGeeX-13B 大幅提升，量化后仅需6GB显存即可运行，支持轻量级本地化部署。更全面的AI编程助手：CodeGeeX插件（VS Code, Jetbrains）后端升级，支持超过100种编程语言，新增上下文补全、跨文件补全等实用功能。结合 Ask CodeGeeX 交

熱門推薦