微软开源 Phi-4 系列小参数模型,推理能力媲美 DeepSeek


微软开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。

Phi-4-Reasoning的基础架构源自微软开源的Phi-4 模型,为了提升其推理能力,微软通过监督微调和强化学习相结合的训练方法行了深度强化。

该方法的核心在于,先通过监督微调让大模型学习高质量的推理演示数据,从而生成详细的推理链,并能够有效地利用推理时的计算资源。优点类似于给模型提供了一个“标准答案”,让模型知道如何正确地进行推理。

Reasoning是基于Phi-4开发而成,mini版本适用于平板、手机等移动设备,而plus是强化学习版本,针对数学等特定领域进行了强化训练。

这三款模型的最大亮点之一便是算力消耗非常低,可以直接在消费级硬件环境上运行,以普通的 Windows 11设备为例,无论是CPU还是GPU,都能轻松实现本地部署。同时微软已经将Phi-4系列模型深度融入Windows系统生态,使其成为Copilot+PC的重要组成部分。

根据测试数据显示,Phi-4-Reasoning-plus版本只有140亿参数,但与DeepSeek开源的R1 6710亿参数相比性能几乎差不多,例如,在美国数学奥林匹克竞赛资格赛2025中,Reasoning-plus得分为78,R1为70.4;

哈佛-麻省理工数学竞赛Reasoning-plus为53.6,R1为41.7;Ominimath的测试中,Reasoning-plus为81.9,R1为85;GPQA中Reasoning-plus为69.3,R1为73,成为目前最强的开源小参数模型。

开源地址:

https://huggingface.co/microsoft/Phi-4-reasoning

https://huggingface.co/microsoft/Phi-4-mini-reasoning

https://huggingface.co/microsoft/Phi-4-reasoning-plus


相關推薦

2025-07-12

Phi-4-mini-flash-reasoning的训练数据完全由更强大的推理模型Deepseek-R1生成的合成数学内容构成,旨在从更强的模型中提炼知识。 在AIME、Math500和GPQA Diamond等多个数学推理基准测试中,Phi-4-mini-flash-reasoning的表现与许多参数量远大于

2025-03-26

上新!DeepSeek-V3重磅升级 昨夜,DeepSeek-V3迎来一波更新,升级至「DeepSeek-V3-0324」版本。 不仅将模型参数量由原版的671B提升至685B,编程、数学等推理思考能力大幅提升,性能表现可以与Claude 3.5/3.7 Sonnet相媲美。同时,模型的开

2025-04-30

6)、AIME'24(85.7)、LiveCodeBench v5(70.7)等测试中,优于DeepSeek-R1、o1、Grok-3等模型,仅在AIME'25(81.5)略低于Gemini-2.5-Pro(86.7)。 Qwen3-30B-A3B:在ArenaHard(91.0)、AIME'24(80.4)等测试中,超越QwQ-32B(激活参数为其10倍)。 Qwen3

2025-03-27

DeepSeek-V3 模型近日进行了更新,虽然大家都说更新后的 DeepSeek-V3-0324 强到没边——哪怕叫 DeepSeek V3.5 也不为过,但官方仍低调地称其是“小版本升级”。 下面是官方针对 DeepSeek-V3-0324 发布的更新说明。 DeepSeek V3 模型已完成

2025-08-02

扎实,特别适合中文语境下的多轮问答和对话场景。 DeepSeek-R1-Distill-Qwen 系列(14B / 7B / 1.5B) DeepSeek-R1 模型的轻量蒸馏版,覆盖大中小三种参数体型,推理性能不错但定位仍是通用语言模型,适合对资源有要求的部署场景

2025-06-05

🚀 Xinference v1.6.1 更新日志 ✅ 本次亮点 🧠 新增 Deepseek-R1-0528 及其蒸馏模型 Deepseek-R1-0528-Qwen3支持 Deepseek R1 最新版模型,语言理解与生成能力进一步增强。 🧩 Transformers 的视觉语言(VL)模型推理逻辑全面重构新架构

2025-06-12

Hugging Face 近日发布开放权重模型贡献榜,中国团队Qwen和DeepSeek成功入围前15名。该榜单表彰为开源社区提供高质量模型权重的团队,其模型广泛应用于学术与产业创新。 由阿里巴巴云智能集团支持的Qwen团队,以Qwen3系列模型

2025-04-19

思考能力尤为引人注目。该模型在性能上可与行业领先的DeepSeek-V3-0324(短思维链)及DeepSeek-R1(长思维链)相媲美,标志着理想汽车在AI技术上的深厚积累。用户现在可以通过理想同学手机App及网页版免费体验这一全新模型,感受

2025-04-11

关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。 测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-25

2025-04-05

在 AI 领域的一种延伸和部分实现,包括此前宣称开源的 DeepSeek V3/R1 同样只开放了权重。 在正式发布前,OpenAI 将依据其「准备框架」对模型进行评估,确保其安全性与可靠性。考虑到模型发布后可能被修改,团队还将开展额

2025-07-17

供了新路径。 实验结果显示,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率,性能超越部分更大规模的闭源模型。尤为突出的是,POLARIS-4B模型的轻量化设计,使其能够在消

2025-03-27

北京时间 3 月 24 日晚,DeepSeek 「突然」发布了模型更新。 但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。 目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/dee

2025-07-30

GPQA-Diamond 评测中,以 77.67分斩获全球第二,超越 DeepSeekR1和 Qwen3。 在 ArenaHard V1.0 中,以 67.2分位居全球第一。 在 BFCL V3 评测中,达到 68分。 在性能大幅跃升的同时,模型进一步强化了可控生

2025-08-06

小红书发布并开源了 dots.ocr,这是一款基于视觉语言模型(VLM)的文档解析模型,支持多语言识别、布局检测与内容识别的一体化处理。 据介绍,dots.ocr 在单一的视觉语言模型中统一了布局检测和内容识别,同时能保持良