微软开源 Phi-4 系列小参数模型,推理能力媲美 DeepSeek


微软开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。

Phi-4-Reasoning的基础架构源自微软开源的Phi-4 模型,为了提升其推理能力,微软通过监督微调和强化学习相结合的训练方法行了深度强化。

该方法的核心在于,先通过监督微调让大模型学习高质量的推理演示数据,从而生成详细的推理链,并能够有效地利用推理时的计算资源。优点类似于给模型提供了一个“标准答案”,让模型知道如何正确地进行推理。

Reasoning是基于Phi-4开发而成,mini版本适用于平板、手机等移动设备,而plus是强化学习版本,针对数学等特定领域进行了强化训练。

这三款模型的最大亮点之一便是算力消耗非常低,可以直接在消费级硬件环境上运行,以普通的 Windows 11设备为例,无论是CPU还是GPU,都能轻松实现本地部署。同时微软已经将Phi-4系列模型深度融入Windows系统生态,使其成为Copilot+PC的重要组成部分。

根据测试数据显示,Phi-4-Reasoning-plus版本只有140亿参数,但与DeepSeek开源的R1 6710亿参数相比性能几乎差不多,例如,在美国数学奥林匹克竞赛资格赛2025中,Reasoning-plus得分为78,R1为70.4;

哈佛-麻省理工数学竞赛Reasoning-plus为53.6,R1为41.7;Ominimath的测试中,Reasoning-plus为81.9,R1为85;GPQA中Reasoning-plus为69.3,R1为73,成为目前最强的开源小参数模型。

开源地址:

https://huggingface.co/microsoft/Phi-4-reasoning

https://huggingface.co/microsoft/Phi-4-mini-reasoning

https://huggingface.co/microsoft/Phi-4-reasoning-plus


相關推薦

2025-03-26

上新!DeepSeek-V3重磅升级 昨夜,DeepSeek-V3迎来一波更新,升级至「DeepSeek-V3-0324」版本。 不仅将模型参数量由原版的671B提升至685B,编程、数学等推理思考能力大幅提升,性能表现可以与Claude 3.5/3.7 Sonnet相媲美。同时,模型的开

2025-04-30

6)、AIME'24(85.7)、LiveCodeBench v5(70.7)等测试中,优于DeepSeek-R1、o1、Grok-3等模型,仅在AIME'25(81.5)略低于Gemini-2.5-Pro(86.7)。 Qwen3-30B-A3B:在ArenaHard(91.0)、AIME'24(80.4)等测试中,超越QwQ-32B(激活参数为其10倍)。 Qwen3

2025-03-27

DeepSeek-V3 模型近日进行了更新,虽然大家都说更新后的 DeepSeek-V3-0324 强到没边——哪怕叫 DeepSeek V3.5 也不为过,但官方仍低调地称其是“小版本升级”。 下面是官方针对 DeepSeek-V3-0324 发布的更新说明。 DeepSeek V3 模型已完成

2025-04-19

思考能力尤为引人注目。该模型在性能上可与行业领先的DeepSeek-V3-0324(短思维链)及DeepSeek-R1(长思维链)相媲美,标志着理想汽车在AI技术上的深厚积累。用户现在可以通过理想同学手机App及网页版免费体验这一全新模型,感受

2025-04-11

关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。 测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-25

2025-04-05

在 AI 领域的一种延伸和部分实现,包括此前宣称开源的 DeepSeek V3/R1 同样只开放了权重。 在正式发布前,OpenAI 将依据其「准备框架」对模型进行评估,确保其安全性与可靠性。考虑到模型发布后可能被修改,团队还将开展额

2025-03-27

北京时间 3 月 24 日晚,DeepSeek 「突然」发布了模型更新。 但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。 目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/dee

2025-04-25

避免步其后尘。 目前,OpenAI面临来自包括中国AI实验室DeepSeek在内的开源策略竞争者的挑战。这些"开源"竞争者将模型提供给AI社区用于实验,在某些情况下还允许商业化使用,与OpenAI此前更为封闭的做法形成鲜明对照。 这种开

2025-04-08

的问题。 AI推理时代即将到来? 今年年初,中国AI公司DeepSeek模型的横空出世在AI领域掀起巨浪,R1模型因其高效推理能力和低成本训练受到全球关注,也对英伟达等芯片企业形成了前所未有的冲击。 英伟达公司年度开发者大

2025-04-19

微软今天开源了一款“魔改版”的 DeepSeek-R1 模型「MAI-DS-R1」,其在保留原有推理性能的基础上进行了大幅度增强,尤其是在响应和屏蔽词方面有了显著改进: MAI-DS-R1 可以响应 99.3% 的敏感话题提示,比原版 R1 提升了2倍,这

2025-03-21

辑方面超越了 OpenAI 的 GPT 模型、谷歌 DeepMind 的 Gemini 和 DeepSeek 等全球竞争对手。 共包括三个不同的尺寸:具有 320 亿个参数的 Exaone Deep 32B、具有 78 亿个参数的 Exaone Deep 7.8B 和具有 24 亿个参数的 Exaone Deep 2.4B。 LG 表示,韩国

2025-04-08

显得异常复杂。1littlecoder指出,即使是中国公司的模型如DeepSeek和Qwen,用户只需点击几下即可下载。而Meta的模型却设置了多重障碍: "Meta的模型要求你首先登录Hugging Face账户,这点我能理解,他们可能有垃圾邮件问题。然后填

2025-05-01

DeepSeek 在官方 Hugging face 库上低调开源发布了其最新开源模型 DeepSeek-Prover-V2-671B。一个专注于数学定理证明的大语言模型,专门针对形式化数学证明任务进行优化。 新模型具有以下特点: 模型规模巨大:参数量约为671B(671

2025-04-08

ompson 的深度对谈中,其中聊到 GPT-5 的进展,并表示受到 DeepSeek 的影响, GPT-5 将可以免费使用。 访谈中主持人向 Altman 提问「DeepSeek 为何能走红?」,而 Altman 表示,DeepSeek 的开放性给了 OpenAI 一个警醒,并且也让他重新思考 Op