OpenAI o3 模型基准测试成绩远低于官方宣传分数

2025-04-23 發表於开源资讯

根据 TechCrunch 的报道，OpenAI o3模型的第一方与第三方基准测试结果存在显著差异，引发了外界对其公司透明度和模型测试实践的质疑。

去年12月，OpenAI首次发布o3模型时宣称，该模型能够在FrontierMath这一极具挑战性的数学问题集上正确回答超过四分之一的问题。这一成绩远远超过了竞争对手 —— 排名第二的模型仅能正确回答约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen在直播中表示：“目前市场上所有其他产品在FrontierMath上的成绩都不足2%，而我们在内部测试中，使用o3模型在激进的测试时计算设置下，能够达到超过25%的正确率。”

然而，这一高分似乎是一个上限值，是通过一个计算资源更为强大的o3模型版本实现的，而并非是OpenAI上周公开发布的版本。

负责FrontierMath的Epoch研究所于上周五公布了其对o3模型的独立基准测试结果，发现o3的得分仅为约10%，远低于OpenAI此前声称的最高分数。

这并不意味着OpenAI故意撒谎，该公司在12月份公布的基准测试结果中也包含了一个与Epoch测试结果相符的较低分数。Epoch还指出，其测试设置可能与OpenAI有所不同，并且其评估使用了更新版本的FrontierMath。

相關推薦

OpenAI 的 o3 模型运行成本可能比最初估计的更高

2025-04-04

今最复杂的 AI 模型在某些任务上的成本可能非常高昂。OpenAI 尚未对 o3 进行定价，甚至尚未发布。但 Arc Prize Foundation 认为 OpenAI 的o1-pro 模型定价是一个合理的参考。就背景而言，o1-pro 是 OpenAI 迄今为止最昂贵的模型。 Arc Prize

开源模型逆袭：Databricks TAO 技术微调 Llama 超越 GPT-4o

2025-03-28

，展现出了优于传统标注微调方法的性能，甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品竞争中的又一次重大突破。 TAO 方法的核心在于其独特的 “测试时计算” 理念，能够自动探索任务的多

谷歌 Gemini 2.5 Pro 新增“深度思考”模式，Gemini 2.5 Flash 模型全面上线

2025-05-22

5 Pro Deep Think 版本在多个高难度基准上表现出色，超越了 OpenAI o3 和 o4-mini。其中包括：在 2025 年 USAMO（美国数学奥林匹克）测试中取得了优异成绩；在面向竞赛级编程能力的高难度基准 LiveCodeBench 上领先；在 MMMU（

Windows 与 Ubuntu 在 AMD Zen 4 架构上的性能几乎相同

2022-10-15

ntu 22.04.1 LTS 和即将推出的 Ubuntu 22.10 在该处理器下的性能基准测试。此次测试的系统如下： Windows 11 Pro 22H2 Ubuntu 22.04.1 LTS Ubuntu 22.10 "Kinetic Kudu" + Linux 5.19 Ubuntu 22.10 "Kinetic Kudu" + Linux 6.0 同样是上述 Ubuntu 22.10 + Linux 6.0 的

GPT-5 通关宝可梦，创下 9517 步新纪录

2025-08-28

还成功挑战了《宝可梦红》，同样取得了压倒性胜利。 OpenAI 的联合创始人 Greg Brockman 对此次表现也表示赞赏。那么，究竟是什么让 GPT-5 如此高效呢？Clad3815 总结了几个关键因素：幻觉少，速度快：GPT-5在游戏过程中出现的

OpenAI 正式发布 GPT-4

2023-03-16

OpenAI 刚刚宣布正式推出 GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的缩写，即生成型预训练变换模型 4。公告写道，GPT-4 是一个多模态大型语言模型（支持接受图像和文本输入，以文本形式输出），也是 OpenAI 努力扩展深度学

OpenAI 发布 o3-pro：更强大，但也更“慢”

2025-06-12

OpenAI 正式发布了 o3-pro 推理模型，基于 o3 所打造，拥有更强的数学、科学、编程等领域的表现。据介绍，o3-Pro可自动调用多种工具，包括可以搜索网页、分析文件、推理视觉输入、使用 Python、通过记忆功能个性化回复等。

OpenAI 神秘新模型 o3-alpha 现身 Web Arena 平台

2025-07-24

OpenAI 正在测试名为“o3-alpha-responses-2025-07-17”（公开代号为“anonymous-chatbot-0717”）的新模型，该模型于 2025 年 7 月 17 日在 WebDev Arena（一个前端开发测试竞技场）短暂测试后下架。测试显示，o3-alpha 在网页设计、前端代码生

高考数学大赛：六大 AI 模型争锋，豆包与元宝双双夺冠

2025-06-10

里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题，总分为73分，涵盖了单选题、多选题和填空题。为了确保测试的公平性，所有模型在答题时都没有系统提

Chrome 启用全新编译器，基准测试创新高

2023-06-06

Chrome 浏览器在最新的 Speedometer 基准测试中已取得 491 分的高分，而在 2022 年 3 月，Chrome 才刚刚达到 300 分；2022 年 6 月达到 360 分；2023 年 4 月则是接近 400 分。一年零两个月的时间，Chrome 的 Speedometer 基准测试分数从 300 提升到 4

Ubuntu 23.04 / 22.10 性能对比，英特尔 12 代 CPU 性能暴跌

2023-04-24

Phoronix 在 Ubuntu 23.04 与 22.10 两个系统上进行了一些初步的基准测试。如果还没升级，不妨先看看两个系统在多项测试中的成绩对比，再来决定。为了了解 Ubuntu 23.04 的性能，测试人员在三台不同的笔记本电脑上进行了 Ubuntu 22.10

苹果 M3、M3 Max 芯片首个 Geekbench 跑分出炉

2023-11-03

Pro 要到 11 月中旬才能与用户见面，但已经有人开始进行基准测试。初步结果显示，苹果的 M3 系列的高阶型号性能进步惊人。 via https://browser.geekbench.com/search?q=m3+max 在 GeekBench 跑分库上，搭载 M3 Max 芯片的设备标识符

OpenAI 改进 GPT-4o 模型，带来更强的智能和个性

2025-04-29

本月初，OpenAI 发布了多个新的 AI 模型。面向开发者的 GPT-4.1 模型引入了对 100 万个 Token 上下文窗口的支持，并在指令遵循、编码和智能方面进行了改进。o3 和 o4-mini推理模型在多个 AI 基准测试中取得了最佳结果。即使在发布

AI 推理大模型或在一年内减缓增长

2025-05-16

理模型的进展最快可能在一年内放缓。近几个月来，OpenAI 的 o3 等推理模型在人工智能基准测试中取得了大幅提升，尤其是在衡量数学和编程技能的基准测试中。这些模型可以对问题进行更多计算，从而提高性能，但缺点是它

熱門推薦