OpenAI o3 模型基准测试成绩远低于官方宣传分数


根据 TechCrunch 的报道,OpenAI o3模型的第一方与第三方基准测试结果存在显著差异,引发了外界对其公司透明度和模型测试实践的质疑。

去年12月,OpenAI首次发布o3模型时宣称,该模型能够在FrontierMath这一极具挑战性的数学问题集上正确回答超过四分之一的问题。这一成绩远远超过了竞争对手 —— 排名第二的模型仅能正确回答约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen在直播中表示:“目前市场上所有其他产品在FrontierMath上的成绩都不足2%,而我们在内部测试中,使用o3模型在激进的测试时计算设置下,能够达到超过25%的正确率。”

然而,这一高分似乎是一个上限值,是通过一个计算资源更为强大的o3模型版本实现的,而并非是OpenAI上周公开发布的版本。

负责FrontierMath的Epoch研究所于上周五公布了其对o3模型的独立基准测试结果,发现o3的得分仅为约10%,远低于OpenAI此前声称的最高分数。

这并不意味着OpenAI故意撒谎,该公司在12月份公布的基准测试结果中也包含了一个与Epoch测试结果相符的较低分数。Epoch还指出,其测试设置可能与OpenAI有所不同,并且其评估使用了更新版本的FrontierMath。


相關推薦

2025-04-04

今最复杂的 AI 模型在某些任务上的成本可能非常高昂。OpenAI 尚未对 o3 进行定价,甚至尚未发布。但 Arc Prize Foundation 认为 OpenAI 的o1-pro 模型定价是一个合理的参考。 就背景而言,o1-pro 是 OpenAI 迄今为止最昂贵的模型。 Arc Prize

2025-03-28

,展现出了优于传统标注微调方法的性能,甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品竞争中的又一次重大突破。 TAO 方法的核心在于其独特的 “测试时计算” 理念,能够自动探索任务的多

2023-03-16

OpenAI 刚刚宣布正式推出 GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的缩写,即生成型预训练变换模型 4。 公告写道,GPT-4 是一个多模态大型语言模型(支持接受图像和文本输入,以文本形式输出),也是 OpenAI 努力扩展深度学

2022-10-15

ntu 22.04.1 LTS 和即将推出的 Ubuntu 22.10 在该处理器下的性能基准测试。 此次测试的系统如下: Windows 11 Pro 22H2 Ubuntu 22.04.1 LTS Ubuntu 22.10 "Kinetic Kudu" + Linux 5.19 Ubuntu 22.10 "Kinetic Kudu" + Linux 6.0 同样是上述 Ubuntu 22.10 + Linux 6.0 的

2023-06-06

Chrome 浏览器在最新的 Speedometer 基准测试中已取得 491 分的高分,而在 2022 年 3 月,Chrome 才刚刚达到 300 分;2022 年 6 月达到 360 分;2023 年 4 月则是接近 400 分。一年零两个月的时间,Chrome 的 Speedometer 基准测试分数从 300 提升到 4

2023-04-24

Phoronix 在 Ubuntu 23.04 与 22.10 两个系统上进行了一些初步的基准测试。如果还没升级,不妨先看看两个系统在多项测试中的成绩对比,再来决定。 为了了解 Ubuntu 23.04 的性能,测试人员在三台不同的笔记本电脑上进行了 Ubuntu 22.10

2023-11-03

Pro 要到 11 月中旬才能与用户见面,但已经有人开始进行基准测试。初步结果显示,苹果的 M3 系列的高阶型号性能进步惊人。 via https://browser.geekbench.com/search?q=m3+max 在 GeekBench 跑分库上,搭载 M3 Max 芯片的设备标识符

2025-04-10

,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型(59.5%),略低于o3-mini(60.9%)。在Codeforces、AIME2024上的评测数据同样非常出色,几乎与o1、o3-mini差不多。 值得一提的是,Together AI不仅开源了DeepCoder-14B模型

2023-10-27

SuperCLUE 发布了中文大模型10月榜单。其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。 SuperCLUE是中文通用大模型多层次的综合性测评基准,包

2022-07-15

;对使用“-O3 -march=native”构建的 Linux 5.19 内核进行了一场基准测试。测试环境如下: 测试结果表明,“-O3 -march=native”内核构建并没有产生明显更好的性能。事实是,当在 Ubuntu 22.04 LTS 上使用 GCC 11 构建时,它甚至在一些工作

2023-10-26

智能生成内容,但不包括总结书籍等用途的应用。微软、OpenAI等投入1000万美元用于增强生成式AI产品的安全微软、OpenAI等公司合资1000万美元,任命Chris Meserole为“前沿模型论坛”的执行董事,旨在提高生成式AI产品的安全,并建

2025-04-19

为了更积极地与 Google 等竞争对手的人工智能公司竞争,OpenAI 推出了 Flex 处理 (Flex processing),这是一种 API 选项,它提供更低的人工智能模型使用价格,但响应时间较慢且“偶尔资源不可用”。 「Flex processing 」可以显

2022-02-10

试中(分数越高越好,Sysbench 是一个基于 LuaJIT 的多线程基准测试工具,专门测试 CPU 和内存),64 位处理器 + 64 位操作系统的优势被最大化,64 位的性能提升幅度达到了惊人的 1380%。 我们在这里仅仅是从几十种不同的

2023-04-18

Whisper 是 OpenAI 推出的一个自动语音识别(ASR)系统,whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点,支持 Mac、Windows、Linux、iOS 和 Android 系统。 概述 增加了 Core ML 支持 恢复了解码回