OpenAI 神秘新模型 o3-alpha 现身 Web Arena 平台

2025-07-24 發表於开源资讯

OpenAI 正在测试名为“o3-alpha-responses-2025-07-17”（公开代号为“anonymous-chatbot-0717”）的新模型，该模型于 2025 年 7 月 17 日在 WebDev Arena（一个前端开发测试竞技场）短暂测试后下架。

测试显示，o3-alpha 在网页设计、前端代码生成（如使用 Three.js 创建程序化星球、生成 Doodle Jump 等网页游戏）以及复杂游戏（如 Minecraft 和 GTA 克隆版）开发方面表现突出，远胜于 OpenAI 的 o3、GPT-4.1-2025-04-14，以及 Claude Sonnet、Gemini 2.5 Pro 和 Grok 4 等竞品。

此外，有猜测称该模型可能与近期在东京 AtCoder 启发式编程世界杯总决赛中获得亚军的模型有关，但 OpenAI 未官方确认。

目前，该模型既非 OpenAI 计划开源的模型，也非传闻中的 o4（官方称 o4 不存在），可能是 o3 的重大升级版或 GPT-5 的前期技术验证，但无官方背书。

相關推薦

字节新视频模型 Waver 1.0 在 Video Arena 排行榜位列第三

2025-07-23

来自字节跳动（ByteDance）的神秘新视频模型Waver 1.0已现身Video Arena排行榜，并在榜单上进入了第三名的位置。值得关注的是，这款模型在文生视频和图生视频榜单上都是排名第三。文生视频仅次于字节之前发布的Seedance 1.0和

谷歌图像编辑 AI 模型 nano-banana 现身 LMArena

2025-08-21

最近，一款名为 nano-banana 的神秘图像编辑 AI 模型悄然现身 LMArena 平台。有爆料称：这是谷歌正在测试的新模型。谷歌工程师在社交平台上发布香蕉 emoji 或香蕉图片，明示代号为 nano-banana 的图像生成模型为谷歌所有。目

Google Kaggle 举办 AI 国际象棋锦标赛，评估领先模型的推理能力

2025-08-06

OpenAI 的 o3 和 04-mini、Google LLC 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash、Anthropic 的 Claude Opus 4 以及 xAI Corp. 的 Grok 4 等全球性能最强的人工智能模型将在棋盘上展开正面交锋。这场为期三天的人工智能象棋对决是Google数据科学社区 Kaggle&n

腾讯混元首次跻身 Chatbot Arena 榜单：全球 Top 15

2025-03-21

腾讯开源发文宣布，腾讯混元首次上榜海外权威大模型竞技场 Chatbot Arena 最新排名，跻身全球 Top 15。 Chatbot Arena 发起方 LMSYS Org （加州大学伯克利分校等机构支持的非营利组织）通过官方X账号对腾讯混元的加入表示欢迎。 “

Proton 7.0-6 发布，可在 Linux 上玩更多 Windows 游戏

2023-02-05

下玩的 Windows 游戏。新支持的游戏包括《哥谭骑士》、《神秘海域：盗贼之遗》、《黑暗英雄》、《超级街机赛车》、《疯狂机器 3》、《山下之王》、《忍忍之日 2》和《麻将女郎》。（Gotham Knights, UNCHARTED: Legacy of Thieves Collec

互联网女皇” Mary Meeker 发布 340 页 AI 报告

2025-06-06

生成等细分任务中，DeepSeek等开源模型已能在性能上直逼OpenAI等闭源模型，形成“性能差距逐步收敛”的新趋势。“中国与开源的崛起将AI竞争推向多极对抗的新时代，不再是巨头一家独大的游戏。” 核心观点：AI 变革速度颠覆

开源模型逆袭：Databricks TAO 技术微调 Llama 超越 GPT-4o

2025-03-28

，展现出了优于传统标注微调方法的性能，甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品竞争中的又一次重大突破。 TAO 方法的核心在于其独特的 “测试时计算” 理念，能够自动探索任务的多

Go 语言新提案「arena」：优化内存,速度提升2000% 内存占用降低150% cpu占用降低150%

2022-03-01

Go 语言社区正在讨论名为「arena」的新提案。根据提案的介绍，「Go arena」用于优化内存分配。arena 是一种从连续的内存区域分配一组内存对象的方法，其优点是从 arena 分配对象通常比一般内存分配更有效。更重要的是，a

阿里通义 Qwen3 模型拿下全球第三

2025-08-05

国际知名大模型评测 Chatbot Arena 日前公布最新榜单，Qwen3-235B-A22B-Instruct-2507 斩获 1433分，超越顶尖闭源模型 Grok4、Claude4、GPT4.1，Qwen3 位列总榜「全球第三」。据悉，Chatbot Arena 采用盲测评价机制，是 AI 大模型领域最具影响力

腾讯混元大模型矩阵全面升级并推出多款新品

2025-05-23

腾讯混元宣布模型矩阵全面升级：旗舰快思考模型混元TurboS、深度思考模型混元T1升级，并基于TurboS基座，腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice 腾讯混元图像2.0、腾讯混元3D v2.5及混元游戏视

Vercel 发布面向 Web 前端开发的 AI 大模型「v0-1.0-md」

2025-05-23

实时流式传输内联更改。至关重要的是，v0-1.0-md 使用与 OpenAI 兼容的 API，这意味着您可以将其插入现有工具（例如 Cursor、Codex）或自定义应用程序（只要这些应用程序已经支持 OpenAI 语言规范），包括 Vercel 自己的 AI SDK。 i

ai.com 域名跳转再次变动，已“解绑” DeepSeek

2025-04-25

人工智能的直接关联而备受关注。过去，它曾被 Google、OpenAI 和 Elon Musk 的 xAI 使用，最近的变动显示它可能已从 DeepSeek 解绑，并重定向到一个新网站。根据 2025 年 4 月的 WHOIS 记录，ai.com 的注册机构为 Squarespace Domains II LLC，这

亚马逊发布可控制 Web 浏览器的 AI 智能体 Nova Act

2025-04-02

Nova Act 是亚马逊试图利用自己的通用人工智能代理技术与OpenAI 的 Operator 和 Anthropic 的 Computer Use 竞争的尝试。几家领先的科技公司认为，能够为用户导航网络的人工智能代理将使当今的人工智能聊天机器人更加有用。亚马逊可

腾讯混元官宣：3 月 21 日发布全新推理模型 T1

2025-03-21

腾讯混元通过官方公众号宣布，全新的推理模型 T1 将于本周五（北京时间 3 月 21 日 23 时）正式发布。与此同时，腾讯宣布，混元大模型首次登上 Chatbot Arena 榜单，跻身全球 Top 15。用户在该平台上以匿名方式与多个模型互动

熱門推薦