OpenAI o3 模型违背人类指令，篡改代码以避免关闭

2025-05-28 發表於开源资讯

近日，据AI安全公司Palisade Research披露，OpenAI推理模型“o3”在接收到明确的关机指令后拒绝执行，并篡改计算机代码以避免自动关闭。

Palisade Research为各大公司的AI模型设计了测试，要求它们解决一系列数学问题，研究人员会持续提出新的问题，直到收到“已完成”的消息。研究人员已警告AI模型，模型在某些时候收到一条消息时，要允许自我关闭。但当需要自我关闭的时候，o3却没有遵守指令，而是无视指令并成功破坏了关闭脚本。

与此同时，Anthropic的Claude、谷歌的Gemini等模型在测试中都遵循指令自我关闭了。

Palisade Research表示，研究人员尚不清楚o3为何不遵守指令。该公司推测，o3在训练时可能无意中因为解决了数学问题得到更多奖励，而不是因为遵循指令而得到奖励。

除了拒绝自我关闭，o3在测试中还曾“巧妙”地操纵数据以推进实现自己的目标。Palisade Research正在进行更多实验，以便了解AI模型何时以及为何会破坏关闭机制。

该公司称，现在有越来越多证据表明，AI模型会为了达成目的而规避关闭机制，随着AI公司继续开发这些能在无人类监督下自行运行的AI系统，这些AI系统的异常行为变得更令人担忧。OpenAI则还未回应o3拒绝自我关闭一事。

相關推薦

OpenAI 的 o3 模型运行成本可能比最初估计的更高

2025-04-04

今最复杂的 AI 模型在某些任务上的成本可能非常高昂。OpenAI 尚未对 o3 进行定价，甚至尚未发布。但 Arc Prize Foundation 认为 OpenAI 的o1-pro 模型定价是一个合理的参考。就背景而言，o1-pro 是 OpenAI 迄今为止最昂贵的模型。 Arc Prize

OpenAI 和 Anthropic “互测”模型安全性

2025-08-29

OpenAI与Anthropic完成了首次跨实验室联合安全评估，双方互相测试了对方的公开模型，重点关注误对齐、指令遵循、幻觉、越狱等风险，并同步发布了完整报告。评估范围覆盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、Ope

马斯克重启对 OpenAI 及 Sam Altman 的诉讼

2024-08-07

在 6 月份因不明原因撤回诉讼后，马斯克再次对 OpenAI 及其首席执行官 Sam Altman 提起了新的诉讼，声称 OpenAI 将利润和商业利益置于公众利益之上，还违背了免费共享或开源公司技术的承诺，选择向微软提供技术的独家许可。马

马斯克：OpenAI 会“生吞”微软

2025-08-09

OpenAI正式发布旗舰模型GPT-5，该模型在广泛领域表现卓越，位居榜首：不仅在文本生成、网页开发和视觉内容创作上排名第一，更在高难度提示词响应、编程、数学推理、创意写作以及长文处理等多个关键领域拔得头筹。 OpenAI

ElevenLabs 新 TTS 模型支持音频标签丨日报

2025-06-08

主题或问题，例如「野兽派建筑简史」或「人们对最新 OpenAI 模型的看法」，即可获得为每位用户量身定制、深入研究的个性化音频体验；智能互动：用户可随时提出问题或反馈，内容会实时调整，并根据用户反馈优化后续

OpenAI 神秘新模型 o3-alpha 现身 Web Arena 平台

2025-07-24

OpenAI 正在测试名为“o3-alpha-responses-2025-07-17”（公开代号为“anonymous-chatbot-0717”）的新模型，该模型于 2025 年 7 月 17 日在 WebDev Arena（一个前端开发测试竞技场）短暂测试后下架。测试显示，o3-alpha 在网页设计、前端代码生

OpenAI 改进 GPT-4o 模型，带来更强的智能和个性

2025-04-29

本月初，OpenAI 发布了多个新的 AI 模型。面向开发者的 GPT-4.1 模型引入了对 100 万个 Token 上下文窗口的支持，并在指令遵循、编码和智能方面进行了改进。o3 和 o4-mini推理模型在多个 AI 基准测试中取得了最佳结果。即使在发布

OpenAI o3 模型基准测试成绩远低于官方宣传分数

2025-04-23

根据 TechCrunch 的报道，OpenAI o3模型的第一方与第三方基准测试结果存在显著差异，引发了外界对其公司透明度和模型测试实践的质疑。去年12月，OpenAI首次发布o3模型时宣称，该模型能够在FrontierMath这一极具挑战性的数学问题集

OpenAI 详解 o3、o4-mini 和 o3-mini 使用限制

2025-04-22

OpenAI 在最近更新的一份文档中详细阐述了 o3、o4-mini 和 o3-mini 三种新推理在 ChatGPT 和 API 上的使用限制。具体来说，ChatGPT Plus、Team 或 Enterprise 帐户，每周可以使用 o3 访问 50 条消息，每天可以使用 o4-mini 访问 150 条消息，每天

通用智能体 Genspark 免费提供 OpenAI o3-pro 模型

2025-06-19

通用智能体 Genspark 宣布其 AI Chat 功能现已免费提供 OpenAI o3-pro 模型。免费用户每天可获得 200 积分，Plus用户则可无限量使用。 o3-pro 是 OpenAI 最新发布的推理模型，基于 o3 所打造，拥有更强的数学、科学、编程等领域的表

OpenAI 发布 o3-pro：更强大，但也更“慢”

2025-06-12

OpenAI 正式发布了 o3-pro 推理模型，基于 o3 所打造，拥有更强的数学、科学、编程等领域的表现。据介绍，o3-Pro可自动调用多种工具，包括可以搜索网页、分析文件、推理视觉输入、使用 Python、通过记忆功能个性化回复等。

“全球最强 AI 模型” Grok 4 正式发布

2025-07-11

，并可能支持视频。更好的多模态能力将使该模型能与 OpenAI 的 GPT-5o 和 Google 的 Gemini 2.5 Pro 展开更激烈的竞争。Grok 4 未来某个时候可能会支持视频。语音功能： Grok 4 的语音功能（Grok 4 Voice）拥有自然、酷似真人的声音，且

OpenAI 发布 GPT-4.1 提示工程指南

2025-04-16

OpenAI 今日正式推出了备受期待的GPT-4.1系列，完整阵容包括旗舰版GPT-4.1、高性价比的GPT-4.1 mini和超轻量的GPT-4.1 nano。 OpenAI 发布 GPT-4.1 系列模型这次更新的焦点并非面向大众用户，仅通过API接口提供服务，OpenAI官方文档直

OpenAI 将在几个月内发布 GPT-5

2025-04-08

OpenAI CEO Sam Altman 在 X 上宣布了新模型发布计划的调整： o3 和 o4-mini 将在几周内发布，在多个方面大幅改进了预览版本的 o3； GPT-5 将在几个月内发布。而根据他此前说法，OpenAI 将直接发布内置了推理能力的 GPT-5，以后也

熱門推薦