OpenAI o3 模型违背人类指令,篡改代码以避免关闭


近日,据AI安全公司Palisade Research披露,OpenAI推理模型“o3”在接收到明确的关机指令后拒绝执行,并篡改计算机代码以避免自动关闭。

Palisade Research为各大公司的AI模型设计了测试,要求它们解决一系列数学问题,研究人员会持续提出新的问题,直到收到“已完成”的消息。研究人员已警告AI模型,模型在某些时候收到一条消息时,要允许自我关闭。但当需要自我关闭的时候,o3却没有遵守指令,而是无视指令并成功破坏了关闭脚本。

与此同时,Anthropic的Claude、谷歌的Gemini等模型在测试中都遵循指令自我关闭了。

Palisade Research表示,研究人员尚不清楚o3为何不遵守指令。该公司推测,o3在训练时可能无意中因为解决了数学问题得到更多奖励,而不是因为遵循指令而得到奖励。

除了拒绝自我关闭,o3在测试中还曾“巧妙”地操纵数据以推进实现自己的目标。Palisade Research正在进行更多实验,以便了解AI模型何时以及为何会破坏关闭机制。

该公司称,现在有越来越多证据表明,AI模型会为了达成目的而规避关闭机制,随着AI公司继续开发这些能在无人类监督下自行运行的AI系统,这些AI系统的异常行为变得更令人担忧。OpenAI则还未回应o3拒绝自我关闭一事。


相關推薦

2025-04-04

今最复杂的 AI 模型在某些任务上的成本可能非常高昂。OpenAI 尚未对 o3 进行定价,甚至尚未发布。但 Arc Prize Foundation 认为 OpenAI 的o1-pro 模型定价是一个合理的参考。 就背景而言,o1-pro 是 OpenAI 迄今为止最昂贵的模型。 Arc Prize

2024-08-07

在 6 月份因不明原因撤回诉讼后,马斯克再次对 OpenAI 及其首席执行官 Sam Altman 提起了新的诉讼,声称 OpenAI 将利润和商业利益置于公众利益之上,还违背了免费共享或开源公司技术的承诺,选择向微软提供技术的独家许可。 马

2025-04-29

本月初,OpenAI 发布了多个新的 AI 模型。面向开发者的 GPT-4.1 模型引入了对 100 万个 Token 上下文窗口的支持,并在指令遵循、编码和智能方面进行了改进。o3 和 o4-mini推理模型在多个 AI 基准测试中取得了最佳结果。 即使在发布

2025-04-23

根据 TechCrunch 的报道,OpenAI o3模型的第一方与第三方基准测试结果存在显著差异,引发了外界对其公司透明度和模型测试实践的质疑。 去年12月,OpenAI首次发布o3模型时宣称,该模型能够在FrontierMath这一极具挑战性的数学问题集

2025-04-22

OpenAI 在最近更新的一份文档中详细阐述了 o3、o4-mini 和 o3-mini 三种新推理在 ChatGPT 和 API 上的使用限制。 具体来说,ChatGPT Plus、Team 或 Enterprise 帐户,每周可以使用 o3 访问 50 条消息,每天可以使用 o4-mini 访问 150 条消息,每天

2025-04-08

OpenAI CEO Sam Altman 在 X 上宣布了新模型发布计划的调整: o3 和 o4-mini 将在几周内发布,在多个方面大幅改进了预览版本的 o3; GPT-5 将在几个月内发布。 而根据他此前说法,OpenAI 将直接发布内置了推理能力的 GPT-5,以后也

2025-04-04

Windows 10、Windows 11 新版 Copilot 应用已摘掉 Beta 标签,开始面向所有用户推送。 今年 3 月初,微软确认正在开发原生 Copilot 应用程序。与之前的版本不同,这个新版本完全采用原生架构,通过 XAML 框架调用系统 API 处理 AI 请求,

2025-04-16

OpenAI 今日正式推出了备受期待的GPT-4.1系列,完整阵容包括旗舰版GPT-4.1、高性价比的GPT-4.1 mini和超轻量的GPT-4.1 nano。 OpenAI 发布 GPT-4.1 系列模型 这次更新的焦点并非面向大众用户,仅通过API接口提供服务,OpenAI官方文档直

2025-04-19

为了更积极地与 Google 等竞争对手的人工智能公司竞争,OpenAI 推出了 Flex 处理 (Flex processing),这是一种 API 选项,它提供更低的人工智能模型使用价格,但响应时间较慢且“偶尔资源不可用”。 「Flex processing 」可以显

2025-05-23

年初,腾讯混元 TurboS “快思考模型”正式发布,作为业界首款大规模混合 Mamba-MoE 模型,其在效果与性能上展现了出显著优势。这一突破得益于预训练阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾

2023-03-16

OpenAI 刚刚宣布正式推出 GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的缩写,即生成型预训练变换模型 4。 公告写道,GPT-4 是一个多模态大型语言模型(支持接受图像和文本输入,以文本形式输出),也是 OpenAI 努力扩展深度学

2023-07-07

OpenAI 宣布正在组建一个由其联合创始人兼首席科学家 Ilya Sutskever 和 Alignment 负责人 Jan Leike 共同领导的新团队,以开发引导和控制超智能人工智能(Superintelligent AI)系统的方法。“我们需要科学和技术突破来引导和控制比我们

2023-06-01

,比如被称为人工智能“教父”的 Geoffrey Hinton,以及 OpenAI 的 CEO 兼联合创始人 Sam Altman Anthropic 的首席执行官 Dario Amodei、 Google DeepMind 的首席执行官 Demis Hassabis 微软的首席技术官 Kevin Scott 此外还有一大堆涉略或 AI 领

2023-04-06

OpenAI 暂时关闭了升级到 ChatGPT Plus 的付费入口,因此未升级到 Plus 的用户目前将无法升级。官方称关闭的原因是需求量太大,至于何时再开放尚未公布。 据了解,ChatGPT Plus 的订阅费用是每月 20 美元,升级后的服务包括高峰时