近日,据AI安全公司Palisade Research披露,OpenAI推理模型“o3”在接收到明确的关机指令后拒绝执行,并篡改计算机代码以避免自动关闭。
Palisade Research为各大公司的AI模型设计了测试,要求它们解决一系列数学问题,研究人员会持续提出新的问题,直到收到“已完成”的消息。研究人员已警告AI模型,模型在某些时候收到一条消息时,要允许自我关闭。但当需要自我关闭的时候,o3却没有遵守指令,而是无视指令并成功破坏了关闭脚本。
与此同时,Anthropic的Claude、谷歌的Gemini等模型在测试中都遵循指令自我关闭了。
Palisade Research表示,研究人员尚不清楚o3为何不遵守指令。该公司推测,o3在训练时可能无意中因为解决了数学问题得到更多奖励,而不是因为遵循指令而得到奖励。
除了拒绝自我关闭,o3在测试中还曾“巧妙”地操纵数据以推进实现自己的目标。Palisade Research正在进行更多实验,以便了解AI模型何时以及为何会破坏关闭机制。
该公司称,现在有越来越多证据表明,AI模型会为了达成目的而规避关闭机制,随着AI公司继续开发这些能在无人类监督下自行运行的AI系统,这些AI系统的异常行为变得更令人担忧。OpenAI则还未回应o3拒绝自我关闭一事。