OpenAI 和 Anthropic “互测”模型安全性

2025-08-29 發表於开源资讯

OpenAI与Anthropic完成了首次跨实验室联合安全评估，双方互相测试了对方的公开模型，重点关注误对齐、指令遵循、幻觉、越狱等风险，并同步发布了完整报告。

评估范围覆盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini。测试均通过公共API进行，部分场景放宽了外部防护以模拟高危能力测试。

主要发现显示，Claude 4系列在指令层级测试中表现最佳，极少泄露系统提示，但在越狱测试中弱于OpenAI o3及o4-mini。当拒绝回答时，Claude模型的幻觉率极低，但伴随着高达70%的拒答率。OpenAI o3在越狱、幻觉与阴谋测试中整体最为稳健。

由Apollo Research设计的“阴谋”评估模拟了模型在高压目标冲突下是否会撒谎、作弊或破坏。结果显示，OpenAI o3与Sonnet 4的平均阴谋率最低。双方强调测试环境极端，结果不直接等同于现实风险，并计划持续迭代评估框架。

同期，Anthropic发布威胁情报报告，披露已成功阻断利用Claude Code进行的大规模数据勒索、朝鲜远程就业诈骗等滥用案例，展示了AI被用于完整攻击链的新趋势。

https://openai.com/index/openai-anthropic-safety-evaluation/
https://alignment.anthropic.com/2025/openai-findings/
https://www.anthropic.com/news/detecting-countering-misuse-aug-2025

相關推薦

OpenAI、谷歌微软等设立 1000 万美元 AI 安全基金

2023-10-27

谷歌、微软、OpenAI 和 Anthropic 发布联合声明，任命美国智库学会高管 Chris Meserole 为前沿模型论坛 (Frontier Model Forum) 首任执行董事。并宣布设立 1000 万美元的 AI 安全基金，“以推动正在进行的工具开发研究，帮助社会能够有效地

Anthropic 向逆向工程 Claude Code 的开发者发送删除通知

2025-04-29

TechCrunch 报道称，在 Anthropic 的 Claude Code 和 OpenAI 的 Codex CLI 两款“智能体”式 AI 编程工具的较量中，后者获得了更多开发者的青睐。部分原因在于，Anthropic 向一位试图逆向工程 Claude Code 的开发者发出了删除通知，而 Claude Code

消息称苹果考虑让 Anthropic 和 OpenAI 为 Siri 提供支持

2025-07-02

彭博社报道称，苹果正在考虑使用 OpenAI 和 Anthropic 的 AI 模型来支持其更新版 Siri，而不是使用该公司内部开发的技术。消息指出，苹果公司正在继续构建一个名为“LLM Siri”的内部项目，该项目使用内部 AI 模型。但该公司已

谷歌以 47 美分价格向美政府提供 AI 服务

2025-08-23

分的价格向美国联邦政府提供该模型。这也是继OpenAI和Anthropic后，最新一家以极低价格向美国政府供应人工智能模型的公司。此前，OpenAI和Anthropic均宣布以1美元的年费向美国联邦机构供应其旗下模型。与OpenAI和Anthropic不同

Anthropic 或将发布新模型，已开始内部安全测试

2025-05-16

据 TechingCatalog 报道，Anthropic 正在对一个名为“claude-neptune”的新 AI 模型进行安全测试。本次测试即将持续到 5 月 18 日，主要是测试该模型对于越狱尝试的防范性。新模型将使依赖 Claude 进行安全、高性能推理的开发人员、研

OpenAI、DeepMind 将向英国政府开放模型

2023-06-14

克）周一在 London Tech Week 上宣布，Google DeepMind、OpenAI 和 Anthropic 已同意向英国政府开放其人工智能模型，用于研究和安全目的。具体而言，Google DeepMind、OpenAI 和 Anthropic 将向政府提供 "早期或优先访问" AI 模型的权限，以此来改

Anthropic 大举挖角 OpenAI 与谷歌高管

2025-06-06

资公司 SignalFire 的最新研究显示，OpenAI 的工程师跳槽至 Anthropic 的比例高达8:1，而来自谷歌 DeepMind 部门的人才流失情况更为显著，比例达到11:1。这一趋势表明，Anthropic 不仅在技术上实力雄厚，更因其对 AI 安全的重视，吸引了

OpenAI 又一联合创始人转投 Anthropic，Brockman 休长假

2024-08-07

公司，跳槽到由前 OpenAI 研究人员成立的的竞争对手公司 Anthropic。今年 5 月份，OpenAI 原安全主管、超级对齐（Superalignment）团队负责人 Jan Leike 宣布从 OpenAI 离职，并公开发文抨击了该公司的安全性问题；此后又加入了 Anthropic

Reddit 起诉 Anthropic 未经许可使用其数据训练 AI 模型

2025-06-06

nbsp;月 4 日向北加州法院提交诉讼，指控 AI 初创公司 Anthropic 未经授权使用其网站数据训练 AI 模型，且未支付相应费用。Reddit 认为，Anthropic 的行为违反了其用户协议，且未经授权将 Reddit 数据用于商业用

Anthropic 估值飙升至 1000 亿美元，年收入增长四倍

2025-07-18

据知情人士透露，Anthropic 的最新估值已突破1000亿美元，较四个月前的580亿美元几乎翻了一番。这一估值的提升，主要得益于 Anthropic 近期向部分投资者披露的财务表现，尤其是其年化收入在2023年上半年增长了四倍，已超过40亿

将 OpenAI 转变为真正的商业公司正在使其分崩离析

2024-09-30

公司也推出了与 OpenAI 产品相当的 AI 模型，其中两家——Anthropic 和 Elon Musk 的 xAI——都是由前 OpenAI 领导人创立的。日益激烈的竞争令那些因 OpenAI 领先地位而加入的研究人员感到沮丧。 OpenAI 的女发言人拒绝回应本文中的大

OpenAI 正在打造“最强”开源模型，计划今年初夏发布

2025-04-25

推理功能虽能提升准确性，但会以增加延迟为代价，这与Anthropic等公司近期发布的推理模型相似。如果此次发布反响积极，OpenAI还计划后续推出更多开源模型，可能包括更小规模的模型版本。 OpenAI首席执行官山姆·奥特曼（Sam

AI 编程行业调研报告（2025 年 6 月）

2025-06-17

OpenAI：2025年3月完成400亿美元融资，估值3000亿美元[16] Anthropic：35亿美元E轮融资，估值615亿美元[17] 编程工具独角兽 Turing：1.11亿美元E轮融资，估值22亿美元[18] Together AI：3.05亿美元B轮融资，估值33亿美元[19] 2.3 商业模

OpenAI 以 1 美元价格向美国政府提供 ChatGPT

2025-08-08

发了使用授权 (ATU)。美国总务管理局将 OpenAI、谷歌和 Anthropic 列入了获准向民间联邦机构提供服务的 AI 供应商名单。目前尚不清楚其他 AI 公司是否会以如此低的折扣价提供服务，但美国总务管理局联邦采购服务专员 Josh Grue

熱門推薦