OpenAI 和 Anthropic “互测”模型安全性


OpenAI与Anthropic完成了首次跨实验室联合安全评估,双方互相测试了对方的公开模型,重点关注误对齐、指令遵循、幻觉、越狱等风险,并同步发布了完整报告。

评估范围覆盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini。测试均通过公共API进行,部分场景放宽了外部防护以模拟高危能力测试。

主要发现显示,Claude 4系列在指令层级测试中表现最佳,极少泄露系统提示,但在越狱测试中弱于OpenAI o3及o4-mini。当拒绝回答时,Claude模型的幻觉率极低,但伴随着高达70%的拒答率。OpenAI o3在越狱、幻觉与阴谋测试中整体最为稳健。

由Apollo Research设计的“阴谋”评估模拟了模型在高压目标冲突下是否会撒谎、作弊或破坏。结果显示,OpenAI o3与Sonnet 4的平均阴谋率最低。双方强调测试环境极端,结果不直接等同于现实风险,并计划持续迭代评估框架。

同期,Anthropic发布威胁情报报告,披露已成功阻断利用Claude Code进行的大规模数据勒索、朝鲜远程就业诈骗等滥用案例,展示了AI被用于完整攻击链的新趋势。

https://openai.com/index/openai-anthropic-safety-evaluation/
https://alignment.anthropic.com/2025/openai-findings/
https://www.anthropic.com/news/detecting-countering-misuse-aug-2025


相關推薦

2023-10-27

谷歌、微软、OpenAI 和 Anthropic 发布联合声明,任命美国智库学会高管 Chris Meserole 为前沿模型论坛 (Frontier Model Forum) 首任执行董事。并宣布设立 1000 万美元的 AI 安全基金,“以推动正在进行的工具开发研究,帮助社会能够有效地

2025-04-29

TechCrunch 报道称,在 Anthropic 的 Claude Code 和 OpenAI 的 Codex CLI 两款“智能体”式 AI 编程工具的较量中,后者获得了更多开发者的青睐。部分原因在于,Anthropic 向一位试图逆向工程 Claude Code 的开发者发出了删除通知,而 Claude Code

2025-07-02

彭博社报道称,苹果正在考虑使用 OpenAI 和 Anthropic 的 AI 模型来支持其更新版 Siri,而不是使用该公司内部开发的技术。 消息指出,苹果公司正在继续构建一个名为“LLM Siri”的内部项目,该项目使用内部 AI 模型。但该公司已

2025-08-23

分的价格向美国联邦政府提供该模型。 这也是继OpenAI和Anthropic后,最新一家以极低价格向美国政府供应人工智能模型的公司。此前,OpenAI和Anthropic均宣布以1美元的年费向美国联邦机构供应其旗下模型。 与OpenAI和Anthropic不同

2025-05-16

据 TechingCatalog 报道,Anthropic 正在对一个名为“claude-neptune”的新 AI 模型进行安全测试。 本次测试即将持续到 5 月 18 日,主要是测试该模型对于越狱尝试的防范性。新模型将使依赖 Claude 进行安全、高性能推理的开发人员、研

2023-06-14

克)周一在 London Tech Week 上宣布,Google DeepMind、OpenAI 和 Anthropic 已同意向英国政府开放其人工智能模型,用于研究和安全目的。 具体而言,Google DeepMind、OpenAI 和 Anthropic 将向政府提供 "早期或优先访问" AI 模型的权限,以此来改

2025-06-06

资公司 SignalFire 的最新研究显示,OpenAI 的工程师跳槽至 Anthropic 的比例高达8:1,而来自谷歌 DeepMind 部门的人才流失情况更为显著,比例达到11:1。这一趋势表明,Anthropic 不仅在技术上实力雄厚,更因其对 AI 安全的重视,吸引了

2024-08-07

公司,跳槽到由前 OpenAI 研究人员成立的的竞争对手公司 Anthropic。 今年 5 月份,OpenAI 原安全主管、超级对齐(Superalignment)团队负责人 Jan Leike 宣布从 OpenAI 离职,并公开发文抨击了该公司的安全性问题;此后又加入了 Anthropic

2025-06-06

nbsp;月 4 日向北加州法院提交诉讼,指控 AI 初创公司 Anthropic 未经授权使用其网站数据训练 AI 模型,且未支付相应费用。Reddit 认为,Anthropic 的行为违反了其用户协议,且未经授权将 Reddit 数据用于商业用

2025-07-18

据知情人士透露,Anthropic 的最新估值已突破1000亿美元,较四个月前的580亿美元几乎翻了一番。这一估值的提升,主要得益于 Anthropic 近期向部分投资者披露的财务表现,尤其是其年化收入在2023年上半年增长了四倍,已超过40亿

2024-09-30

公司也推出了与 OpenAI 产品相当的 AI 模型,其中两家——Anthropic 和 Elon Musk 的 xAI——都是由前 OpenAI 领导人创立的。 日益激烈的竞争令那些因 OpenAI 领先地位而加入的研究人员感到沮丧。 OpenAI 的女发言人拒绝回应本文中的大

2025-04-25

推理功能虽能提升准确性,但会以增加延迟为代价,这与Anthropic等公司近期发布的推理模型相似。 如果此次发布反响积极,OpenAI还计划后续推出更多开源模型,可能包括更小规模的模型版本。 OpenAI首席执行官山姆·奥特曼(Sam

2025-06-17

OpenAI:2025年3月完成400亿美元融资,估值3000亿美元[16] Anthropic:35亿美元E轮融资,估值615亿美元[17] 编程工具独角兽 Turing:1.11亿美元E轮融资,估值22亿美元[18] Together AI:3.05亿美元B轮融资,估值33亿美元[19] 2.3 商业模

2025-08-08

发了使用授权 (ATU)。 美国总务管理局将 OpenAI、谷歌和 Anthropic 列入了获准向民间联邦机构提供服务的 AI 供应商名单。 目前尚不清楚其他 AI 公司是否会以如此低的折扣价提供服务,但美国总务管理局联邦采购服务专员 Josh Grue