揭秘 AI 思维:Anthropic 科学家成功「窥探」大语言模型内部运作机制


在人工智能快速发展的今天,我们使用的AI助手如何「思考」一直是个谜。近日,AI公司Anthropic发布了两篇重磅论文,首次深入揭示了大语言模型Claude的内部思维过程,这一突破性研究被形象地称为「AI显微镜」技术。

打造「AI显微镜」

Anthropic的研究人员面临一个关键挑战:大语言模型不是由人类直接编程的,而是通过海量数据训练形成自己解决问题的策略。这些策略隐藏在模型执行的数十亿次计算中,即使是开发者也无法直接理解模型如何思考。

研究团队受神经科学启发,开发了一种可视化工具,能够追踪模型内部的活动模式和信息流动。通过这一「AI显微镜」,研究人员能够将模型内部可解释的概念(「特征」)连接成计算「回路」,揭示了Claude从输入到输出的转换路径。

惊人发现:Claude如何「思考」

研究者对Claude 3.5 Haiku模型进行了深入研究,探索了十种关键行为机制,结果令人惊讶:

1. 通用思维语言

Claude能说几十种语言,研究人员发现它不是为每种语言运行单独的处理系统,而是在一个共享的概念空间中思考。当研究者在不同语言中询问「小的反义词是什么」时,发现不论使用英语、法语还是中文提问,模型内部激活的核心特征都是相同的。这意味着Claude拥有一种「思维的通用语言」,能够将在一种语言中学到的知识应用到另一种语言中。

2. 提前规划能力

研究者原本猜测Claude写押韵诗歌时是逐词创作,直到行尾才选择一个押韵词。但事实证明,Claude会提前规划。以「He saw a carrot and had to grab it」(他看到一根胡萝卜不得不抓住它)为例,在开始写第二行前,Claude会先思考与「grab it」押韵的词(如「rabbit」兔子),然后围绕这个词构建整行诗句。

更有趣的是,当研究者人为修改模型内部表示「rabbit」的部分时,Claude会相应调整,选择其他押韵词如「habit」;当注入「green」(绿色)概念时,模型会写出以绿色结尾的句子,虽然不再押韵但仍然合理。

3. 心算策略

Claude如何完成像36+59这样的心算?研究表明,它并非简单查表或使用传统算法,而是同时采用多条并行计算路径:一条路径计算大致答案,另一条专注于准确确定和的最后一位数字。有趣的是,当被问及如何计算时,Claude描述的是标准进位算法,显示出模型自身对其实际内部策略「不自知」。

4. 推理机制与「胡说八道」

当面对简单问题(如计算0.64的平方根)时,Claude展示了真实的思维链;但面对它无法轻易计算的复杂问题(如大数的余弦值)时,有时会编造看似合理但实际上是虚构的步骤。研究者通过解释性技术揭示,在这种情况下,模型内部没有任何计算实际发生的证据。

5. 多步推理

研究还证明了Claude能够结合独立事实达成答案,而非简单记忆。例如,当被问及「达拉斯所在州的首府是什么」时,研究者观察到Claude先激活表示「达拉斯在德克萨斯州」的特征,然后连接到「德克萨斯州的首府是奥斯汀」的概念。这表明模型正在组合独立事实以获得答案。

6. 避免幻觉的机制

为什么语言模型有时会「幻觉」(编造信息)?研究发现,在Claude中,拒绝回答是默认行为:存在一个默认激活的回路,使模型声明其信息不足以回答问题。但当被问及它熟悉的内容时,表示「已知实体」的特征会抑制这个默认回路,允许模型作答。研究者通过人为干预,能够使模型对虚构人物「Michael Batkin」产生一致的幻觉,称其是棋手。

7. 越狱机制揭秘

研究还探索了模型为什么会受到「越狱」(jailbreak)攻击的影响。分析表明,这部分是由语法连贯性和安全机制之间的张力造成的。一旦Claude开始一个句子,许多特征会「促使」它保持语法和语义连贯性,即使它检测到应该拒绝回答。只有在完成语法连贯的句子后,模型才能转向拒绝。

意义与展望

这项研究不仅具有科学意义,还代表着理解AI系统并确保其可靠性的重大进展。解释性研究是Anthropic投资组合中风险最高、回报最大的投资之一,面临着重大科学挑战,但有潜力提供确保AI透明性的独特工具。

尽管当前方法仍有局限性——即使对简短提示,也只能捕获Claude执行的总计算的一小部分——但这一新方向为未来研究铺平了道路。在AI系统变得越来越强大并部署在日益重要的环境中的今天,这种透明度至关重要,能让我们确认模型是否与人类价值观一致,以及它是否值得我们信任。

完整的研究细节可在Anthropic发布的两篇论文中找到,分别是《电路追踪:揭示语言模型中的计算图》和《大型语言模型的生物学》。


相關推薦

2024-09-30

公司也推出了与 OpenAI 产品相当的 AI 模型,其中两家——Anthropic 和 Elon Musk 的 xAI——都是由前 OpenAI 领导人创立的。 日益激烈的竞争令那些因 OpenAI 领先地位而加入的研究人员感到沮丧。 OpenAI 的女发言人拒绝回应本文中的大

2024-07-18

公司倾向于在开源系统上提供模型,它一直在与 OpenAI 和 Anthropic 等其他人工智能开发商展开激烈竞争。最近,该公司获得了 6.4 亿美元的 B 轮融资,估值接近 60 亿美元。该公司还获得了微软和 IBM 等科技巨头的投资。

2023-09-27

,支持以下功能: OpenAI 的 GPT-3.5 ,GPT-4 大语言模型 Anthropic 的 Claude instant ,Claude 2.0 大语言模型 国产模型:通义千问,文心一言,讯飞星火,商汤日日新,腾讯混元大语言模型 开源大模型:Llama2 ,ChatGLM2 ,AquilaChat 7B

2024-08-07

公司,跳槽到由前 OpenAI 研究人员成立的的竞争对手公司 Anthropic。 今年 5 月份,OpenAI 原安全主管、超级对齐(Superalignment)团队负责人 Jan Leike 宣布从 OpenAI 离职,并公开发文抨击了该公司的安全性问题;此后又加入了 Anthropic

2023-10-27

谷歌、微软、OpenAI 和 Anthropic 发布联合声明,任命美国智库学会高管 Chris Meserole 为前沿模型论坛 (Frontier Model Forum) 首任执行董事。并宣布设立 1000 万美元的 AI 安全基金,“以推动正在进行的工具开发研究,帮助社会能够有效地

2024-07-19

Anthropic 宣布与 Menlo Ventures 合作设立 1 亿美元的新基金“Anthology Fund”,以加速突破性 AI 应用的开发,旨在支持利用 Anthropic 技术进行广泛创新的初创公司。 其中,Menlo 负责出资 1 亿美元,Anthropic则负责提供技术支持。Anthropic

2025-04-02

温 25℃,实验人身高175CM,体重70KG) 速度:闪电般的思维过程 文本生成速度突破达 23333 token/s,眨个眼就好辣~ 既有思考又有结果,秒出秒看! 稳定:比磐石更可靠 独创永动机对话协议,基于 M/M/1 队列模型

2023-07-13

内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。 文章作者

2024-08-01

以检索增强生成 (RAG) 为重点的评估框架,对来自 OpenAI、Anthropic、Google 和 Meta 等品牌的 22 个(12 个开源 LLM 和 10 个专有 LLM)领先的生成式 AI 大语言模型性能进行了比较排名。 Hallucination Index 使用 Galileo 专有的评估指标“context

2023-11-09

室、牛津大学以及苏黎世联邦理工学院等知名研究机构的科学家们共同探讨了智能体社群的可能性。 他们提出,构建成由语言驱动的智能体社区,能够协同完成单一智能体无法或难以独立完成的任务。研究中提出了一系列实验

2023-06-14

高校等,共同探讨人工智能框架的发展趋势与技术成果、成功案例和最佳实践,旨在促进各方广泛合作与深度交流,推动大模型与科学智能的创新,加速AI技术创新和应用落地。 作为全球领先的人工智能框架,昇思MindSpore将在

2024-01-16

传统DevOps工具结合和集成。 无论您是开发者、数据科学家,还是热衷于这个领域的爱好者,您都可以参与其中: 贡献代码:浏览我们的GitHub仓库,提交您的代码或修复bug。 提供反馈:提交问题或建议,帮助我们改

2025-03-29

党委书记刘震表示,在传统中医师承模式下,名医的辨证思维、用药规律与临床心得依靠口传心授,隐性知识难以被系统记录和规模化传播。广安门医院基于广医·岐智大模型,沉淀萃取院内国医名师经验,未来将打造广医名师

2022-09-22

产业化和商业化的动态。 届时,来自全球的 AI 领域顶尖科学家、行业专家及著名企业家将齐聚一堂,重点关注 AI 技术领域的行业变革与技术创新,共同围绕核心技术、行业落地、产业赋能、发展要素、治理机制等热门话题进