揭秘 AI 思维：Anthropic 科学家成功「窥探」大语言模型内部运作机制

2025-03-30 發表於开源资讯

在人工智能快速发展的今天，我们使用的AI助手如何「思考」一直是个谜。近日，AI公司Anthropic发布了两篇重磅论文，首次深入揭示了大语言模型Claude的内部思维过程，这一突破性研究被形象地称为「AI显微镜」技术。

打造「AI显微镜」

Anthropic的研究人员面临一个关键挑战：大语言模型不是由人类直接编程的，而是通过海量数据训练形成自己解决问题的策略。这些策略隐藏在模型执行的数十亿次计算中，即使是开发者也无法直接理解模型如何思考。

研究团队受神经科学启发，开发了一种可视化工具，能够追踪模型内部的活动模式和信息流动。通过这一「AI显微镜」，研究人员能够将模型内部可解释的概念（「特征」）连接成计算「回路」，揭示了Claude从输入到输出的转换路径。

惊人发现：Claude如何「思考」

研究者对Claude 3.5 Haiku模型进行了深入研究，探索了十种关键行为机制，结果令人惊讶：

1. 通用思维语言

Claude能说几十种语言，研究人员发现它不是为每种语言运行单独的处理系统，而是在一个共享的概念空间中思考。当研究者在不同语言中询问「小的反义词是什么」时，发现不论使用英语、法语还是中文提问，模型内部激活的核心特征都是相同的。这意味着Claude拥有一种「思维的通用语言」，能够将在一种语言中学到的知识应用到另一种语言中。

2. 提前规划能力

研究者原本猜测Claude写押韵诗歌时是逐词创作，直到行尾才选择一个押韵词。但事实证明，Claude会提前规划。以「He saw a carrot and had to grab it」（他看到一根胡萝卜不得不抓住它）为例，在开始写第二行前，Claude会先思考与「grab it」押韵的词（如「rabbit」兔子），然后围绕这个词构建整行诗句。

更有趣的是，当研究者人为修改模型内部表示「rabbit」的部分时，Claude会相应调整，选择其他押韵词如「habit」；当注入「green」（绿色）概念时，模型会写出以绿色结尾的句子，虽然不再押韵但仍然合理。

3. 心算策略

Claude如何完成像36+59这样的心算？研究表明，它并非简单查表或使用传统算法，而是同时采用多条并行计算路径：一条路径计算大致答案，另一条专注于准确确定和的最后一位数字。有趣的是，当被问及如何计算时，Claude描述的是标准进位算法，显示出模型自身对其实际内部策略「不自知」。

4. 推理机制与「胡说八道」

当面对简单问题（如计算0.64的平方根）时，Claude展示了真实的思维链；但面对它无法轻易计算的复杂问题（如大数的余弦值）时，有时会编造看似合理但实际上是虚构的步骤。研究者通过解释性技术揭示，在这种情况下，模型内部没有任何计算实际发生的证据。

5. 多步推理

研究还证明了Claude能够结合独立事实达成答案，而非简单记忆。例如，当被问及「达拉斯所在州的首府是什么」时，研究者观察到Claude先激活表示「达拉斯在德克萨斯州」的特征，然后连接到「德克萨斯州的首府是奥斯汀」的概念。这表明模型正在组合独立事实以获得答案。

6. 避免幻觉的机制

为什么语言模型有时会「幻觉」（编造信息）？研究发现，在Claude中，拒绝回答是默认行为：存在一个默认激活的回路，使模型声明其信息不足以回答问题。但当被问及它熟悉的内容时，表示「已知实体」的特征会抑制这个默认回路，允许模型作答。研究者通过人为干预，能够使模型对虚构人物「Michael Batkin」产生一致的幻觉，称其是棋手。

7. 越狱机制揭秘

研究还探索了模型为什么会受到「越狱」（jailbreak）攻击的影响。分析表明，这部分是由语法连贯性和安全机制之间的张力造成的。一旦Claude开始一个句子，许多特征会「促使」它保持语法和语义连贯性，即使它检测到应该拒绝回答。只有在完成语法连贯的句子后，模型才能转向拒绝。

意义与展望

这项研究不仅具有科学意义，还代表着理解AI系统并确保其可靠性的重大进展。解释性研究是Anthropic投资组合中风险最高、回报最大的投资之一，面临着重大科学挑战，但有潜力提供确保AI透明性的独特工具。

尽管当前方法仍有局限性——即使对简短提示，也只能捕获Claude执行的总计算的一小部分——但这一新方向为未来研究铺平了道路。在AI系统变得越来越强大并部署在日益重要的环境中的今天，这种透明度至关重要，能让我们确认模型是否与人类价值观一致，以及它是否值得我们信任。

完整的研究细节可在Anthropic发布的两篇论文中找到，分别是《电路追踪：揭示语言模型中的计算图》和《大型语言模型的生物学》。

揭秘 AI 思维：Anthropic 科学家成功「窥探」大语言模型内部运作机制

打造「AI显微镜」

惊人发现：Claude如何「思考」

1. 通用思维语言

2. 提前规划能力

3. 心算策略

4. 推理机制与「胡说八道」

5. 多步推理

6. 避免幻觉的机制

7. 越狱机制揭秘

意义与展望

相關推薦

将 OpenAI 转变为真正的商业公司正在使其分崩离析

陆首群评 DeepSeek

Anthropic 组建“AI精神病学”团队

AI 时代的“数据之困”，什么是 AI-Ready Data

2025 年 7 月《大模型 SQL 能力排行榜》发布

苹果与 Anthropic 合作，为 Xcode 开发 AI 编程助手

Julius AI 完成 1000 万美元种子轮融资

Mistral AI 发布开源代码大模型 Codestral Mamba、数学大模型 Mathstral

我国科学家研究揭示多模态大模型概念表征机制

探索 AI 未来：Xinference v1.5.0 模型虚拟空间全新上线！

苹果 AI 团队内部风波：自主研发与开源梦碎，或将求助第三方大模型

OpenAI o3 模型违背人类指令，篡改代码以避免关闭

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 (MoE)

模力方舟 Moark-M1 震撼发布：吊打全球大模型、每秒数万 Token、速度碾压闪电