原作者： Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

发布于 2026-06-03✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

将大型语言模型（LLM）想象成一座巨大且极其复杂的图书馆。在这座图书馆内部，信息并不是以你可以阅读的书籍形式存储的；而是以一种巨大的、无形的电信号网络（激活值）的形式存在，当模型“思考”时，这些信号就会闪烁。

长期以来，研究人员一直试图窥探幕后，看看这些信号究竟意味着什么。他们构建了各种工具来将这些信号映射到概念上（例如“数学”或“礼貌”），但这些工具非常脆弱。如果哪怕只是稍微拨动一下旋钮，模型可能会开始说一些听起来像是在解释、但实际上与它所想的内容毫无关联的流畅废话。

这篇论文介绍了一种修复这一问题的新方法。以下是核心思想的拆解，使用了简单的类比：

1. 问题所在：“翻译器”坏了

想象模型的内部信号是一种秘密代码。以前，研究人员尝试通过直接把代码塞进模型的嘴里，然后问它：“这意味着什么？”来翻译这段代码。

问题在于： 有时模型能理解，但经常会感到困惑。它可能会说：“这个信号意味着‘一小堆泥土’"而实际上它指的是“一个计算机函数”。这就像是通过猜测单词来翻译外语：你掌握了语法，但意思却错了。

2. 解决方案：训练一个“轻量级适配器”

与其尝试重新训练整个庞大的图书馆（这既昂贵又会改变图书馆的运作方式），作者训练了一个微小的、专门的适配器（Adapter）。

类比： 把适配器想象成一个专门的翻译员或一副眼镜。
- 巨大的图书馆（模型）保持原样，它没有学习任何新知识。
- 适配器是一个微小的附加组件（就像一个透镜），位于模型的眼睛前方。
- 作者利用“可解释性人工制品（Interpretability Artifacts）”训练了这个透镜。这些人工制品就像是研究人员已经制作好的闪卡：一面是信号向量，另一面是标签（例如：“这个信号 = ‘棒球’”）。
- 适配器学习如何调整信号，以便模型最终能够“看见”它在想什么，并能正确地描述出来。

3. 魔法成分：“偏置（Bias）”（默认设置）

最令人惊讶的发现是，适配器并不需要超级计算机。一个非常简单的版本效果反而最好。

类比： 想象适配器有两个部分：
1. 信号： 模型当前正在思考的具体事物（例如：“柏拉图”）。
2. 偏置（Bias）： 一个“默认设置”或适配器学到的写作风格。
关键区别： 这里的“偏置”并不是指提示词（Prompt）中固定的格式（比如“这个信号的意思是……"），因为那是研究人员直接输入给模型的，是固定的。偏置实际上决定了模型自己生成的解释内容的风格和语气。
有趣的证据： 研究人员做了一个实验，他们训练适配器时使用的标签全是大写字母（例如"BASEBALL"）。结果，模型生成的解释也全部变成了大写字母！
- 注意：提示词中固定的部分（如“这个信号的意思是”）并没有变成大写，因为那是输入给模型的。
- 只有模型自己写出来的部分变成了大写。这证明了“偏置”向量完全掌握了这种风格信息。它教会了模型以某种特定的风格（比如“充满支持性或安慰性的语气”）来撰写解释，而具体的信号只是用来填充主题内容。

4. 他们的发现

优于原始标签： 适配器不仅仅是复制了训练用的闪卡；它们实际上比原始标签所描述的内容更擅长描述这些信号。这就像一个学生通过阅读教科书学习，然后写出了比教科书作者更好的总结。
揭示隐藏的思想： 模型有时可以在不说出步骤的情况下解决谜题（例如，在关于柏拉图的谜语中回答“雅典”，而未提及柏拉图）。经过训练的适配器可以“读取模型的思想”，并揭示出那个隐藏的“柏拉图”想法，即使模型从未说出口。
模型越大 = 翻译器越强： 随着模型规模变大（从 70 亿到 720 亿参数），适配器的表现也变得越来越好。模型不仅变得更聪明于回答问题，而且更擅长解释它是如何思考的。

5. 为什么这很重要（根据论文观点）

该论文认为，我们不需要改变模型本身来理解它。通过仅仅添加这个基于现有数据训练的微小、固定的“翻译器”，我们就可以获得一个可靠的窗口，观察模型的内部状态。

自我解释的潜力： 这个“翻译器”实际上就是模型本身的一个微小变体，它没有被替换成另一个不同的模型。
- 关键优势： 正如作者所说：“至关重要的是，这个附加组件将这些模式反馈回同一个模型中，因此模型是在解释它自己。”
- 这意味着模型的内部运作机制与它正在解释的思想完全兼容。这开启了未来 AI 的大门，使其能够从内部审视自己的思维：模型可以检查对自己思想的解释，然后检查自己关于“那个解释”的想法，如此循环往复，而无需引入一系列不断增长的、不同的解释器模型。

简而言之： 论文表明，如果你给语言模型一个基于其大脑现有地图训练出的微小、“固定”的“翻译器”，它就能可靠地告诉你它在想什么，即使是对于复杂或隐藏的思想，而无需对其进行重新训练或修改。更重要的是，因为模型是在解释它自己，这为 AI 进行深度的自我反思铺平了道路。

技术摘要：从可解释性人工制品中学习自我解释

1. 问题陈述

大语言模型（LLMs）通过高维隐藏激活进行运作，然而理解这些内部状态的语义内容仍然是可解释性领域的一个核心挑战。虽然机械可解释性已经产生了结构化知识（例如稀疏自编码器（SAE）特征和对比激活向量），但模型无法可靠地报告其自身的内部状态。

现有的自我解释方法（例如使用激活补丁的方法，如 SelfIE、Patchscopes）试图将内部表示注入提示词中以生成自然语言解释。然而，这些方法非常脆弱：

超参数敏感性： 注入向量的尺度发生微小变化，就会产生流畅但语义脱节的解释。
脆弱性： 大多数向量在注入尺度上具有极窄的有效范围；超出这些范围后，模型会生成看似自信实则错误的描述。
微调的局限性： 最近的一些方法通过微调模型来使其能够回答关于激活的问题，但这改变了模型的权重。理想情况下，解释器应当与受试模型保持一致。

2. 方法论

作者提出训练一个轻量级适配器（adapter），利用现有的可解释性人工制品将内部激活映射为语言，同时保持基础语言模型（LM）完全冻结。

2.1. 训练框架

输入： 该方法使用“可解释性人工制品”作为监督数据，即向量-标签对 $(h, y)$ $(h, y)$ 。
- 来源 1： 与自动解释标签配对的 SAE 解码器向量。
- 来源 2： 与合成主题描述配对的对比激活向量（源自诸如“告诉我关于 [主题] 的信息”之类的提示词）。
过程：
1. 从源提示词（例如 LM 的特定层）中提取激活向量 $h$ 。
2. 轻量级适配器函数 $f(h)$ 对该向量进行变换。
3. 将变换后的向量注入到“目标提示词”（寻求解释的模板）的 Token 嵌入层（第 0 层）。
4. 冻结的 LM 自回归地生成描述。
5. 目标： 最小化生成 Token 与地面真值标签 $y$ 之间的交叉熵损失。仅更新适配器参数；LM 保持冻结。

2.2. 适配器架构

论文评估了具有不同表达能力的适配器：

恒等映射 (Identity)： $f(h) = h$ （0 个参数）
仅缩放 (Scale-only)： $f(h) = \alpha \cdot h$ （1 个参数）
标量仿射 (Scalar Affine)： $f(h) = \alpha \cdot h + b$ （ $d_{model} + 1$ 个参数）
标量仿射 + 低秩 (Scalar Affine + Low-Rank)： 添加低秩项 $UV^T h$
全秩仿射 (Full-Rank Affine)： $f(h) = Wh + b $（$ d_{model}^2 + d_{model}$ 个参数）

2.3. 推理

在推理阶段，训练好的适配器将未见的激活向量映射到 Token 嵌入空间。为了解决尺度敏感性问题，系统会评估多种注入尺度（基于对数网格），并选择表现最佳的候选生成结果。

3. 核心贡献与结果

3.1. 训练适配器的优越性

训练轻量级适配器的表现显著优于未经训练的基线（SelfIE）以及原始训练标签本身。

SAE 特征标注： 在 Llama-3.3-70B 上，训练后的适配器实现了 70% 的生成评分命中率，优于原始训练标签（50%）和未经训练的 SelfIE（48%）。
主题识别： 在对比激活向量上，召回率 @1 从 ~1%（未经训练）提升至 >90%（经过训练）。
隐式推理： 该方法成功解码了多跳推理任务中的“桥接实体”（例如，在关于《理想国》作者的查询中识别出“柏拉图”，而无需模型口头表达中间步骤）。训练后的适配器在 91% 的案例中检测到了桥接实体，而未经训练的基线仅为 56%。

3.2. 偏置向量的关键作用

一个令人惊讶的发现是，仅包含 $d_{model} + 1$ 个参数的标量仿射适配器就足以获得大部分收益。

学习到的偏置向量 ( $b$ ) 本身就贡献了优于未经训练基线约 85% 的改进。
偏置充当了“解释先验”，引导模型走向有效的描述格式和通用的内容模式，而缩放后的输入向量则提供特定实例的语义。
泛化性： 比起更具表达能力的替代方案，更简单的适配器（标量仿射）在不同数据集和层之间具有更好的泛化能力。

3.3. 架构与表示几何的关系

适配器架构的性能高度依赖于训练数据的内在维度：

对比向量（低维度）： 维基百科主题向量将 >90% 的方差集中在约 200 个维度中。在这种情况下，全秩适配器表现出色且不会过拟合。
SAE 特征（高维度）： SAE 特征几乎占据了整个激活空间。在这种情况下，全秩适配器会发生灾难性过拟合，学习到一个高维查找表。必须使用标量仿射或“标量仿射 + 低秩”适配器来防止过拟合并确保泛化。

3.4. 规模化行为

论文证明，自我解释能力的提升随模型规模的增大而增强，且独立于通用能力的提升。

使用“禁忌词”（Taboo）基线（即模型描述某个主题但不提及名称）作为知识上限，模型知识与其报告该知识的能力之间的差距随着模型规模的增大而缩小（从 7B 到 72B 参数）。
训练后的 SelfIE 性能增长速度快于模型描述主题的原始能力，这表明更大的模型拥有更易于被适配器解锁的内部语义结构。

3.5. 跨数据集与跨模型泛化

在一个数据集（如维基百科主题）上训练的适配器可以泛化到其他数据集（如 SAE 特征），尽管当训练与推理数据分布匹配时性能最高。
该方法可以跨模型家族（Llama, Gemma, Qwen）运行，如果使用对比向量，则不需要针对特定模型的 SAE。

4. 意义与主张

该论文声称，可靠的自我解释可以通过轻量级变换实现，而无需修改底层模型。

重新定义人工制品： 核心洞察在于，传统上被视为分析终点的可解释性人工制品（带标签的向量），可以被重新利用为训练数据。这使得自我解释系统可以随着可解释性研究的进展而自动改进。
保留特权访问权： 通过保持基础模型冻结，该方法保留了解释器对受试模型内部状态的“特权访问”，避免了由微调引入的人为偏差。
可验证性： 该方法实现了“来自内部奖励的强化学习（RL from internal rewards）”，其中模型对其内部状态的陈述可以根据行为（例如通过生成评分）进行验证，为提供可验证证据的模型提供了一条路径。
高效性： 训练这些适配器的计算成本很低（例如在 70B 规模下约为 ~10 GPU 小时），这使其成为审计前沿模型的可扩展解决方案。

作者得出结论，虽然自我解释只能提供部分可见性，但它提供了一个至关重要的机制，用于检测模型是否编码了与其表达输出不同的概念或意图，从而为 AI 安全和对齐审计做出贡献。

Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs