Structural Inference: Interpreting Small Language Models with Susceptibilities

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“结构推断”（Structural Inference）**的新方法，用来解读小型语言模型（LLM）内部是如何工作的。

为了让你更容易理解，我们可以把这篇论文的核心思想想象成**“给大脑做核磁共振（MRI）”，但这次用的不是磁场，而是“改变饮食”**。

以下是用通俗语言和创意比喻对这篇论文的解读：

1. 核心概念：把 AI 当作一个“物理系统”

通常，我们看 AI 就像一个黑盒子：输入文字，输出文字，中间发生了什么不知道。
但这篇论文的作者把 AI 看作一个复杂的物理系统（就像一块磁铁或一团气体）。

比喻：想象 AI 是一个精密的交响乐团。每个乐手（神经网络的组件，比如“注意力头”）都在演奏。我们想知道，当指挥（数据分布）稍微改变一下曲目风格时，哪个乐手反应最剧烈？

2. 什么是“敏感度”（Susceptibility）？

这是论文的核心发明。在物理学中，“磁敏感度”是指一块磁铁在外部磁场变化时，磁化程度变化的快慢。
在这篇论文里，作者定义了一个类似的指标叫**“敏感度”**：

做法：他们给 AI 喂的数据稍微“加料”了。比如，原本 AI 主要读新闻，现在他们偷偷混入了一些GitHub 代码或者法律条文。
观察：看 AI 内部某个特定的“乐手”（比如第 1 层的第 6 个注意力头）对这种“加料”有什么反应。
结果：
- 如果某个乐手对“代码”特别兴奋（反应强烈），说明它专门负责处理代码逻辑。
- 如果某个乐手对“代码”感到厌恶（反应相反），说明它在努力抑制代码风格，或者在试图把内容拉回新闻风格。

3. “表达”与“抑制”：AI 内部的拉锯战

论文发现，AI 内部并不是所有部分都在“加油干”，有些部分在“踩刹车”。

负敏感度（表达 Expression）：就像乐手主动演奏了这段旋律。如果 AI 看到“代码”数据，某个头对代码的敏感度是负的，意味着它喜欢并促进这种模式。
正敏感度（抑制 Suppression）：就像乐手故意不演奏，甚至试图把旋律改回去。如果敏感度是正的，意味着这个头在反对这种模式。
- 比喻：想象你在写文章。你的“灵感缪斯”（负敏感度）在说：“写个代码吧！”而你的“编辑”（正敏感度）在说：“不，这太像代码了，我们要写得像散文！”AI 的输出就是这两股力量博弈后的结果。

4. 发现“内部结构”：像拼图一样重组

作者把这些“敏感度”数据收集起来，画成一张大表（响应矩阵），然后用数学方法（主成分分析 PCA）去分析这张表。

发现：他们成功地在 AI 内部找到了著名的**“归纳电路”（Induction Circuit）**。
- 什么是归纳电路？ 这是 AI 学会“举一反三”的关键机制。比如你输入"A, B, A, B..."，AI 能猜出下一个是"A"。
- 论文的贡献：以前我们是通过“切除”（Ablation）某个部件看 AI 会不会变笨来发现它的。但这篇论文不需要“动手术”，只需要观察它对不同数据的反应，就能像拼图一样，把负责“归纳”的部件自动分离出来，甚至还能区分出哪些部件在模仿，哪些部件在反模仿。

5. 为什么要做这个？（意义）

不用“开颅”：以前的方法像做手术，把 AI 的一部分关掉看它坏没坏。新方法像听诊，轻轻敲一下（改变数据），听听内部哪里在震动。
理解“小模型”：他们在一个只有 300 万参数的小模型上做了实验。这就像在一只蚂蚁身上发现了和人类大脑类似的复杂结构。
未来展望：如果这个方法有效，未来我们可能不需要把大模型拆得稀巴烂，就能通过“投喂不同口味数据”来诊断大模型到底学会了什么，哪里在“撒谎”，哪里在“抑制”错误。

总结

这篇论文就像发明了一种**“数据 X 光机”。
它不直接看 AI 的权重（那是乱码），而是通过改变 AI 吃的“食物”（数据），观察 AI 内部各个器官（注意力头）的消化反应（敏感度）。
通过这种反应，他们不仅看清了 AI 内部谁在负责什么（比如谁在学代码，谁在学法律），还发现了 AI 内部存在着精妙的“促进”与“抑制”**的平衡机制，就像交响乐团中有人负责独奏，有人负责和声，还有人负责纠正跑调。

一句话概括：
作者通过给 AI 喂“特制饲料”，观察它内部器官的“过敏反应”，从而在不破坏 AI 的情况下，绘制出了它内部的“功能地图”。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**结构推断（Structural Inference）**的新型可解释性框架，旨在通过统计物理和贝叶斯学习理论的视角来解析小型语言模型（SLMs）的内部结构。该论文已被 ICLR 2026 接收。

以下是对该论文的详细技术总结：

1. 研究问题 (Problem)

神经网络的微观组织机制（即其内部结构如何支持复杂行为）仍然知之甚少。现有的可解释性方法（如消融实验、直接逻辑效应分析）虽然有效，但往往缺乏统一的理论框架，或者难以量化模型组件对数据分布变化的敏感性。

核心挑战：如何建立一个 principled（有原则的）框架，将数据分布中的模式与模型内部的特定组件（如注意力头）联系起来，并量化它们之间的因果关系或响应关系？
背景：现有的“抑制（suppression）”和“表达（expression）”概念在机制可解释性中很重要，但缺乏基于统计物理的严格定义。

2. 方法论 (Methodology)

作者将神经网络视为一个贝叶斯统计力学系统，引入了**“敏感度（Susceptibilities）”**这一核心概念。

2.1 理论框架：敏感度 (Susceptibilities)

类比物理：借鉴统计物理中的磁敏感度概念。在物理中，敏感度衡量系统对外部磁场变化的响应；在神经网络中，敏感度衡量模型组件（如注意力头）对数据分布微小扰动的响应。
定义：
- 设 $q(x, y)$ 为真实数据分布， $q_h(x, y)$ 为受扰动后的分布（例如，混合了 GitHub 代码或法律文本的数据）。
- 定义一个可观测函数 $\phi(w)$ （通常与模型组件 $C$ 的损失相关）。
- 敏感度 $\chi$ 定义为：当数据分布发生微小变化（由参数 $h$ 控制）时，组件 $C$ 的期望行为（后验期望）的一阶线性变化率。
- 数学表达： $\chi = \frac{1}{n\beta} \frac{\partial}{\partial h} \langle \phi \rangle_{\beta, h} \big|_{h=0}$ 。
- 根据引理，敏感度可以计算为组件损失与数据分布变化引起的损失变化之间的协方差： $\chi = -\text{Cov}_\beta[\phi, \Delta L]$ 。

2.2 局部敏感度估计 (Local Susceptibility Estimation)

由于从全局后验分布采样计算量过大，作者提出了局部敏感度：

局部化：将先验分布限制在训练好的权重 $w^*$ 附近的高斯分布，使用**随机梯度朗之万动力学（SGLD）**进行采样。
计算流程：
1. 在原始数据分布 $q$ 和扰动分布 $q'$ 的混合分布下，使用 SGLD 生成权重样本。
2. 计算每个样本在扰动前后的损失差异 $\Delta L$ 。
3. 通过样本协方差估计敏感度。
逐 Token 敏感度：将敏感度细化到具体的 token 对 $(x, y)$ ，形成响应矩阵（Response Matrix）。

2.3 结构推断 (Structural Inference)

响应矩阵：构建一个矩阵 $X$ ，其中行代表不同的数据分布扰动（如不同的 Pile 子集），列代表不同的模型组件（注意力头）。
主成分分析 (PCA)：对响应矩阵进行 PCA 分解。
- 数据载荷 (Data Loadings)：揭示数据分布中的潜在模式（如“词尾”、“归纳模式”）。
- 组件载荷 (Component Loadings)：揭示模型组件如何响应这些模式，从而识别功能模块（如归纳电路）。
解释性：
- 负敏感度：表示组件**表达（Expression）**该模式（即该组件倾向于预测该模式）。
- 正敏感度：表示组件**抑制（Suppression）**该模式（即该组件倾向于阻止该模式的出现）。

3. 主要贡献 (Key Contributions)

理论创新：建立了基于贝叶斯学习理论和统计物理的敏感度理论框架，为理解模型组件对数据分布变化的响应提供了数学基础。
方法论提出：提出了“结构推断”方法，利用局部 SGLD 采样和响应矩阵分析，无需大规模消融实验即可发现内部结构。
概念定义：严格定义了“表达”与“抑制”的统计力学含义，并将其与损失景观的几何性质联系起来。
实证验证：在 300 万参数（3M）的 Transformer 模型上成功应用，自动分离并识别了已知功能电路。

4. 实验结果 (Results)

作者在 3M 参数的双层注意力-only Transformer 模型上进行了实验，训练数据为 The Pile 的子集。

发现功能模块：
- PC1（词分割）：所有注意力头在词尾（Word End）、归纳模式和右分隔符上表现出相似的响应，表明模型学会了基本的词分割。
- PC2（归纳电路）：成功分离出了归纳电路（Induction Circuit）。
  - 层 1 的归纳头（1:6, 1:7）对归纳模式表现出负敏感度（表达/促进）。
  - 层 1 的多词头（Multigram heads, 1:0-1:5）对归纳模式表现出正敏感度（抑制）。
  - 这一发现与之前的机制可解释性研究（如 Wang et al., 2024）高度一致，但无需先验知识。
- PC3（括号匹配）：识别出与预测括号匹配相关的头（Dyck heads），如 0:7, 1:3, 1:5。
鲁棒性：在多个随机种子（Seeds 2, 3, 4）的训练中，结构推断结果保持一致，证明了方法的稳定性。
与现有指标对比：敏感度与传统的消融实验（Ablation）或损失变化相关性极低，说明敏感度捕捉到了独特的、非冗余的模型内部信息。

5. 意义与影响 (Significance)

理论深度：将可解释性从经验性的“黑盒测试”提升到了基于统计力学和奇异学习理论（Singular Learning Theory）的数学高度。
可扩展性：虽然目前应用于小模型，但作者指出 SGLD 具有可扩展性，未来有望应用于更大模型（如 1.4B 参数模型已初步验证）。
新视角：提供了一种通过“外部场”（数据分布扰动）探测“内部结构”的新范式，能够自动发现模型如何平衡对数据的“表达”与“抑制”，这对于理解模型的泛化能力和对齐问题具有重要意义。
工具价值：提供了一种无需大量人工干预即可自动发现功能电路的工具，补充了现有的消融实验和稀疏自编码器等方法。

总结

这篇论文通过引入敏感度这一物理概念，成功地将数据分布的统计特性与神经网络的内部计算结构联系起来。通过结构推断，作者不仅验证了已知的归纳电路等机制，还展示了一种 principled 的、可扩展的方法来解构神经网络的微观组织，为理解大语言模型的内部工作原理开辟了新途径。