Perturbation: A simple and efficient adversarial tracer for representation learning in language models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“扰动”（Perturbation）**的新方法，用来探测语言模型（AI 大脑）里到底藏了什么样的“知识”和“思维模式”。

为了让你更容易理解，我们可以把语言模型想象成一个正在学习人类语言的超级学徒，而这篇论文就是给这个学徒设计的一套**“思想追踪实验”**。

1. 以前的难题：怎么看清 AI 的“脑回路”？

过去，科学家想看看 AI 脑子里是不是真的学会了“语法”或“词义”，通常有两种笨办法：

方法 A（强行透视）： 假设 AI 的脑回路是像直线一样简单的（线性）。这就像假设所有复杂的感情都能用“开心”和“难过”两个词概括。结果发现，有时候 AI 的脑子根本不是直线的，这方法就失效了。
方法 B（随便猜）： 如果不加限制，科学家可以强行把 AI 的任何反应解释成任何意思。这就像看着一堆乱码，非要说它是一首伟大的诗。结果就是，AI 明明没学会，你也能“看出”它学会了。

这就陷入了一个死循环：要么太死板（看不全），要么太随意（乱解释）。

2. 新招数：思想“病毒”追踪法（扰动法）

作者提出了一个简单又聪明的办法：“扰动”。

核心比喻：往汤里滴一滴墨水

想象你有一锅正在熬的大汤（语言模型），里面有很多不同的食材（代表不同的词义、语法结构）。

以前的做法： 拿勺子舀起来看看汤里有什么（分析激活值），或者问厨师这汤是什么味道（训练分类器）。
现在的做法（扰动）：
1. 滴墨水： 我们只往汤里滴入一滴特殊的“墨水”（一个精心设计的对抗性例子）。比如，我们强行教 AI 把“鸭子（duck）”这个词，在特定句子里改成“光鲜（glam）”。
2. 看扩散： 然后我们观察，这滴墨水会不会“传染”到汤里的其他部分？
  - 如果 AI 真的理解了“鸭子”代表“动物”这个概念，那么当我们把“鸭子”改成“光鲜”后，AI 在其他提到“动物鸭子”的句子里，也会莫名其妙地想把词改成“光鲜”。
  - 如果 AI 只是死记硬背了“鸭子”这个词的拼写，那这滴墨水就只会影响“鸭子”这个词本身，不会传染给其他句子。

简单来说： 我们不是去“看”AI 脑子里有什么，而是去“戳”它一下，看它的反应会不会像涟漪一样扩散到相关的概念上。如果扩散了，说明它脑子里真的把这两个东西联系在一起了。

3. 他们做了什么实验？

作者用这个方法测试了 AI 在三个不同层面的学习情况：

词形层面（像学单词的变形）：
- 测试： AI 能分清“老师（teacher，动词变名词）”和“更高（taller，形容词比较级）”吗？虽然它们都以"-er"结尾。
- 结果： 在没训练过的 AI 里，墨水乱窜，分不清；但在训练好的 AI 里，墨水只会在同类（都是名词变形或都是形容词变形）里扩散。说明 AI 真的学会了语法规则，而不是死记硬背。
词义层面（像学多义词）：
- 测试： 单词"Square"（广场/正方形/平方）有多种意思。AI 能分清吗？
- 结果： 当把“广场”的用法改错时，AI 只会影响其他“广场”的用法，不会影响“正方形”的用法。这证明 AI 脑子里真的把不同的意思分开了，而且分得很清楚。
句法层面（像学复杂的长难句）：
- 测试： 英语里有一种叫“填充 - 缺口”（Filler-Gap）的复杂结构（比如：I know who the man liked [gap]，意思是“我知道那个男人喜欢谁”）。
- 结果： 训练好的 AI 对这种结构的理解非常深刻。当你破坏一个句子的结构时，AI 的反应会精准地影响到其他具有相同结构的句子，而不会乱跑到无关的句子去。

4. 为什么这个方法很牛？

不预设前提： 它不假设 AI 的脑子是直线的还是曲线的，完全看实际反应。
不瞎编： 在没训练过的 AI 里，这个方法什么也发现不了（墨水不扩散）。这证明了它不会像以前的方法那样，把 AI 没学会的东西强行解释成学会了。
省钱省力： 以前需要成千上万的数据来测试，现在只需要一个精心设计的例子，微调一下，就能看出门道。

5. 总结

这篇论文告诉我们：语言模型（AI）不仅仅是死记硬背的统计机器。通过这种“滴墨水看扩散”的扰动法，我们证实了 AI 在训练过程中，真的像人类一样，从经验中自发地学会了复杂的语言规律（如语法、词义、句法结构）。

这就好比，你不需要把 AI 的脑子拆开来看，只需要轻轻推它一下，看它怎么“歪”，就能知道它心里真正装着什么。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：
在深度神经语言模型（LMs）中，如何发现和理解其内部的“表示”（Representations）仍然是一个未解决的难题。现有的方法面临一个两难困境（Dilemma）：

约束过强： 许多方法（如分布式对齐搜索 DAS）假设表示是线性编码的。这导致它们在未训练模型中也能发现虚假的结构（Spurious structure），即“过度表达”（Too expressive）。
约束过弱： 如果放松线性约束，根据 Sutter et al. (2025) 的证明，任何网络都可以被对齐到任何因果模型，导致无法区分真实的因果结构和先验假设，即“表达不足”（Not expressive enough）。

现有方法的局限性：

探针（Probing）： 主要是相关性分析，可能直接学习表示而非探测，且受限于分类器的解空间。
机制可解释性（Mechanistic Interpretability）： 如 DAS 等方法，虽然试图基于因果效应，但往往需要监督信号，容易将研究者的假设“具体化”（Reify assumptions），且计算成本高。

研究目标：
提出一种新的方法，跳出上述两难困境，能够区分训练过和未训练的模型，揭示语言模型是否真的从经验中习得了语言学抽象（如形态、词汇、句法），而不依赖于几何假设（如线性）。

2. 方法论 (Methodology)

作者提出了一种名为 Perturbation（扰动） 的方法。其核心思想是将“表示”重新概念化为学习的通道（Conduits for learning）：如果一个模型真正掌握了某种抽象表示，那么对该表示的微小扰动（Corruption）应该能够选择性地泛化到其他包含相同抽象的样本上。

2.1 核心流程

重映射（Remapping）定义：
- 定义一个重映射为四元组 $\langle C_o, R_o, C_a, R_a \rangle$ ，其中 $C$ 是上下文， $R$ 是关键区域（Critical Region）。
- 例如：将句子 "A duck quacks" 中的 "duck" 重映射为 "glam"（即 $R_o$ : duck, $R_a$ : glam），保持上下文 $C$ 不变。
扰动（Perturbation）：
- 在单个对抗样本（Adversarial Example）上对语言模型进行微调（Fine-tuning）。
- 目标函数： 最小化 $L(M, p) = -\log [p(R_a|C_a) / p(R_o|C_o)]$ 。
- 简单来说，就是强迫模型在特定上下文 $C_o$ 中输出错误的词 $R_a$ 而不是正确的词 $R_o$ 。
评估（Evaluation）：
- 测量这种“污染”如何传播到其他样本。
- 计算**对数几率比（Log Odds Ratio）**的变化：
  $R(M, p, \tilde{p}) = \log \left[ \frac{\tilde{p}(R_a|C_a)}{p(R_a|C_a)} \cdot \frac{p(R_o|C_o)}{\tilde{p}(R_o|C_o)} \right]$
- 如果模型在另一个样本（例如 "The duck led her ducklings"）中也倾向于输出 "glam" 而不是 "duck"，则说明存在表示层面的转移（Representational Transfer）。

2.2 实验设计

作者在三个不同粒度的语言学基准上进行了测试：

形态学（Morphology）： 使用 BATS 数据集，区分后缀 "-er" 的两种用法（动词派生名词 vs. 比较级）。
词汇（Lexical）： 使用 CoarseWSD-20 数据集，测试词义消歧（Word Sense Disambiguation），区分同一单词的不同含义（如 "square" 的几何形状 vs. 广场）。
句法（Syntax）： 使用 Boguraev et al. (2025) 的填充 - 间隙（Filler-Gap, FG）构式数据集，测试不同句法结构（如疑问句、关系从句）之间的共享表示。

3. 关键贡献 (Key Contributions)

跳出两难困境： Perturbation 方法不依赖几何假设（如线性），也不依赖监督信号。它通过观察“学习通道”的泛化行为来探测表示，避免了 DAS 等方法在未训练模型中产生虚假结构的问题。
数据驱动与高效：
- 仅需单个无标签训练样本即可进行干预。
- 计算成本极低（相比 DAS 需要大量数据和多轮训练，Perturbation 仅需几个梯度步）。
- 无需额外的探针分类器。
因果性验证： 证明了语言模型中的表示不仅仅是统计相关性，而是具有因果影响力的实体。扰动导致的转移直接反映了模型内部表示的因果结构。
选择性（Selectivity）： 实验表明，Perturbation 在未训练模型中几乎检测不到有意义的结构（转移主要由共享 Token 驱动），而在训练后模型中能检测到丰富的语言学结构。这证明了该方法能有效区分真实表示和噪声。

4. 主要结果 (Results)

4.1 形态学表示 (Morphological Representations)

发现： 在 RoBERTa 等训练模型中，对 "-er" 后缀的扰动（如将 "taller" 改为 "tall"）会显著影响同一类别（如所有比较级）的其他词，但不会影响另一类别（如所有派生名词）。
对比： 未训练模型仅表现出基于共享 Token 的微弱转移，没有类别特异性。
结论： 模型在训练过程中涌现出了清晰的“动词派生”与“比较级”的区分。

4.2 词汇表示 (Lexical Representations)

发现： 对多义词（如 "square"）的特定含义进行扰动，会显著影响该含义在其他上下文中的概率。
对比： 与传统的余弦相似度（Cosine Similarity）相比，Perturbation 的聚类能力（Clusterability AUC）更高（例如 ModernBERT-large 上 AUC 为 0.87 vs 0.76）。
结论： 词义表示在模型中具有因果影响力，且这种影响力比单纯的向量空间相似度所显示的更强。

4.3 句法表示 (Syntactic Representations)

发现： 在填充 - 间隙（FG）任务中，随着训练步数的增加，模型开始区分 FG 构式与非 FG 构式。
- 训练早期（<512 步）：转移主要由表面词汇重叠（CRS）驱动。
- 训练后期（>2000 步）：FG 扰动显著地转移到其他 FG 构式，而极少转移到非 FG 控制组。
对比： 即使在没有监督信号的情况下，模型也自发地学习到了不同 FG 构式（如疑问句、分裂句）之间的共享句法表示。
结论： 语言模型能够从分布证据中涌现出复杂的句法抽象。

5. 意义与影响 (Significance)

理论意义：
- 支持了基于使用的语言习得理论（Usage-based theories），即语言模型仅凭分布统计证据就能习得丰富的形态、词汇和句法结构，无需先天语法约束。
- 为“表示是学习的通道”这一认知科学观点提供了计算神经网络的实证支持。
方法论意义：
- 提供了一种简单、廉价且可扩展的可解释性工具，特别适合资源受限的研究或小型数据集。
- 解决了当前可解释性领域“过度表达”与“表达不足”的矛盾，提供了一种更稳健的因果探测手段。
局限性：
- 结果的可解释性依赖于研究者对“重映射”（Remapping）的设计。
- 目前对多 Token 单词的处理（Tokenization 效应）仍有影响。
- 主要关注英语，且目前难以在自回归模型（Autoregressive models）中处理双向上下文。

总结：
这篇论文提出了一种名为 Perturbation 的简单而强大的方法，通过微调单个对抗样本并追踪其“感染”效应，成功揭示了语言模型中涌现的因果表示结构。该方法不仅避免了现有技术的理论陷阱，还以极高的效率证明了语言模型能够从经验中独立习得复杂的语言学抽象，为理解黑盒模型和语言习得机制提供了新的视角。