Each language version is independently generated for its own context, not a direct translation.

想象你有一座藏书丰富的图书馆（即一个大语言模型），其中 memorized 了一本特定的秘密故事。你要求图书管理员“遗忘”这个故事，意味着他们绝不能再向任何人讲述它。

目前大多数“遗忘”方法就像这样告诉图书管理员：“如果有人问起这个故事，就只说‘我不知道’，或者编造一个不同的结局。”图书管理员照做了，不再讲述这个故事。但论文指出，这个故事仍然写在图书管理员的大脑里；他们只是学会了隐藏它。如果你提出足够巧妙的问题，图书管理员可能会无意中暴露他们仍然知道这个故事。

本文提出了一种方法，用于判断这个故事是否真正从图书管理员的大脑中消失，并介绍了一种新方法，能够真正擦除它，同时不让图书管理员忘记如何履行其职责。

问题：机器中的“幽灵”

作者发现，即使模型不再讲述一个被 memorized 的秘密，它在内部仍然知道它。他们将这种现象称为“跨序列签名”。

类比：
想象图书管理员的大脑中有一个隐藏的“是/否”开关，每当他们想到这个秘密故事时，这个开关就会亮起。

旧式遗忘： 你训练图书管理员闭嘴。他们不再讲述这个故事。
现实情况： 当你询问关于这个故事的问题时，隐藏的“是/否”开关仍然明亮地亮起。知识依然存在，只是被压制了。

作者构建了一种特殊测试（称为“探针”），用于检查这个开关是否会亮起。他们发现，这种记忆的“幽灵”存在于各种规模的模型中，从微小的玩具模型到像 Mistral-7B 这样的大型模型。

发现：记忆与表达是分离的

本文最重要的发现之一是，记忆和表达发生在大脑的不同区域。

类比：
将模型想象成一个广播电台。

存储： 秘密存储在“录音室”（模型的深层）中。
广播： “直播”开关（注意力头）决定是否播放录音。

作者表明，你可以破坏“直播”开关，使秘密永远不会被广播（模型不再讲述它）。然而，录音室中的录音依然清晰完整。你甚至可以指着录音说：“那就是秘密！”尽管收音机是静音的。

解决方案：“探针 - 几何对齐”（PGA）

由于旧方法仅破坏了“直播”开关，作者发明了一种新的手术工具，称为探针 - 几何对齐（PGA）。

类比：
PGA 不再仅仅破坏麦克风，而是进入录音室并对齐声波。

定位信号： 首先，他们使用特殊测试，在大脑中精确定位秘密隐藏的方向。
精准手术： 随后，他们在模型的每一层进行微小而精确的调整。他们并非删除整个大脑，只是轻轻推动秘密所在的特定“方向”，使其不再看起来像秘密。这就像将一张清晰的高清照片中仅秘密所在的区域变成静态噪声，而照片的其他部分（模型的一般知识）依然保持清晰锐利。

结果：

幽灵消失： 使用 PGA 后，特殊测试不再亮起。事实上，该测试的表现甚至差于随机猜测，这意味着模型真正忘记了秘密的内部结构。
无副作用： 关键的是，这次手术并未让图书管理员忘记其他任何技能。他们回答一般问题、撰写故事或解决逻辑谜题的能力完全保持不变。

用通俗语言总结的关键要点

沉默不等于遗忘： 仅仅因为模型不再讲述秘密，并不意味着它已经忘记了。记忆仍然隐藏在内部。
我们可以发现藏身之处： 作者创造了一种方法，能够在不同规模的模型中检测这些隐藏的记忆。
我们可以擦除它们： 他们开发了一种方法（PGA），可以手术式地移除这些隐藏的记忆。
这是安全的： 这种擦除极其精准，不会损害模型的一般智能。这就像从一件白衬衫上去除特定污渍，而不会使衬衫缩水或改变其颜色。

论文结论指出，要从人工智能中真正“遗忘”某事，必须擦除其内部表征，而不仅仅是让输出沉默。他们的新方法 PGA 正是做到了这一点。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：用于擦除记忆签名的探针几何对齐

1. 问题陈述

当前针对大语言模型（LLM）的机器遗忘框架存在一个关键的测量缺口：它们评估的是行为遗忘（模型是否停止生成目标内容），但未能评估表征遗忘（模型是否停止在内部编码该内容）。近期研究表明，行为抑制往往会在内部留下可被对抗性探针恢复的痕迹。本文认为，仅抑制生成不足以保障隐私或安全，因为底层的记忆签名可能仍残留在模型的残差流中，从而可能被对手利用。

核心挑战是双重的：

检测：现有的探针往往无法区分真正的跨序列记忆签名与表面的字符串级伪影或模型级偏移。
擦除：成功抑制行为回忆的外科手术式干预（例如头级遗忘）往往无法擦除底层的表征签名，该签名仍然线性可分且可被检测。

2. 方法论

2.1 跨序列留一法（LOO）探针

为了严格检测记忆，作者引入了一种跨序列留一法（LOO）探针协议。与可能过拟合特定 token 身份的单序列探针不同，该协议测试记忆的可泛化签名：

过程：在从一组序列中留出一个记忆序列的情况下，基于（记忆激活对与对照激活对）训练线性探针。随后，该探针在留出的序列上进行测试。
意义：如果探针将留出的序列分类为已记忆，则它学习的是记忆过程本身的特征，而不仅仅是特定的训练样本。
对照：该协议包含一个“纯可区分性”基线（在具有匹配词汇结构的非记忆序列上训练）和一个“标签打乱”的零假设，以隔离特定于记忆的差距。

2.2 因果可分离性分析

本文调查了探针识别的方向是否在因果上负责回忆。通过在 Pythia-70M 上使用因果追踪和前向钩子，作者将拟合的探针方向从残差流中投影出去。

发现：这种干预使局部记忆签名崩溃（差距从 +0.44 降至 -0.19），同时基本保持行为回忆（秘密的对数概率）和通用能力。这证明了探针可读的签名与产生回忆的机制占据因果上可分离的方向。

2.3 探针几何对齐（PGA）

为了解决现有遗忘方法（抑制输出但保留表征）的失败，作者提出了探针几何对齐（PGA）。

机制：PGA 是一种外科手术式擦除技术，它在每一层深度专门沿探针的实时读出方向对齐激活。
目标：它最小化记忆激活与干净激活之差在每一层深度 $d$ 的探针权重向量（ $\hat{w}_d$ ）上的标量投影，同时在干净数据上保留交叉熵以维持能力。
约束：与作用于完整 $d_{model}$ 维度的各向同性对齐方法（如 AAE）不同，PGA 作用于每一层的单个标量（沿探针读出方向的投影）。
对抗扩展：为了击败在 PGA 处理后的激活上重新拟合探针的攻击者，作者引入了对抗性 PGA，该方法通过迭代地将新拟合探针的正交分量添加到投影基中以增强其鲁棒性。

3. 主要贡献

跨序列 LOO 协议：一种经过验证的方法，用于检测在留出序列上泛化的真实记忆签名，将其与模型级偏移或表征漂移区分开来。
因果可分离性：实证证据表明，探针可读的线性方向与行为回忆所需的方向是不同的。将探针方向投影出去会消除签名，而不会显著影响回忆。
不同的记忆机制：证明了自然预训练的记忆与微调注入的秘密留下了表征上不同的痕迹。在自然记忆上训练的探针无法将注入的秘密分类为已记忆。
探针几何对齐（PGA）：一种建设性的外科手术式擦除方法，在四个模型规模（从 0.8M 玩具模型到 7.24B Mistral-7B）上将跨序列探针准确率驱动至低于随机水平，同时保持零样本能力。

4. 主要结果

4.1 签名的存在性

跨序列记忆签名是真实的，并且在不同规模上具有一致性：

Pythia-70M：特定于记忆的差距为 +0.32（在第 6 层达到峰值 +0.54）。
GPT-2 Medium：差距为 +0.19（在第 21 层达到峰值 +0.45）。
Mistral-7B：差距为 +0.30（在第 11 层达到峰值 +0.47）。
聚类特异性：该签名在正式语体的英语和许可证文本中很强，但在代码和伪拉丁语中接近零。

4.2 标准遗忘的失败

标准遗忘方法（梯度上升、NPO、RMU、MEMIT 以及作者自己的 MLDU）成功抑制了行为回忆（例如 $P(secret) < 10^{-4}$ ），但未能使探针崩溃。在玩具模型和大规模模型中，这些方法使线性探针准确率保持在天花板（1.000）或接近天花板，证实行为抑制并不等同于表征擦除。

4.3 PGA 的成功

PGA 成功地将签名在所有测试规模上崩溃至随机水平以下（ $<0.50$ ）：

玩具模型（0.8M）：探针在第 4 层降至 0.17。
Pythia-70M：探针在第 6 层降至 0.11 ± 0.04。
Mistral-7B：探针在中层降至 0.42。
GPT-2 Medium：使用 MD-PGA（特征基变体），探针在第 21 层降至 0.061。
鲁棒性：这种崩溃在六种对抗性探针变体（不同的种子、正则化和 MLP）下依然成立。对抗性 PGA 在所有与记忆相关的深度上击败了重新拟合的攻击者探针。

4.4 能力保持

PGA 以可忽略的退化保持了模型能力：

在五个零样本基准（HellaSwag, PIQA, BoolQ, ARC-Easy, WinoGrande）中，平均 $\Delta$ 准确率变化为 +0.2pp。
最大单任务回归为 2.9pp（对抗变体在 BoolQ 上）。
困惑度（PPL）保持稳定（例如，玩具模型上从 1.40 变为 1.42）。

5. 意义与主张

本文主张，抑制模型所说的内容并不等同于擦除它所表征的内容。跨序列签名是预训练表征中真实的、因果可分离的、特定于机制的属性。

可审计性：跨序列探针使得事后遗忘的表征验证成为可能，允许第三方审计模型是真正遗忘还是仅仅抑制了输出。
建设性擦除：PGA 提供了一种具体的方法，可以外科手术式地（每层一个标量）移除这些签名，而无需从头重新训练或牺牲通用能力。
机制洞察：这项工作暗示了 Transformer 中记忆的分解，其中信息被编码在残差流中（存储），并通过注意力头路由到输出（表达）。仅破坏路由的遗忘方法无法擦除存储。

作者将这项工作定位为并非所有遗忘场景的封闭解决方案，而是后验遗忘中经验可审计隐私的初始步骤，将该领域从二元的行为通过/失败重新框架化为建设性的审计流程。

Probe-Geometry Alignment: Erasing the Cross-Sequence Memorization Signature Below Chance