Dynamic Weight Grafting: Localizing Finetuned Factual Knowledge in Transformers

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：当大型语言模型（LLM）学习了一个新的事实（比如“新当选的教皇是谁”或“某部新电影的上映日期”）后，这个新信息到底藏在了模型的哪里？

为了让你更容易理解，我们可以把整个研究过程想象成**“给一个老厨师（预训练模型）传授新菜谱（微调）”**的故事。

1. 核心问题：新菜谱藏在哪？

想象一下，你有一个经验丰富的老厨师（预训练模型），他记得很多旧菜谱。现在，你教他一道新菜（微调，比如“Zendaya 和 Timothée Chalamet 合作了某部电影”）。

当有人问：“Zendaya 和谁合作了？”时，这个厨师是怎么回答的？

情况 A（丰富化）： 当提到"Zendaya"这个名字时，他脑子里立刻就把"Zendaya"和“新电影”这两个概念绑在了一起，就像在名字旁边贴了个便签。
情况 B（回忆）： 当提到"Zendaya"时，他脑子里还是空的，直到最后要回答“是谁”的时候，他才突然灵光一闪，从某个角落把新信息调取出来。
情况 C（都有）： 也许两种情况都有？

以前的研究方法（比如“激活修补”）就像是在厨师做菜的过程中，强行把某个步骤的食材换掉。但这有个大问题：你换掉食材的同时，也抹掉了之前步骤积累的所有味道。你无法判断厨师是因为“记住了新菜谱”才做对，还是因为“之前的步骤没被破坏”才做对。

2. 新方法：动态权重嫁接 (Dynamic Weight Grafting)

为了解决这个问题，作者发明了一种叫**“动态权重嫁接”**的新方法。

打个比方：
想象你有两本完全一样的《烹饪手册》：

旧手册（预训练模型）： 只有老菜谱。
新手册（微调模型）： 包含了老菜谱和新菜谱。

以前的方法是把旧手册的某页撕下来，贴上新手册的页，但这会破坏书本结构。
作者的新方法是： 在厨师做菜（生成文字）的每一个步骤，我们都可以灵活地决定：

这一步用旧手册的哪一页？
那一步用新手册的哪一页？

我们可以像玩“乐高积木”一样，把新手册里的特定零件（比如“处理名字时的零件”或“最后下结论时的零件”）拆下来，装到旧手册上，看看厨师还能不能做出新菜。

3. 研究发现：两条“记忆高速公路”

通过这种“乐高式”的拆解，作者发现了模型学习新事实的两条主要路径：

路径一：“丰富化” (Enrichment) —— 在遇到名字时贴便签

发生了什么： 当模型读到句子中的第一个名字（比如"Zendaya"）时，它立刻就把新信息（“她演了新电影”）加到了这个名字的“记忆标签”里。
比喻： 就像你在通讯录里看到"Zendaya"时，系统自动在名字旁边弹出一个新的小窗口，显示“新电影”。
结果： 只要这一步做好了，后面的步骤即使用的是旧手册，模型也能猜出答案。

路径二：“回忆” (Recall) —— 在最后一刻灵光一闪

发生了什么： 即使模型在读到"Zendaya"时没有贴便签（用的是旧手册），但在句子结束、准备输出答案的那个最后时刻，模型会突然启动一个“回忆机制”，把新信息从深层记忆中提取出来。
比喻： 就像厨师在切菜时完全没想新菜谱，但在最后装盘前，突然想起了：“哦对！这道菜要加新调料！”
结果： 只要最后这一步用了新手册的“回忆零件”，模型也能答对。

最惊人的发现是：

很多时候，只要这两条路中有一条是通的，模型就能答对。
如果把这两条路都堵死（只保留中间过程，把开头和结尾都换成旧手册），模型就完全忘了新事实，答对率几乎降为零。

4. 深入细节：谁在负责“回忆”？

作者进一步拆解了“回忆”这个动作，发现它是由两个具体的“零件”协作完成的：

注意力机制 (Attention)： 负责在开头（看到名字时）和结尾（准备回答时）把注意力聚焦在关键信息上。这就像是厨师的眼睛，负责盯着关键食材。
前馈网络 (Feed-Forward Networks)： 负责在最后一层进行具体的“提取”和“转换”。这就像是厨师的手，负责把食材切好、摆盘。

作者发现，只要把“最后时刻”的**“手”（前馈网络）和“眼睛”（注意力）**换成新手册的，模型就能完美回忆出新事实。

5. 总结与意义

这篇论文告诉我们什么？

大模型很灵活： 它们学习新事实不是死板地把信息存在某个固定的“硬盘”里，而是通过**“即时贴便签”（丰富化）和“最后时刻回忆”**（回忆）两种灵活的方式。
新工具很强大： “动态权重嫁接”就像一把手术刀，让我们能精准地看到模型内部到底是谁在干活，而不是像以前那样只能看到结果。
未来应用： 理解这些机制，有助于我们更好地修改模型（比如纠正错误信息），或者让模型更聪明地学习新知识，而不会忘记旧知识。

一句话总结：
这篇论文发明了一种“乐高式”的拆解方法，发现大模型学习新事实时，要么在看到名字时就记住了，要么在要回答时才想起来，而且这两种方式往往只要有一种生效，模型就能成功。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于大语言模型（LLM）可解释性（Interpretability）的论文，题为《动态权重嫁接：定位 Transformer 中微调后的事实知识》（Dynamic Weight Grafting: Localizing Fine-Tuned Factual Knowledge in Transformers）。该论文发表于 ICLR 2026。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

当大型语言模型（LLM）在微调（Fine-tuning）过程中学习新的事实（例如新上映的电影、新当选的教皇等）时，这些新信息在模型内部是如何存储和检索的？

现有方法的局限性：传统的可解释性方法（如激活修补 Activation Patching 或 消融实验 Ablations）通常通过替换模型残差流（Residual Stream）中的激活值来干预模型。这种方法存在一个关键缺陷：它覆盖了之前的计算信息。例如，如果在某个层修补了激活值，就会切断上游（如实体处理阶段）传递下来的“信息丰富化”（Enrichment）过程。因此，很难区分某个组件是主动提取了新信息，还是仅仅传递了之前计算好的信息。
核心问题：我们需要一种能够区分“信息丰富化”（在实体出现时更新表示）和“信息回忆”（在生成预测时提取信息）这两种机制的方法，并精确定位负责这些过程的具体模型组件（如注意力头、前馈网络等）。

2. 方法论：动态权重嫁接 (Methodology: Dynamic Weight Grafting)

为了解决上述问题，作者提出了一种名为**动态权重嫁接（Dynamic Weight Grafting）**的新分析技术。

核心思想：与替换激活值不同，该方法在生成过程中，动态地替换特定模型组件的权重矩阵。具体来说，将微调后模型（ $\theta_{ft}$ ）的特定权重子集“嫁接”到预训练模型（ $\theta_{pre}$ ）中。
操作粒度：
- 位置（Position）：针对特定的 Token 位置（如第一个实体 Token 或最后一个预测 Token）。
- 组件（Component）：针对特定的模型层和组件（如注意力矩阵 $W_Q, W_K, W_V, W_O$ 或前馈网络 FFN）。
优势：这种方法保留了预训练模型在嫁接点之前的所有计算过程（即保留了上游的信息流），从而能够隔离并测试特定组件在特定位置对知识检索的必要性和充分性。

3. 实验设置 (Experiments)

模型：使用了四种不同的 Decoder-only Transformer 模型：Llama3, Pythia, GPT-2 XL, 和 Gemma 1.1。
数据：构建了合成数据集（Fake Movies, Real Actors 等），通过模板化文本（文章和问答）对模型进行监督微调（SFT），使其学习新的实体关系（如“演员 A 与演员 B 共同出演电影 C"）。
评估指标：主要使用 Top-5 准确率来评估模型在给定主语和关系时，正确生成宾语（如演员名）的能力。

4. 关键发现与结果 (Key Results)

A. 两条知识检索路径 (Two Pathways)

通过位置嫁接（Position Grafting）实验，作者发现模型检索微调后的关系信息主要通过两条路径，且这两条路径对于恢复微调性能几乎是必要且充分的：

丰富化路径（Enrichment Pathway）：在序列中第一个实体 Token（Subject）出现时，模型利用微调后的权重将关系信息“丰富”到该实体的表示中。如果仅在此处嫁接微调权重，模型仍能部分恢复性能。
回忆路径（Recall Pathway）：在最后一个预测 Token（Before Prediction）位置，模型利用微调后的权重从上下文中“回忆”并提取关系信息。即使第一个实体的表示未被丰富，仅在此处嫁接微调权重也能提取信息。
- 结论：同时嫁接这两个位置几乎能完全恢复微调后的性能；而嫁接除了这两个位置之外的所有部分，性能会降至接近预训练模型的水平（接近零）。

B. 组件级定位 (Component-Level Localization)

通过**组件嫁接（Component Grafting）**实验，作者进一步将“回忆路径”定位到具体的模型组件：

注意力机制（Attention）：在第一个实体和最后一个 Token 位置，**任务特定的注意力机制（Task-specific Attention）**对于启动回忆过程至关重要。
前馈网络与输出投影（FFN & Output Projection）：在最后一个 Token 位置，**前馈网络（FFN）和输出投影矩阵（ $O$ $O$ matrix）**负责执行具体的关系提取操作。
- 实验发现，如果在最后一个 Token 处嫁接微调模型的 $O$ 矩阵和 FFN，即使使用预训练模型的注意力，也能恢复大部分性能。
- 这表明微调后的模型学会了在预测前利用 $O$ 矩阵触发 FFN 中的特定知识提取机制。

C. 模型架构差异

Gemma 和 Llama3：表现出较强的“回忆路径”，即仅靠最后 Token 的组件就能有效提取信息。
GPT-2 XL 和 Pythia：表现出较强的“丰富化路径”，即更依赖早期实体位置的表示更新。这可能与模型层数、归一化方式（LayerNorm vs RMSNorm）及注意力机制的差异有关。

D. 泛化性

在真实维基百科文章（非模板数据）上的实验表明，虽然“丰富化”和“回忆”路径的效果比合成数据弱，但上述定位模式依然成立。

5. 主要贡献 (Key Contributions)

提出动态权重嫁接技术：提供了一种比激活修补更精细、破坏性更小的可解释性工具，能够区分信息的“存储/丰富”和“提取/回忆”阶段。
揭示双重检索机制：首次明确证明微调后的事实知识检索依赖于“实体丰富化”和“最终回忆”两条并行路径，且两者在功能上具有冗余性（任一路径单独工作均有效，但结合效果最佳）。
组件级定位：将知识检索机制精确定位到 Transformer 的具体组件（如最后的 $O$ 矩阵和 FFN），修正了以往关于注意力机制在关系提取中起主导作用的观点（在特定微调场景下，FFN 和 $O$ 矩阵更为关键）。
方法论启示：展示了通过操作参数空间（而非激活空间）来理解模型内部机制的潜力，为未来的知识编辑和模型干预提供了新的视角。

6. 意义与影响 (Significance)

理论意义：加深了对 LLM 如何处理和更新事实性知识的理解，表明模型并非简单地“覆盖”旧知识，而是建立了多路径的冗余检索机制。
实践应用：
- 知识编辑：理解这些路径有助于设计更精准的知识编辑方法（例如，只需修改特定层的特定组件即可更新知识，而无需全量微调）。
- 模型安全：有助于识别模型中存储敏感信息的具体位置，从而更有效地进行去敏或防御。
- 可解释性工具：动态权重嫁接为后续研究提供了一种新的因果干预范式，避免了传统激活修补带来的信息截断问题。

总结

该论文通过创新的“动态权重嫁接”方法，打破了传统激活修补的局限，成功解构了 LLM 在微调后检索新事实的微观机制。研究结果表明，模型通过“早期实体丰富化”和“晚期 Token 回忆”两条路径协同工作，且这些过程高度依赖于特定的模型组件（如 FFN 和输出投影矩阵）。这一发现为理解、控制和编辑大语言模型的知识存储提供了重要的理论依据和技术手段。