Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

本文表明,上下文学习中的任务身份并非如线性探测所暗示的那样定位于特定层或特定令牌,而是以跨演示令牌的分布式输出格式模板的形式被因果性地编码,且存在一个约在30%网络深度处的关键干预窗口。

原作者: Bryan Cheng, Jasper Zhang

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Bryan Cheng, Jasper Zhang

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一个大型语言模型(就像驱动聊天机器人的那些)是一座巨大的多层工厂。当你给它提供几个任务示例(比如“把这个词变成大写”)时,它会尝试找出规则并将其应用到你的新问题中。这被称为上下文学习(ICL)

长期以来,科学家们认为他们知道这座工厂里“规则”存储的位置。他们使用一种名为“探针”的工具(就像金属探测器),该工具会发出响亮的蜂鸣声并说:“是的,‘大写’的规则就在这里!”他们在工厂特定楼层的特定位置发现了这些蜂鸣声。

大惊喜:金属探测器在撒谎
本文的作者决定测试这些蜂鸣声是否真的意味着什么重要内容。他们尝试了一种“手术”实验:他们前往金属探测器声称规则所在的确切位置,移除该信息,并用其他内容替换它。

  • 结果: 什么也没发生。工厂继续完美运行,完全无视这次手术。
  • 类比: 想象你认为汽车的引擎由一根红色电线控制。你剪断那根电线,期望汽车停下。相反,汽车继续行驶。事实证明,引擎并非由一根电线控制;信号分散在成千上万根电线中。如果你只剪断其中一根,汽车毫不在意。

真正的发现:“分布式模板”
研究人员意识到,“规则”并非存储在一个地方。它就像一副拼图,分散在你提供给模型的所有示例中。

  1. 单一位置失效: 如果你尝试只交换拼图中的一块(示例中的一个词),模型不会察觉。它还有太多其他拼图块来拼出完整的画面。
  2. 多位置突破: 但是,如果你同时交换拼图中的所有块(示例中的每个输出词),模型确实会改变主意。它开始遵循你给它的新规则。

工厂里的“甜蜜点”
研究人员发现,这种“拼图交换”只有在工厂的特定楼层进行时才有效。

  • 太早(第 1–7 层): 拼图块尚未组装;模式尚不清晰。
  • 太晚(第 15 层及以上): 工厂已经完成了汽车的制造并正在驶离;现在更改蓝图为时已晚。
  • 恰到好处(第 8 层): 这是“承诺窗口”。这是工厂正在最终确定设计但尚未开始建造的地方。如果你在这里交换蓝图,工厂就会制造新车。

实际被传递的是什么?
论文发现,模型并非在学习任务的含义(比如“这是关于情感的”)。相反,它在学习答案的形状

  • 类比: 想象你教模型如何写诗。如果你更改示例以展示不同类型的诗(例如,从押韵的对句改为俳句),即使主题相同,模型也不会切换。
  • 发现: 模型只复制“模板”。如果示例显示“词、词、词”,那么只有当新任务也看起来像“词、词、词”时,模型才会切换到新任务。它不在乎这些词是关于猫还是数字;它在乎的是结构是否匹配。

查询与示例
论文还发现了一个有趣的不对称性:

  • 示例(演示): 这些就像“食材”。你需要所有食材来制作这道菜。如果缺少一种,食谱仍然有效,因为其他食材可以弥补。但是,如果你交换所有食材,菜肴就会完全改变。
  • 问题(查询): 这是阅读食谱的“厨师”。如果你搞乱了厨师的指令(问题部分),整个事情就会失败。厨师至关重要,但厨师并不持有食谱;食材才是。

通俗英语总结

  1. 不要相信金属探测器: 仅仅因为模型能在一个位置找到规则,并不意味着那个位置很重要。
  2. 规则无处不在: “任务身份”分散在所有示例答案中,而不是固定在某个地方。
  3. 时机很重要: 你只能在模型思考过程的中途改变其主意,而不能在开始或结束时。
  4. 关乎形状,而非含义: 模型复制答案的格式(如模板),而不是理解任务的深层逻辑。

这篇论文实质上重写了这些 AI 模型如何从示例中学习的地图,向我们展示了任务的“大脑”是一个分布式的、容错的网络,而不是一个单一的开关。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →