The Concept Allocation Zone: Tracking How Concepts Form Across Transformer Depth

本文介绍了概念分配区(CAZ),这是一个将 Transformer 模型中的概念形成重新定义为在残差流连续区域内发生的深度扩展过程的框架,而非局限于单个“最佳”层,该框架利用新指标识别这些区域,并揭示许多概念存在于微妙且多模态的分配区域中,这些区域具有因果活性,却对标准峰值检测方法不可见。

原作者: James Henry

发布于 2026-05-26✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: James Henry

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一个 Transformer 语言模型(就像生成这段文字背后的 AI)不是静态的大脑,而是一条工厂装配线

长期以来,研究人员认为,当 AI 学习一个概念——比如“可信度”或“拒绝”——时,它发生在装配线上的某一个特定站点。他们会寻找那个概念最清晰的“最佳层”,就像在电影中寻找角色面部最清晰可见的那一帧。

本文认为这种观点过于简单。概念并非单一快照,而是过程。它们是逐步构建的,穿过装配线上的一个特定区域。作者将其称为概念分配区(CAZ)

以下是这一机制的分解,使用日常类比进行说明:

1. 装配线与快照

将 AI 的“残差流”(流经模型的数据)想象成一条传送带。

  • 旧方法:研究人员曾让传送带在特定点停下,拍张照片,然后说:“概念就住在这里。”
  • 新方法(CAZ):论文指出:“不,概念是在移动过程中被构建的。”它起初是一个模糊的想法,逐渐被细化,可能传递到传送带的不同部分,最后稳定下来。CAZ 就是模型积极调整其内部几何结构以使该概念变得清晰的那整段传送带。

2. 观察构建过程的三种工具

为了追踪这一过程,作者发明了三种“传感器”,用于测量传送带上每个站点发生的情况:

  • 分离度(距离):想象两组人(例如“可信”与“不可信”)。在传送带起点,他们混杂在人群中。随着他们沿传送带移动,“可信”组开始向左走,“不可信”组向右走。分离度衡量他们相距多远。
  • 连贯性(秩序):有时两组人虽然相距甚远,但各自内部却杂乱无章、分散开来。连贯性衡量该组是排成整齐紧密的队列,还是混乱的人群。高分意味着概念已“结晶”成清晰的形状。
  • 速度(变化速率):这衡量两组人彼此远离的速度有多快。如果距离迅速增加,概念正在构建中。如果距离停止变化,概念已完成。如果两组人开始重新靠近,概念正在被丢弃或改变。

3. “温和”区域

论文发现了一个令人惊讶的事实:概念并非只有一个巨大的峰值。它们通常拥有多个区域

  • 主要 CAZ:概念最强、最明显的巨大峰值。
  • 温和 CAZ:更小、更微妙的区域,标准工具往往会忽略。论文发现,即使这些“温和”区域也是真实且活跃的。如果关闭它们,AI 的行为就会改变。这就像在时钟里发现了一些你不知正在转动的小齿轮,但如果让它们停止,时钟就会停摆。

4. 概念拥有“子表征”

有时,像“可信度”这样的概念会在装配线上出现两次:

  1. 浅层区域:在开头附近,AI 可能仅因特定词汇(如“可靠”或“信任”)而识别出可信度。
  2. 深层区域:在传送带更深处,AI 会根据整个故事和上下文重新评估它。
    论文表明,这实际上是 AI 思维中不同的几何形状。它们是对同一词汇的两种不同理解方式,发生在不同的深度。

5. “交接”

由于概念会移动并改变形状,论文建议,如果你想干预(改变 AI 的行为),不应只挑选“最佳”层。你应该等待概念完成其旅程并“稳定”成一种稳定的形状。这被称为交接层

  • 类比:如果你试图接住一个球,不要在它仍在被投掷时(构建阶段)去抓;要等到它在空中且稳定时(交接阶段)再接。

6. “通用”模式

论文在 34 个不同的 AI 模型上测试了这一点。他们发现,虽然不同模型的层数不同,但它们都以相似的相对顺序组织概念。

  • 类比:想象两家不同的工厂。一家有 10 个站点,另一家有 100 个。它们都制造汽车。在这两家工厂中,发动机都在前 20% 的线路上制造,而喷漆工序都在最后 20% 进行。即使总长度不同,线路的百分比是相同的。论文证实,AI 模型遵循这种相同的“深度分层”蓝图。

测试内容总结

作者提出了 7 个具体预测来验证这一理论。以下是用通俗语言得出的结论:

  • 预测 1(切断位置):他们认为切断区域中间是最佳方案。错误。这取决于模型;有时切断末端更好。
  • 预测 2(顺序):他们认为所有模型中概念的顺序是相同的。基本正确。顺序是一致的,但并非绝对僵化。
  • 预测 3(宽度):他们认为复杂概念在传送带上占据更多空间。可能。数据暗示了这一点,但需要更多测试。
  • 预测 4(末端):他们认为概念在非常末端会变得混乱。无法测试。“一个混乱末端”的理论是错误的,因为概念通常有多个峰值,因此不存在只有一个可测量的“末端”。
  • 预测 5(对齐):他们认为模型间匹配深度(线路的百分比)是关键。正确。这是最有力的发现:如果你将一个模型的“中间”与另一个模型的“中间”进行比较,它们完美对齐。
  • 预测 6(词汇与上下文):他们认为早期区域仅关于词汇,而深层区域关于上下文。错误。早期区域不仅仅是原始词汇;它们已经被处理过。
  • 预测 7(架构):他们认为“峰值”的数量取决于模型类型,而非其规模。未知。测试规模不足以确切定论。

核心结论

这篇论文将 AI 的视角从静态地图(概念在哪里?)转变为动态电影(概念如何形成?)。它引入了一种测量思想“构建区”的方法,揭示了 AI 模型分阶段构建复杂思想,通常使用先前方法遗漏的多个隐藏步骤。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →