想象一个 Transformer 语言模型（就像生成这段文字背后的 AI）不是静态的大脑，而是一条工厂装配线。

长期以来，研究人员认为，当 AI 学习一个概念——比如“可信度”或“拒绝”——时，它发生在装配线上的某一个特定站点。他们会寻找那个概念最清晰的“最佳层”，就像在电影中寻找角色面部最清晰可见的那一帧。

本文认为这种观点过于简单。概念并非单一快照，而是过程。它们是逐步构建的，穿过装配线上的一个特定区域。作者将其称为概念分配区（CAZ）。

以下是这一机制的分解，使用日常类比进行说明：

1. 装配线与快照

将 AI 的“残差流”（流经模型的数据）想象成一条传送带。

旧方法：研究人员曾让传送带在特定点停下，拍张照片，然后说：“概念就住在这里。”
新方法（CAZ）：论文指出：“不，概念是在移动过程中被构建的。”它起初是一个模糊的想法，逐渐被细化，可能传递到传送带的不同部分，最后稳定下来。CAZ 就是模型积极调整其内部几何结构以使该概念变得清晰的那整段传送带。

2. 观察构建过程的三种工具

为了追踪这一过程，作者发明了三种“传感器”，用于测量传送带上每个站点发生的情况：

分离度（距离）：想象两组人（例如“可信”与“不可信”）。在传送带起点，他们混杂在人群中。随着他们沿传送带移动，“可信”组开始向左走，“不可信”组向右走。分离度衡量他们相距多远。
连贯性（秩序）：有时两组人虽然相距甚远，但各自内部却杂乱无章、分散开来。连贯性衡量该组是排成整齐紧密的队列，还是混乱的人群。高分意味着概念已“结晶”成清晰的形状。
速度（变化速率）：这衡量两组人彼此远离的速度有多快。如果距离迅速增加，概念正在构建中。如果距离停止变化，概念已完成。如果两组人开始重新靠近，概念正在被丢弃或改变。

3. “温和”区域

论文发现了一个令人惊讶的事实：概念并非只有一个巨大的峰值。它们通常拥有多个区域。

主要 CAZ：概念最强、最明显的巨大峰值。
温和 CAZ：更小、更微妙的区域，标准工具往往会忽略。论文发现，即使这些“温和”区域也是真实且活跃的。如果关闭它们，AI 的行为就会改变。这就像在时钟里发现了一些你不知正在转动的小齿轮，但如果让它们停止，时钟就会停摆。

4. 概念拥有“子表征”

有时，像“可信度”这样的概念会在装配线上出现两次：

浅层区域：在开头附近，AI 可能仅因特定词汇（如“可靠”或“信任”）而识别出可信度。
深层区域：在传送带更深处，AI 会根据整个故事和上下文重新评估它。
论文表明，这实际上是 AI 思维中不同的几何形状。它们是对同一词汇的两种不同理解方式，发生在不同的深度。

5. “交接”

由于概念会移动并改变形状，论文建议，如果你想干预（改变 AI 的行为），不应只挑选“最佳”层。你应该等待概念完成其旅程并“稳定”成一种稳定的形状。这被称为交接层。

类比：如果你试图接住一个球，不要在它仍在被投掷时（构建阶段）去抓；要等到它在空中且稳定时（交接阶段）再接。

6. “通用”模式

论文在 34 个不同的 AI 模型上测试了这一点。他们发现，虽然不同模型的层数不同，但它们都以相似的相对顺序组织概念。

类比：想象两家不同的工厂。一家有 10 个站点，另一家有 100 个。它们都制造汽车。在这两家工厂中，发动机都在前 20% 的线路上制造，而喷漆工序都在最后 20% 进行。即使总长度不同，线路的百分比是相同的。论文证实，AI 模型遵循这种相同的“深度分层”蓝图。

测试内容总结

作者提出了 7 个具体预测来验证这一理论。以下是用通俗语言得出的结论：

预测 1（切断位置）：他们认为切断区域中间是最佳方案。错误。这取决于模型；有时切断末端更好。
预测 2（顺序）：他们认为所有模型中概念的顺序是相同的。基本正确。顺序是一致的，但并非绝对僵化。
预测 3（宽度）：他们认为复杂概念在传送带上占据更多空间。可能。数据暗示了这一点，但需要更多测试。
预测 4（末端）：他们认为概念在非常末端会变得混乱。无法测试。“一个混乱末端”的理论是错误的，因为概念通常有多个峰值，因此不存在只有一个可测量的“末端”。
预测 5（对齐）：他们认为模型间匹配深度（线路的百分比）是关键。正确。这是最有力的发现：如果你将一个模型的“中间”与另一个模型的“中间”进行比较，它们完美对齐。
预测 6（词汇与上下文）：他们认为早期区域仅关于词汇，而深层区域关于上下文。错误。早期区域不仅仅是原始词汇；它们已经被处理过。
预测 7（架构）：他们认为“峰值”的数量取决于模型类型，而非其规模。未知。测试规模不足以确切定论。

核心结论

这篇论文将 AI 的视角从静态地图（概念在哪里？）转变为动态电影（概念如何形成？）。它引入了一种测量思想“构建区”的方法，揭示了 AI 模型分阶段构建复杂思想，通常使用先前方法遗漏的多个隐藏步骤。

技术摘要：概念分配区（CAZ）

问题陈述

当前的机械可解释性方法主要依赖“最佳层”启发式方法，即在 Transformer 残差流中识别单个最优层，使得概念表示在此处达到最大类别分离（例如通过线性探测或均值差法）。尽管计算高效，但该方法将概念形成视为静态快照，而非动态过程。它未能捕捉概念如何在模型各层中被组装、组织以及潜在重新分配的迭代且深度延展的特性。因此，单层方法可能会遗漏过渡性表示、微妙的分配区域以及概念构建的几何动态。

方法论

本文提出了**概念分配区（Concept Allocation Zone, CAZ）**框架，将概念表示重新定义为模型深度的连续区域，而非单一点。该框架依赖于从残差流激活中计算的三个逐层指标：

分离度（ $S(l)$ ）： 第 $l$ 层对比类别之间的质心距离（经 Fisher 归一化）。该指标衡量模型在特定深度区分两个类别（例如可信文本与不可信文本）的难易程度。
概念一致性（ $C(l)$ ）： 池化激活矩阵第一主成分的解释方差比。该指标量化概念是编码为单一、清晰的几何方向，还是弥散在多个维度中。
概念速度（ $v(l)$ ）： 分离度指标跨层变化的平滑速率。正速度表示概念的主动构建，负速度表示退化或重新分配。

检测与提取

该框架采用评分检测方法来识别 CAZ 边界，无需手动遍历各层。与固定阈值的峰值检测不同，该方法使用包含显著性、一致性和区域宽度的综合评分。这使得能够识别：

主要/强 CAZ： 高显著性、集中的分配区域。
温和 CAZ： 微妙的分配区域（评分 < 0.05），通常对标准峰值检测不可见，但实证表明其具有因果活性。

该框架区分了嵌入 CAZ（由输入边界处的 token 级特征驱动）和活跃 CAZ（由 Transformer 层内的注意力和 MLP 计算驱动）。

在概念提取方面，本文验证了几何演化图（Geometric Evolution Maps, GEM），用于追踪概念的方向轨迹。研究发现，概念方向通常在 CAZ 内部经历显著的旋转，仅在 CAZ 之后的“交接层”才趋于稳定。在此交接层进行探测往往比在分离度峰值处探测更为精确，特别是在多头注意力（MHA）架构中。

主要贡献

CAZ 框架： 对概念分配的形式化定义，即模型组织几何结构以服务概念的深度局部化区间，其本身区别于概念。
三个逐层指标： 形式化了分离度、一致性和速度，将概念形成表征为一个过程。
评分检测： 一种识别分配区域谱系的原理性方法，揭示了标准方法遗漏的“温和 CAZ"。
子表示发现： 实证证据表明，单一的人类概念标签（例如“可信度”）映射到不同处理深度（浅层与深层）的多个几何上不同的子表示，这些子表示由突变的相变分隔。
深度分层对齐： 对柏拉图表示假设的精细化视角，表明跨架构对齐在概念按处理深度（比例层索引）而非绝对层索引或架构家族进行匹配时最强。

实证结果

该框架在来自8 个架构家族（包括 Pythia、GPT-2、OPT、Qwen 2.5、Gemma 2、Llama 3.2、Mistral 和 Phi）的34 个模型以及7 个概念上进行了验证。

多模态性： 分离度曲线 $S(l)$ 经常呈现多模态。单一概念通常参与多个 CAZ（每个模型每个概念平均 3.4 个）。
温和 CAZ 的因果活性： 对 34 个模型中的 16 个（在配套工作中扩展至 26 个基础模型）进行的消融研究表明，抑制“温和 CAZ"（评分 < 0.05）在**93–100%**的案例中降低了几何分离度，证实了它们在标准检测不可见的情况下仍具有因果作用。
预测裁决：
- 支持（P5）： 跨架构对齐是深度匹配的。匹配处理深度的子表示比对不匹配深度的子表示对齐更强。
- 部分支持（P2）： CAZ 边界在不同架构间显示出一致的相对顺序（从浅到深），尽管这是一种统计趋势而非严格的不变量。
- 不支持（P1, P6）： 最佳消融深度并非普遍位于 CAZ 中部（取决于编码冗余），且浅层峰值与原始 token 嵌入无直接相关性。
- 按陈述无法测试（P4）： 单一 CAZ 后退化区域的假设因多模态分配的发现而被证伪。
- 探索性/不确定（P3, P7）： CAZ 宽度与抽象程度之间的相关性，以及多模态普遍性与架构之间的关系，需要更多数据。

意义与主张

本文主张，CAZ 框架将可解释性范式从解剖学（定位概念最可见的位置）转变为动态流（追踪概念如何形成）。

可解释性的精细化： 它为选择干预深度提供了几何基础，表明在 CAZ 链的不同点进行消融会产生定性不同的效果。
与“暗物质”的联系： 该框架假设，稀疏自编码器（SAEs）未能解释的结构性残差可能对应于 CAZ 内正在进行的概念构建——即在任何单层都抗拒线性分解的过渡性表示。
对齐训练的见解： CAZ 分布提供了一种度量，用于量化指令微调如何扭曲概念分配，揭示出微调并非均匀地将概念移至更浅的深度，而是根据基础模型现有的几何结构改变分配。
深度分层收敛： 最有力的实证结果是确认跨架构对齐是一种深度分层现象，支持了柏拉图表示假设的精细化版本，即收敛发生在比例处理阶段而非全局范围内。

作者强调，CAZ 并非概念本身，而是几何组织这一计算事件发生的深度区域。多个概念可能共享一个 CAZ，而单一概念通常在不同深度参与多个 CAZ。参考实现已提供在开源 rosetta_tools 库中。

The Concept Allocation Zone: Tracking How Concepts Form Across Transformer Depth