Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给一个超级天才的“视觉大脑”做体检，看看当它面对陌生环境时，到底该听它“大脑深处”的哪个部分说话，才能最准确地识别物体。

为了让你轻松理解，我们把这篇论文的核心内容拆解成几个生动的故事：

1. 背景：天才大脑的“成长烦恼”

想象一下，我们训练了一个视觉 Transformer（ViT），它就像是一个在“百科全书”（ImageNet 数据集）里读了无数本书的天才学生。

正常情况（同分布）： 如果考试题目和它读的书很像（比如都是清晰的猫狗照片），它通常会把答案写在最后一行（最后一层神经网络），那里是它总结得最完美的地方。
突发情况（分布偏移/ OOD）： 但如果考试突然变成了“模糊的猫”、“雪地里的狗”或者“手绘的草图”（这就是论文说的分布偏移，即数据变了），这个天才学生就懵了。

2. 核心发现：越往后，越容易“晕车”

以前的研究认为，不管什么情况，都要看这个学生的最后一行笔记（最后一层输出）。但这篇论文发现了一个惊人的真相：

当环境变得陌生（数据发生偏移）时，越靠后的“笔记”，反而越不可靠！

打个比方：
这就好比你在坐过山车。

中间层（Intermediate Layers）： 就像过山车刚启动或者爬升到一半的时候，你还能看清周围的风景，虽然有点颠簸，但方向感还在。
最后一层（Final Layer）： 就像过山车冲下陡底、疯狂旋转的时候，你晕头转向，完全看不清东西了。

论文发现，当数据发生剧烈变化（比如从清晰照片变成噪点图）时，最后一层因为太专注于“适应之前的旧知识”，反而失去了对新情况的判断力；而中间层因为还没被“洗脑”得太深，反而保留了更多通用的、 robust（鲁棒）的特征。

3. 微观探索：大脑里的“哪个零件”最管用？

既然知道了要看“中间层”，那具体看中间层的哪个部分呢？这就好比我们要检查大脑里的神经元，是看它“接收信号”的时候，还是“处理信号”的时候？

论文把 Transformer 的一个模块拆解成了几个小零件：

注意力机制 (MHA)： 负责“看哪里”。
前馈网络 (FFN)： 负责“思考”和“加工”。
- FC1： 把信息放大（像把声音调大）。
- Act (激活函数)： 过滤噪音，决定哪些信息重要（像大脑的开关）。
- FC2： 把信息压缩回原样（像把声音调小）。
残差连接 (RC)： 传统的“标准答案”输出点。

论文的实验结果非常有趣：

当环境很熟悉（比如考 Cifar10）： 传统的最后一层输出 (RC2) 依然是王者，因为它已经把所有知识融会贯通了。
当环境很陌生（比如考噪点图、手绘图）：
- 最差的零件： 是 FC2（压缩信息的部分）。它把信息压缩得太厉害，导致细节丢失，就像把一张高清地图压缩成一张邮票，根本看不清路。
- 最好的零件： 是 Act（激活函数之后）。就在信息被放大并经过“过滤”的那一刻，它保留了最清晰、最抗干扰的特征。
- 次好的零件： 是 LN2（归一化层）。如果你不确定环境有多糟糕，选它比较安全，虽然不如 Act 那么犀利，但很稳定。

4. 总结：给工程师的“避坑指南”

这篇论文给所有使用 AI 模型的人（特别是那些要在真实世界、不可预测环境中使用模型的人）提出了两条黄金法则：

别迷信“最后一层”： 如果你的模型要面对的是陌生数据（比如自动驾驶遇到暴雨，或者医疗 AI 遇到罕见病例），千万不要只盯着最后一层输出。那可能是个“晕车”的向导。
学会“中途截胡”：
- 如果环境变化很大（强分布偏移）：去抓中间层的前馈网络激活值（Act）。那是信息最鲜活、最抗噪的时候。
- 如果环境变化很小（弱分布偏移）：抓中间层的归一化输出（LN2） 或者传统的最后一层都可以。

一句话总结

“天才学生”在熟悉的环境里，最后一句总结最精彩；但在陌生的风暴中，它中间思考过程中的“灵光一闪”（激活后的特征）才是最靠谱的答案。

这篇论文告诉我们，在 AI 的世界里，“层层递进”并不总是意味着“越后越好”，有时候，“中途下车” 反而能帮你看到更清晰的风景。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 CAO Workshop 的会议论文，题为《Layer by Layer, Module by Module: Choose Both for Optimal OOD Probing of ViT》（逐层、逐模块：为 ViT 的 OOD 探测选择两者以获得最优性能）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：基础模型（Foundation Models），特别是基于 Transformer 架构的视觉模型（ViT），在预训练后通常通过微调（Finetuning）或作为冻结特征提取器（Linear Probing）来适应下游任务。
核心问题：
1. 分布偏移（Distribution Shift）的影响：当预训练数据与下游任务数据存在分布偏移（OOD, Out-of-Distribution）时，模型性能会下降。
2. 中间层 vs. 最终层：近期研究表明，在某些情况下（如自回归语言模型），中间层的表示比最终层更具判别力。然而，对于 ViT 模型，关于中间层是否优于最终层存在争议。Skean et al. (2025) 认为 ViT 的最终层在 OOD 下依然最优，而其他工作则持相反观点。
3. 探测粒度不足：现有的线性探测（Linear Probing）通常仅关注 Transformer 块的最终输出（即残差连接 RC2 之后），忽略了块内部不同组件（如注意力机制、前馈网络、归一化层等）的潜在差异。

2. 方法论 (Methodology)

作者设计了一套系统的实验框架，从“层”和“模块”两个维度对预训练的 ViT 进行细粒度分析：

模型与数据：
- 使用在 ImageNet-21k 上预训练的 86M 参数 ViT-Base 模型。
- 数据集：涵盖 11 个分类基准，包括 ID 数据（Cifar10/100, Flowers102, Pets）和不同程度的 OOD 数据（Cifar10-C 的 5 种噪声/模糊变体，DomainNet 的 Clipart 和 Sketch）。
- 实验设置：
  - 线性探测（Linear Probing）：冻结预训练模型，仅训练一个逻辑回归分类器（基于 CLS token 的嵌入）。
  - 微调（Finetuning）：作为对比基准，验证在 ID 设置下最终层是否确实最优。
分析维度：
1. 逐层分析（Layer by Layer）：探测 Transformer 每一层的输出（标准做法是 RC2），观察随着层深增加，性能在 ID 和 OOD 场景下的变化趋势。
2. 逐模块分析（Module by Module）：在每一层内部，分别探测不同组件的输出：
  - LN1 (LayerNorm 1)
  - MHA (Multi-Head Attention)
  - RC1 (Residual Connection 1)
  - LN2 (LayerNorm 2)
  - FC1 (FeedForward 第一层)
  - Act (Activation, 即 GeLU 输出)
  - FC2 (FeedForward 第二层)
  - RC2 (Residual Connection 2, 标准输出)

3. 关键发现与贡献 (Key Contributions & Findings)

A. 分布偏移是最终层性能下降的主因

ID 场景：在分布内（In-Distribution）数据上，随着层数加深，特征表示越来越优，最终层（Final Layer）总是表现最好。
OOD 场景：随着预训练数据与下游数据之间的分布偏移（Shift）增大，深层（最终层）的性能显著下降，而中间层（Intermediate Layers）表现出更强的鲁棒性。
结论：中间层优于最终层并非仅仅是预训练目标（如自回归）的副产品，而是分布偏移导致的直接后果。当无法进行微调时，识别数据是否处于 OOD 状态对于选择探测哪一层至关重要。

B. 标准探测点（RC2）并非最优，模块选择至关重要

作者发现 Transformer 块内的不同组件对分布偏移的抵抗力不同：

标准做法的缺陷：探测 Transformer 块的最终输出（RC2）在大多数 OOD 数据集上并非最优。
最佳组件发现：
- 强分布偏移（Strong Shift）：探测前馈网络（FFN）中的激活值（Act，即 GeLU 输出） 表现最佳。尽管 FC2（FFN 的第二层）通常表现最差，但 Act 层在中间层能提供最具判别力的特征。
- 弱/无分布偏移（Weak Shift）：探测前馈网络前的 LayerNorm 输出（LN2） 或标准输出（RC2）表现更好。
性能排序：在严重 OOD 情况下，Act > LN2/RC2 > FC2。

C. 理论解释

信号传播与维度：FFN 中的 FC1 将维度从 $d$ 扩展到 $4d$，Act 在此高维空间操作，有助于特征解耦（Feature Disentanglement）并过滤投影引入的噪声。
压缩效应：FC2 将维度压缩回 $d$ ，可能导致线性可分性降低，因此在 OOD 下表现较差。
记忆机制视角：将 FFN 视为键值记忆（Key-Value Memory），FC1 和 Act 捕获了输入的语义信息，而 FC2 更多反映了 Token 的分布。

4. 实验结果 (Results)

层深趋势：
- 在 Flowers102（ID）上，性能随层深单调递增。
- 在 Speckle Noise（强 OOD）上，性能在中间层达到峰值，随后在深层急剧下降。
模块对比（Table 1 & Fig 3）：
- 在 12 个数据集中，Act 模块在 10 个数据集上获得了最高的探测准确率（Win Rate 最高）。
- FC2 在 10 个数据集上表现最差。
- 在强 OOD 数据集（如 Contrast, Speckle Noise）上，中间层的 Act 显著优于 RC2。
- 在 ID 数据集（如 Cifar10, Flowers102）上，各组件差异较小，但 RC2 或 LN2 通常略优。

5. 意义与启示 (Significance)

重新定义 ViT 特征探测策略：论文挑战了“探测最终层输出”的惯例，提出应根据分布偏移的程度动态选择探测点。
实践指南：
- 如果怀疑数据存在显著分布偏移（OOD），应探测中间层 FFN 的激活值（Act）。
- 如果数据分布接近预训练分布（ID），探测最终层或LN2即可。
- 如果难以判断分布偏移程度，探测LN2是一个比标准 RC2 更安全的折中方案。
理论贡献：揭示了 Transformer 内部组件在应对分布偏移时的异质性，为理解基础模型的鲁棒性机制提供了新的视角（从层级别深入到模块级别）。
未来方向：建议未来的研究结合信息论、几何度量等工具，进一步分析 Transformer 模块内部的隐藏表示，以开发更高效的分布偏移检测和适应方法。

总结：这篇论文通过详尽的实验证明，在 ViT 的线性探测中，“层”和“模块”的选择必须同时考虑。在分布偏移场景下，放弃标准的最终层输出，转而选择中间层的 FFN 激活值，是提升模型鲁棒性和下游任务性能的关键。