Vision Transformers Need More Than Registers

本文指出视觉 Transformer(ViT)中的伪影源于其利用语义无关背景图块作为捷径的惰性聚合行为,并提出通过选择性整合图块特征至 CLS 标记来抑制背景主导的捷径,从而在多种监督范式下显著提升了模型性能。

Cheng Shi, Yizhou Yu, Sibei Yang

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于视觉 Transformer (ViT) 的有趣发现,并提出了一个巧妙的解决方案。我们可以把它想象成是在教一个超级聪明的学生如何更准确地“看图说话”。

以下是用通俗易懂的语言和比喻对这篇论文的解读:

1. 核心问题:学生太“懒”了,总是走捷径

想象一下,你让一个学生(ViT 模型)看一张照片,照片里有一只草地上。你的任务是让他识别出“猫”。

  • 理想情况:学生应该盯着猫看,分析猫的特征(耳朵、胡须、尾巴)。

  • 实际情况(论文发现的“懒惰聚合”现象)
    这个学生其实很聪明,但他太想偷懒了。他发现照片里草地(背景) 的面积比猫大得多。于是,他心想:“只要我记住草地的特征,就能大概猜出这是一张‘户外’的照片,进而猜出可能有猫。”

    于是,他把注意力都分散到了背景(草地、天空)上,而不是聚焦在真正的目标(猫)上。

    • 后果:虽然他在做“这张图里有什么”的选择题时(图像分类)能拿高分,但如果你让他指出“猫在哪里”(密集特征任务,如分割、定位),他就指不准了。因为他脑子里的“全局概念”是被背景污染过的。

2. 为什么会出现这种情况?

论文分析了两个原因:

  1. 老师教得太宽泛(粗粒度监督):老师只告诉学生“这是猫”,没告诉学生“猫的耳朵在这里,尾巴在那里”。学生为了猜对答案,就随便抓一些容易抓的特征(比如大面积的背景)来凑数。
  2. 学生太爱“串门”(全局注意力):Transformer 的机制允许它把图片里所有的碎片(Patch)都联系起来。这本来是好事,但在这里,它让背景碎片轻易地“吸收”了猫的信息,导致猫的特征被稀释了。

3. 之前的解决方案:给个“记事本” (Registers)

之前的研究(比如 Register 论文)发现,学生脑子里有些“高分碎片”特别刺眼(高范数 Token),就像几个捣乱的学生在教室里大喊大叫,盖过了猫的声音。

  • 旧方法:给这些捣乱的学生发个“记事本”(Register Token),让他们把噪音记下来,别干扰主课。
  • 论文观点:这治标不治本!噪音之所以存在,是因为学生一开始就懒得去听猫说话。光把噪音记下来,学生还是没学会怎么专注。

4. 我们的新方法:LaSt-ViT (懒惰克星)

作者提出了一个更根本的解决办法,叫 LaSt-ViT (LazyStrike ViT)

核心比喻:频率过滤器与“投票选举”

想象学生手里有一堆从照片里切下来的小碎片(Patch)。

  • 背景碎片:像是一堆杂乱无章的噪音,变化多端,忽高忽低(高频)。
  • 猫(前景)碎片:虽然也有细节,但整体上是连贯、稳定的(低频/稳定)。

LaSt-ViT 的做法:

  1. 给碎片做“体检”:它用一种数学方法(傅里叶变换,简单理解为“频率分析”)检查每个碎片。
  2. 筛选“稳定分子”:它发现,真正代表“猫”的碎片,在特征上是稳定的;而代表“背景”的碎片,特征波动很大。
  3. 重新投票:在把信息汇总给“班长”(CLS Token,代表整张图的概念)时,它不再让所有碎片随便说话,而是只让那些“最稳定”的碎片(也就是猫)来投票
  4. 结果:背景噪音被自动过滤掉了,班长(CLS)脑子里的概念变得非常清晰,全是关于“猫”的。

5. 效果如何?

这个方法就像给这个“懒惰学生”戴上了一副智能眼镜,强迫他只看重点,忽略背景。

  • 通用性强:不管学生是老师直接教的(有标签监督),还是自己看书学的(自监督),或者是看图文配对学的(文本监督),这个方法都管用。
  • 全面胜利:在 12 个不同的考试(基准测试)中,用了这个方法的学生,无论是找物体、分割图像,还是理解新词汇,成绩都大幅提升。
  • 副作用消除:那些之前让人头疼的“高范数噪音”(捣乱学生)也自然消失了,因为学生不再需要靠背景来凑数了。

总结

这篇论文告诉我们:以前的视觉 AI 模型太依赖背景来“猜”答案,导致它们虽然能认出物体,却找不到物体在哪。

作者提出的 LaSt-ViT 就像是一个严厉的辅导员,它通过一种聪明的筛选机制,强迫模型只关注真正重要的前景物体,剔除掉那些干扰视线的背景噪音。这不仅解决了 AI“眼高手低”的问题,还让它在各种任务上都变得更聪明、更精准。

一句话总结:别让 AI 盯着草地猜猫,LaSt-ViT 教它只盯着猫看。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →