Vision Transformers Need More Than Registers

本論文は、ViT が背景パッチに依存する「怠惰な集約」行動によってアーティファクトが発生するメカニズムを解明し、CLS トークンへのパッチ特徴の選択的統合により、多様な教師あり・自己教師あり学習タスクにおいてアーティファクトを低減し性能を向上させる手法を提案しています。

Cheng Shi, Yizhou Yu, Sibei Yang

公開日 2026-02-27
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

1. 問題発見:AI は「背景」に頼りすぎていた

まず、ViT という AI は、画像を小さなパズル(パッチ)の集まりとして見ています。そして、画像全体が何であるかを理解するために、特別な「リーダー役(CLS トークン)」がすべてのパズルを集めて判断します。

【従来の問題点:怠け者のリーダー】
このリーダー役は、画像の「本物(前景)」を詳しく見るのが面倒くさいのか、**「背景(空や壁、地面など)」**をただ眺めているだけで、「あ、これは猫だ!」と判断してしまう癖がありました。

  • なぜ? 画像には「猫」よりも「背景」のパズルの方が圧倒的に多いです。AI は「猫」の細部を一生懸命探すよりも、「背景」の情報を集めて「猫っぽい雰囲気」を推測する方が、楽(計算コストが低く)で正解率が高かったのです。
  • 結果: 画像全体を分類するテスト(「これは猫か?」)では高得点を取れますが、「猫のどこが猫なのか?」を指し示すような細かい作業(セグメンテーションや物体検出)になると、AI は背景を猫だと勘違いしたり、どこを指せばいいか分からなくなったりします。

これを論文では**「怠け者の集約(Lazy Aggregation)」**と呼んでいます。

2. 既存の解決策の限界:「メモ帳」だけではダメ

以前、この問題を解決するために「レジスター(Register)」という**「メモ帳」**を AI に追加する研究がありました。

  • イメージ: 「リーダーが背景に惑わされないように、邪魔な情報をメモ帳に退避させよう」という考えです。
  • 論文の指摘: しかし、これは**「症状を隠すだけ」**で、根本的な「怠け癖」を治していません。メモ帳に書き込むのは、リーダーが本当に背景を無視しているからではなく、単に情報を逃がしているだけだからです。

3. 新しい解決策:LaSt-ViT(レイ・ストライク)

著者たちは、この「怠け癖」を根本から直すために、**「LaSt-ViT(LazyStrike ViT)」**という新しい方法を提案しました。

【仕組み:安定した「良い情報」だけを選ぶ】
この方法は、AI に以下のようなトレーニングをさせます。

  1. ノイズを消す(低域通過フィルタ): 画像の各パズル(パッチ)が持っている情報を、一度「低周波(滑らかな情報)」だけ残すようにフィルタリングします。
  2. 安定度で選ぶ: 「猫」のような本物の対象物は、パズル同士で情報が安定しています(ノイズが少ない)。一方、「背景」はバラバラで不安定です。
  3. リーダーに「良いパズル」だけ渡す: AI は、この「安定したパズル(=前景)」だけをリーダーに集めさせ、不安定な「背景」はあえて無視させます。

【比喩で言うと】

  • 従来の ViT: 騒がしい教室で、先生(リーダー)が「誰が勉強しているか」を判断しようとして、壁や床の模様を見て「あ、ここが勉強部屋だ!」と勘違いしている。
  • LaSt-ViT: 先生に「騒がしい生徒(背景)は無視して、静かに集中している生徒(前景)の声だけを聞け」と教える。すると、先生は自然と「勉強している生徒」の位置を正確に指し示せるようになります。

4. 驚きの効果

この「怠け癖」を直すだけで、AI は驚くほど劇的に変わりました。

  • どんな学習方法でも効果的: 正解ラベルがある学習(教師あり)、テキストで教える学習(CLIP 型)、ラベルなしの学習(自己教師あり)のすべてで、背景に惑わされなくなりました。
  • 12 種類のテストで勝利: 物体の発見、画像の切り抜き、新しい言葉での物体検索など、12 種類の難しいタスクで、従来の AI よりも大幅に性能が向上しました。
  • 計算コストも低い: 複雑なメモ帳を追加するのではなく、選び方を変えるだけなので、計算が重くなることもありません。

まとめ

この論文が伝えたいことはシンプルです。

「AI が『背景』に頼って『猫』を認識する『怠け癖』を直せば、AI は本当に『猫』を見分けられるようになる」

これまで「もっと大きなメモ帳(レジスター)」が必要だと思われていた問題が、実は「選び方(集め方)」を少し変えるだけで解決できたという、シンプルかつ強力な発見です。これにより、AI が画像をどう見ているかという「中身」の理解が深まり、より信頼できる AI 開発の道が開かれました。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →