Layer by layer, module by module: Choose both for optimal OOD probing of ViT

本論文は、事前学習と下流タスク間の分布シフトが Vision Transformer の深い層の性能低下の主要因であることを示し、分布シフトの強さに応じてフィードフォワードネットワーク内の活性化またはマルチヘッド自己注意モジュールの正規化出力をそれぞれプローブすることで、分布外(OOD)検出を最適化できることを明らかにしています。

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🏭 巨大な画像認識工場:ViT(ビジョン・トランスフォーマー)

まず、この AI モデルを想像してください。
これは、入力された画像を処理する**「巨大な工場の生産ライン」**です。

  1. 原材料(入力画像): 工場に入ってくるのは、生々しい写真(画像)です。
  2. 工程(レイヤー): 写真は何十もの工程(レイヤー)を通って加工されます。
    • 最初の工程では「これは四角い形だ」「これは赤い色だ」といった基本的な特徴を捉えます。
    • 途中の工程では「これは猫の耳だ」「これは車輪だ」といった中級な特徴を組み立てます。
    • 最後の工程(最終レイヤー)では、「これは猫だ」「これは車だ」と最終的な答えを導き出します。

通常、私たちはこの工場の**「出口(最終工程)」**で取り出された答えを信じています。「最終工程が一番完成度が高いはずだ」と考えるのが普通だからです。

🌪️ 問題:工場が「知らない土地」に連れて行かれると

しかし、この工場には大きな弱点がありました。

  • 訓練データ(ID): 工場は「ImageNet」という、何百万枚もの一般的な写真で訓練されました。ここでの生産は完璧です。
  • 現実のトラブル(OOD:分布のずれ): しかし、現実世界では、雪が降っている写真、ぼやけた写真、あるいは全く違うスタイルの絵(スケッチ)などが送られてくることがあります。これを**「分布のずれ(Distribution Shift)」**と呼びます。

これまでの常識:
「最終工程(出口)が一番良いはずだ」と信じて、そこで答えを出していました。

この論文の発見:
「いやいや、工場が知らない土地(雪やぼやけ)に連れて行かれると、最終工程はパニックを起こして失敗するんだよ!

  • 最終工程の悲劇: 最終工程は「訓練された一般的な猫」に特化しすぎています。雪に埋もれた猫や、スケッチの猫を見ると、「これは猫じゃない!」と誤って判断してしまいます。
  • 中間工程の活躍: 一方、工場の途中(中間レイヤー)にいる作業員たちは、まだ「猫の耳」や「目」といった基本的な特徴を冷静に捉えています。最終的な「答え」に固執していないため、雪やぼやけがあっても「これは猫の部品だ」と正しく認識できるのです。

結論 1:
「普段は出口(最終レイヤー)が最強だが、雪や嵐(分布のずれ)が起きる時は、工場の途中(中間レイヤー)の方が賢く、頼りになる」


🔍 さらに詳しく:どの「作業員」が優秀か?

研究チームはさらに踏み込んで、工場の各工程の中で**「どの部分の情報を取れば一番良いか」**を調べました。
各工程は大きく分けて 2 つの作業員(モジュール)で構成されています。

  1. 注意を向ける係(アテンション): 「この部分に注目しよう」と情報を整理する人。
  2. 変換する係(フィードフォワード): 情報を複雑に変換・加工する人。

驚きの発見:

  • 最終工程では: 変換された後の「完成品(FC2)」を見るのが普通ですが、これが一番失敗しやすい(情報が圧縮されすぎて、雪の猫の情報が消えてしまう)。
  • 中間工程では: 変換される**「直前の瞬間(活性化関数 Act)」**を見るのが最強でした。
    • これは、**「加工される直前の、最も鮮明でノイズの少ない状態」**を捉えているからです。
    • 特に雪やぼやけがあるような厳しい状況では、この「加工直前の状態」を見るのが最も高い精度を出しました。

結論 2:
「工場の出口(最終レイヤー)の完成品を見るのはやめよう。特に厳しい状況では、中間工程の『加工直前の状態』を見るのが一番賢い選択だ」


💡 私たちへの教訓(まとめ)

この論文が私たちに教えてくれることは、AI を使う際の**「賢い選び方」**です。

  1. 状況を見極めよう:

    • もし画像が綺麗で普通なら、**「最終工程(出口)」**の答えを信じれば OK。
    • もし画像が雪、ぼやけ、スケッチ、あるいは見たことのないスタイルなら、**「中間工程」**の情報を信じるべき。
  2. どこを見るべきか:

    • 中間工程を使う場合、単に「途中の出力」を見るのではなく、**「変換される直前の活性化された状態」**を見るのがベスト。
  3. 安全策:

    • どれくらい状況が悪いか(分布のずれが大きいのか)がわからない場合は、**「レイヤーノーマライズ(LN2)」**という部分を見るのが、最もバランスが良く、失敗が少ない安全策です。

🎯 一言で言うと

**「AI の工場では、嵐の日は『出口』の完成品ではなく、『中間の加工現場』の活気ある状態を見るのが、一番正解に近い」**という、AI 開発の新しい指針が示されました。

これにより、AI が予期せぬ環境(雪や故障、新しいスタイル)でも、より賢く、頑丈に動けるようになります。