Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

本論文は、CLIP などの VLM が最適化するモダリティ間距離との一貫性を欠く既存の OOD 検出手法の課題を解決するため、負のテキスト選択と視覚情報のテキスト空間への変換を通じてモダリティ間距離の一貫性を追求する新しいフレームワーク「InterNeg」を提案し、ImageNet や Near-OOD などの大規模ベンチマークで最先端の性能を達成したことを示しています。

Zhikang Xu, Qianqian Xu, Zitai Wang, Cong Hua, Sicong Li, Zhiyong Yang, Qingming Huang

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎨 タイトル:「AI の『知らないもの』を見分けるコツ:言葉と絵の『距離感』を揃えよう」

1. 背景:AI の「自信過剰」な問題

現代の AI(特に画像認識 AI)は、訓練データにない「未知のもの」を見せると、「これは私が知っている『猫』だ!」と自信満々に間違えてしまうことがあります。
例えば、自動運転車が「未知の奇妙な生き物」を「猫」と誤認して急停止したり、医療 AI が「未知の病気」を「正常」と判断したりするのは、非常に危険です。これを防ぐのが**「OOD 検出(Out-of-Distribution Detection)」**という技術です。

2. 既存の課題:「バラバラなルール」で迷走していた

最近、CLIP(クリップ) という「絵と言語を結びつける天才 AI」を使って、この問題を解決しようとする研究が増えています。
しかし、既存の手法には大きな**「矛盾」**がありました。

  • CLIP の得意なこと: 「絵」と「言葉」を結びつけること(例:猫の絵と「猫」という文字は近い、と学習する)。
  • 既存手法のやり方: 「言葉と言葉」の距離や「絵と絵」の距離だけで判断していた。

🍎 例え話:
CLIP は「リンゴの絵」と「リンゴという文字」が似ていることを学んでいます。
でも、既存の手法は、「リンゴの絵」と「ミカンの文字」を比べて、「似ていないから未知のものだ!」と判断しようとしていました。
でも、実は「リンゴの絵」と「ミカンの文字」は、意外に似ている(距離が近い)場合があるんです。
「絵と言語の距離感(CLIP の得意分野)」と、「言葉と言語の距離感(既存手法のやり方)」がズレているため、AI が混乱して、本来知っているもの(ID)を「未知のもの」と誤って排除したり、逆に未知のものを「知っている」と誤認したりしていました。

3. 解決策:InterNeg(インターネグ)の登場

この論文の著者たちは、**「ルールを統一しよう!」と提案しました。
新しい手法
「InterNeg」は、CLIP が最も得意とする「絵と言語の距離」**という共通のルールで、未知のものを見分けます。

✨ 2 つの工夫:

① 言葉の選び方(テキスト側):
「未知の言葉(ネガティブなラベル)」を選ぶ際、ただ「似ていない言葉」を選ぶのではなく、**「CLIP が『絵と言語』で見たときに、どれほど遠い距離にあるか」**を基準に選びます。

  • 例: 「猫の絵」に対して、「犬」という言葉は遠いですが、「リンゴ」という言葉はもっと遠いかもしれません。この「絵と言語の距離」を正しく測って、最も遠い言葉(未知の候補)を厳選します。

② 画像の逆転利用(ビジュアル側):
「これは間違いなく未知のものだ!」と AI が自信を持って判断した画像(高信頼度の OOD 画像)を見つけます。そして、その画像を**「逆転」させて、「その画像を表すような、未知の言葉」**を AI に生成させます。

  • 例: 見知らぬ生き物の画像を見て、「これは『未知の生物』だ!」と判断したら、その画像から「未知の生物」という意味を持つ新しい言葉(テキスト埋め込み) を作り出し、それを「未知のリスト」に追加します。
  • さらに、ノイズ(間違い)が入らないよう、**「本当に未知の言葉か?」**を「絵と言語の距離」で厳しくチェックするフィルターも設置しました。

4. 結果:圧倒的な性能向上

この「一貫した距離感」を重視した InterNeg は、多くのテストで**世界最高レベル(State-of-the-Art)**の成績を収めました。

  • ImageNet(大規模画像データ): 誤検知を大幅に減らし、精度を向上。
  • Near-OOD(似ている未知のもの): 非常に難しいケースでも、他を凌駕する性能を発揮。

🌟 まとめ:なぜこれがすごいのか?

これまでの AI は、「絵」と「言葉」を別々のルールで判断して混乱していました。
InterNeg は、**「絵と言語は、実は同じ『距離感』で繋がっている」**という CLIP の本質的な特性を最大限に活用しました。

  • 既存手法: 「言葉同士」や「絵同士」だけで判断する、バラバラなルール。
  • InterNeg: 「絵と言語」の距離で判断する、統一されたルール

まるで、**「翻訳機を使わずに、直接相手の言語で会話する」**ように、AI が視覚と言語を自然に統合して判断できるようになったのです。これにより、AI はより安全に、より正確に「知らないもの」を見分けられるようになり、自動運転や医療診断などの重要な現場での信頼性が高まることが期待されます。