Each language version is independently generated for its own context, not a direct translation.

🎨 タイトル：「AI の『知らないもの』を見分けるコツ：言葉と絵の『距離感』を揃えよう」

1. 背景：AI の「自信過剰」な問題

現代の AI（特に画像認識 AI）は、訓練データにない「未知のもの」を見せると、「これは私が知っている『猫』だ！」と自信満々に間違えてしまうことがあります。
例えば、自動運転車が「未知の奇妙な生き物」を「猫」と誤認して急停止したり、医療 AI が「未知の病気」を「正常」と判断したりするのは、非常に危険です。これを防ぐのが**「OOD 検出（Out-of-Distribution Detection）」**という技術です。

2. 既存の課題：「バラバラなルール」で迷走していた

最近、CLIP（クリップ） という「絵と言語を結びつける天才 AI」を使って、この問題を解決しようとする研究が増えています。
しかし、既存の手法には大きな**「矛盾」**がありました。

CLIP の得意なこと： 「絵」と「言葉」を結びつけること（例：猫の絵と「猫」という文字は近い、と学習する）。
既存手法のやり方： 「言葉と言葉」の距離や「絵と絵」の距離だけで判断していた。

🍎 例え話：
CLIP は「リンゴの絵」と「リンゴという文字」が似ていることを学んでいます。
でも、既存の手法は、「リンゴの絵」と「ミカンの文字」を比べて、「似ていないから未知のものだ！」と判断しようとしていました。
でも、実は「リンゴの絵」と「ミカンの文字」は、意外に似ている（距離が近い）場合があるんです。
「絵と言語の距離感（CLIP の得意分野）」と、「言葉と言語の距離感（既存手法のやり方）」がズレているため、AI が混乱して、本来知っているもの（ID）を「未知のもの」と誤って排除したり、逆に未知のものを「知っている」と誤認したりしていました。

3. 解決策：InterNeg（インターネグ）の登場

この論文の著者たちは、**「ルールを統一しよう！」と提案しました。
新しい手法「InterNeg」は、CLIP が最も得意とする「絵と言語の距離」**という共通のルールで、未知のものを見分けます。

✨ 2 つの工夫：

① 言葉の選び方（テキスト側）：
「未知の言葉（ネガティブなラベル）」を選ぶ際、ただ「似ていない言葉」を選ぶのではなく、**「CLIP が『絵と言語』で見たときに、どれほど遠い距離にあるか」**を基準に選びます。

例：「猫の絵」に対して、「犬」という言葉は遠いですが、「リンゴ」という言葉はもっと遠いかもしれません。この「絵と言語の距離」を正しく測って、最も遠い言葉（未知の候補）を厳選します。

② 画像の逆転利用（ビジュアル側）：
「これは間違いなく未知のものだ！」と AI が自信を持って判断した画像（高信頼度の OOD 画像）を見つけます。そして、その画像を**「逆転」させて、「その画像を表すような、未知の言葉」**を AI に生成させます。

例：見知らぬ生き物の画像を見て、「これは『未知の生物』だ！」と判断したら、その画像から「未知の生物」という意味を持つ新しい言葉（テキスト埋め込み） を作り出し、それを「未知のリスト」に追加します。
さらに、ノイズ（間違い）が入らないよう、**「本当に未知の言葉か？」**を「絵と言語の距離」で厳しくチェックするフィルターも設置しました。

4. 結果：圧倒的な性能向上

この「一貫した距離感」を重視した InterNeg は、多くのテストで**世界最高レベル（State-of-the-Art）**の成績を収めました。

ImageNet（大規模画像データ）： 誤検知を大幅に減らし、精度を向上。
Near-OOD（似ている未知のもの）： 非常に難しいケースでも、他を凌駕する性能を発揮。

🌟 まとめ：なぜこれがすごいのか？

これまでの AI は、「絵」と「言葉」を別々のルールで判断して混乱していました。
InterNeg は、**「絵と言語は、実は同じ『距離感』で繋がっている」**という CLIP の本質的な特性を最大限に活用しました。

既存手法： 「言葉同士」や「絵同士」だけで判断する、バラバラなルール。
InterNeg： 「絵と言語」の距離で判断する、統一されたルール。

まるで、**「翻訳機を使わずに、直接相手の言語で会話する」**ように、AI が視覚と言語を自然に統合して判断できるようになったのです。これにより、AI はより安全に、より正確に「知らないもの」を見分けられるようになり、自動運転や医療診断などの重要な現場での信頼性が高まることが期待されます。

Each language version is independently generated for its own context, not a direct translation.

論文「Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs」の技術的サマリー

本論文は、視覚言語モデル（VLM、特に CLIP）を用いた分布外（OOD: Out-of-Distribution）検出における既存手法の根本的な課題を指摘し、それを解決する新しいフレームワーク**「InterNeg」**を提案する研究です。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 問題定義と背景

背景: OOD 検出は、未知のクラスからのサンプルを特定し、信頼性の高い AI システムを構築するために不可欠です。近年、CLIP などの VLM が持つマルチモーダルな知識を活用した OOD 検出が注目されています。
既存手法の課題: 既存の手法（例：NegLabel, AdaNeg など）は、OOD 検出のスコアリングにおいて**「単一モダリティ内距離（Intra-modal distance）」**（テキスト - テキスト間や画像 - 画像間の距離）に基づいてネガティブテキストを選択・利用する傾向があります。
- 具体的には、ID（在分布）ラベルとネガティブテキストのテキスト空間での距離、またはテスト画像と画像プロキシの画像空間での距離を比較します。
本質的な矛盾: CLIP などの VLM は、「クロスモダリティ距離（Inter-modal distance）」（画像とテキストの間の距離）を最適化するように事前学習されています。
- 既存手法のように「テキスト同士」や「画像同士」の距離を重視する設計は、CLIP の最適化目的（画像 - テキストの整合性）と**不一致（Inconsistency）**を生じさせます。
- この不一致により、ID サンプルが誤って OOD と判定される（ID 誤分類）などのパフォーマンス低下を招く可能性があります。

2. 提案手法：InterNeg

著者は、OOD 検出において**「クロスモダリティ距離の一貫性」**を維持するフレームワーク「InterNeg」を提案しました。この手法は、ID データや追加データでの学習を必要とせず（Zero-shot）、テキストと画像の両方の視点から一貫した距離を利用します。

2.1 テキスト視点：クロスモダリティ誘導ネガティブテキスト選択

既存手法はテキスト空間内での距離でネガティブテキストを選びますが、InterNeg は以下の手順で画像 - テキスト間の距離に基づいて選択します。

ID 画像プロキシの作成: 各 ID クラスからランダムにサンプリングした画像を CLIP の画像エンコーダに通し、クラスごとの平均埋め込み（画像プロキシ $p_i$ ）を生成します。
ベース距離の定義: 各 ID クラスのテキストプロキシ（ $e_i$ ）と画像プロキシ（ $p_i$ ）間の距離（ $d_i^{base}$ ）を計算します。
ネガティブテキストの選定: 大規模な語彙コーパス（WordNet など）から候補となるテキストを選び、それがすべての ID クラスの画像プロキシに対して、ベース距離よりも大きいクロスモダリティ距離を持つものを「クロスモダリティ誘導ネガティブテキスト」として選択します。
- これにより、選択されたネガティブテキストは、ID 画像とテキストのペアに対して明確に区別されるようになります。

2.2 画像視点：クロスモダリティ誘導追加ネガティブ埋め込み生成

推論段階において、高信頼度の OOD 画像をテキスト空間に変換し、追加のネガティブ埋め込みを生成します。

高信頼度 OOD 画像の特定: 既存のスコア関数を用いて、OOD である可能性が高い画像（閾値 $\beta$ 以下）を特定します。
モダリティ反転（Modality Inversion）: 特定された OOD 画像を、テキストエンコーダの逆方向（画像からテキストへ）に変換します。具体的には、擬似トークンを最適化し、画像埋め込みとテキスト埋め込みの間の距離を最小化することで、画像に対応する「追加ネガティブテキスト埋め込み（ $e_v^-$ ）」を生成します。
動的フィルタリング: 固定閾値によるノイズ混入を防ぐため、生成された追加埋め込みに対しても、前述の「クロスモダリティ誘導」基準（すべての ID クラスの画像プロキシとの距離がベース距離より大きいこと）を適用し、条件を満たすもののみを保持します。また、最大数 $K$ に制限し、最も識別能力が高い（偏差度が大きい）上位 $K$ 個のみを選択します。

3. 主要な貢献

矛盾の発見: OOD 検出における「単一モダリティ内距離」の使用と、CLIP 型 VLM の最適化対象である「クロスモダリティ距離」の間の不一致が、性能低下の原因となることを初めて明らかにしました。
InterNeg の提案: 学習データを必要とせず、テキスト視点と画像視点の両方からクロスモダリティ距離の一貫性を活用するシンプルかつ効果的な手法を提案しました。
SOTA 性能の実証: 複数のベンチマークで最先端（State-of-the-Art）の性能を達成し、その有効性と頑健性を検証しました。

4. 実験結果

大規模な ImageNet-1K ベンチマークおよび OpenOOD ベンチマークを用いた実験結果は以下の通りです。

Four-OOD ベンチマーク（ImageNet-1K）:
- 既存の最良手法（AdaNeg など）と比較して、FPR95（95% 真陽性率における偽陽性率）が 3.47% 改善、AUROC が 0.77% 向上しました。
- 具体的には、InterNeg は FPR95 で 0.40%、AUROC で 97.43% を達成し、他手法を凌駕しました。
Near-OOD ベンチマーク（OpenOOD）:
- 難易度の高い Near-OOD 設定において、FPR95 が 2.09% 減少、AUROC が 5.50% 向上しました。
- これは、学習を必要とする手法と比較しても競争力のある性能を示しています。
アブレーション研究:
- 「クロスモダリティ誘導ネガティブテキスト（Inter SNT）」と「クロスモダリティ誘導追加埋め込み（Inter ENT）」の両方を組み合わせることで、最も高い性能が得られることが確認されました。
- 単一モダリティ距離に基づく手法との比較でも、提案手法の優位性が明確に示されました。
頑健性:
- ID/OOD データの比率が極端に偏った場合でも、提案手法は安定した性能を維持しました。
- 異なる CLIP アーキテクチャ（ResNet, ViT など）やドメイン適応シナリオにおいても有効であることが確認されました。

5. 意義と結論

本論文は、VLM を用いた OOD 検出において、**「モデルが最適化された距離指標（クロスモダリティ距離）と、検出タスクで利用する距離指標の整合性」**が極めて重要であることを示しました。

理論的意義: 単にネガティブサンプルを増やすだけでなく、VLM の事前学習の性質（画像とテキストの対照的学習）に合致したネガティブサンプルの選択・生成が、性能向上の鍵であることを明らかにしました。
実用的意義: 追加の学習データや ID データでの微調整を必要とせず、少量の ID サンプル（クラスあたり数枚）のプロキシ計算のみで、高い精度の OOD 検出を実現できるため、実世界への展開可能性が高いです。

InterNeg は、VLM の能力を最大限に引き出すための新しいパラダイムを提供し、信頼性の高い AI システム構築に寄与する重要な研究と言えます。

Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs