Each language version is independently generated for its own context, not a direct translation.

この論文「TokenCLIP」は、**「AI が、見慣れない物体の『傷』や『異常』を、ゼロからゼロで（学習なしで）見つける」**という技術について書かれています。

これを、難しい専門用語を使わずに、**「優秀な検査員チーム」**の物語として説明しましょう。

1. 今までの問題点：「一人の検査員が全員を担当する」

これまでの AI（CLIP という技術を使ったもの）は、画像の異常を検知する際、**「1 人の万能な検査員」**に頼っていました。

状況: 工場には、カールしたネジ、割れたガラス、シミのある布など、あらゆる種類の「異常」があります。
問題: この 1 人の検査員は、すべての異常を「1 つの基準」で判断しようとします。
- 「ネジの曲がり」も「布のシミ」も「脳の腫瘍」も、すべて同じ言葉（テキスト）で説明しようとするのです。
- 結果: 検査員は混乱します。「ネジの曲がり」を説明する言葉と「布のシミ」を説明する言葉は違うのに、無理やり同じ基準で判断しようとするため、「よくある異常」は見つけられるけれど、「珍しい異常」や「細かい傷」を見逃してしまうという弱点がありました。

2. TokenCLIP のアイデア：「専門家のチーム」を組む

この論文が提案するTokenCLIPは、この問題を解決するために、「1 人の万能な検査員」を、「専門分野が異なる複数の検査員（チーム）」に変えました。

チームの構成:
- 「背景（壁や空）の専門家」
- 「物体の形（ネジや瓶）の専門家」
- 「表面の質感（ひび割れや傷）の専門家」
- など、いくつかの**「専門分野（テキストのサブスペース）」**を用意します。

3. 仕組み：「最適な配属」を行う交通整理

ここで重要なのが、**「どの検査員が、画像のどの部分を見るべきか」**を決める仕組みです。

従来の方法: 画像のすべての部分を、全員で同時にチェックする（非効率で、専門性が薄れる）。
TokenCLIP の方法（OT: 最適輸送）:
- 画像を小さなパズルのような「ピース（トークン）」に分割します。
- AI が交通整理役（OT アルゴリズム）になって、「このピースは『ネジの専門家』が見るべきだ」「あのピースは『背景の専門家』が見るべきだ」と、瞬時に最適な組み合わせを決めます。
- さらに、**「トップ 3 だけ」**というルールを設け、関係のない専門家は参加させないことで、判断を鋭くしています。

【わかりやすい例え】

画像: 割れた窓ガラスの画像。
従来の AI: 「ガラスが割れている」という 1 つの言葉で全体を判断しようとする。
TokenCLIP:
- 「窓枠（背景）」の部分は、**「背景の専門家」**が見る。
- 「ガラスのひび割れ（異常）」の部分は、**「傷の専門家」**が見る。
- 「ガラスの輝き（質感）」の部分は、**「質感の専門家」**が見る。
- 各自が自分の得意分野だけを集中してチェックし、最後に結果をまとめて「ここが異常です！」と報告します。

4. なぜこれがすごいのか？

細かな異常まで見逃さない: 専門家が自分の得意分野に集中するため、小さな傷や珍しい異常でも見つけやすくなります。
計算コストを抑えている: 「1 枚の画像につき、1 人ずつ新しい検査員を作る」のは大変すぎます（計算量が膨大になる）。TokenCLIP は「決まった数の専門家チーム」を柔軟に組み合わせて使うだけなので、効率的です。
医療や工業でも使える: 工業製品の傷だけでなく、脳画像の腫瘍や皮膚の病変など、全く異なる分野の「見慣れない異常」でも高い精度を発揮しました。

まとめ

この論文は、**「AI に『何でも屋』をやらせるのではなく、『得意分野を持ったチーム』を組ませて、画像の細かな部分ごとに最適な専門家を選り抜いてチェックさせる」**という新しい方法を提案しました。

まるで、**「1 人の天才医師がすべての病気を診断する」のではなく、「内科医、外科医、皮膚科医がチームを組んで、患者の体の各部分を専門的に診察する」**ようなイメージです。これにより、これまで見逃されていた「微妙な異常」や「見慣れない病気」を、AI がゼロからでも見つけられるようになったのです。

Each language version is independently generated for its own context, not a direct translation.

TokenCLIP: ゼロショット異常検出のためのトークン単位のプラーミング学習（技術要約）

本論文「TokenCLIP」は、CLIP（Contrastive Language-Image Pre-training）モデルをゼロショット異常検出（ZSAD: Zero-Shot Anomaly Detection）に応用する際の問題点を指摘し、トークン単位の動的アライメントを実現する新しいフレームワークを提案しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 背景と問題定義

背景

基礎モデル（Foundation Models）の発展により、CLIP を用いたゼロショット異常検出が注目されています。既存の手法（AnomalyCLIP など）は、学習可能なテキストプロンプトや手動プロンプトを用いて、視覚特徴とテキスト空間をアライメントすることで異常を検出します。

既存手法の課題：「無差別なアライメント（Indiscriminate Alignment）」

既存の多くの手法は、画像内のすべての視覚トークン（パッチ）に対して、単一のテキスト空間でアライメントを行います。

問題点: 異なる視覚的意味を持つトークン（例：物体の前景、背景、特定の欠陥部分）を、すべて同じテキスト空間に無理やり対応させるため、モデルは「一般的な異常」に偏り、「稀な異常」や「微細な異常」のセマンティクスを正確に捉えられなくなります。
結果: 検出精度、特に微細な異常の検出において性能が制限されます。

既存のアプローチの限界

各視覚トークンに個別のテキスト埋め込み空間を割り当てることは理想的ですが、以下の理由で非現実的です。

計算コスト: 画像 1 枚あたり数千のトークンが存在するため、それぞれに個別のテキストエンコーダを実行するのは計算量が膨大です。
過小適合: トークン固有の埋め込みはトレーニング中に一度しか更新されないため、十分な最適化がなされず、性能が低下します。

2. 提案手法：TokenCLIP

TokenCLIP は、単一のテキスト空間ではなく、**複数の直交するテキスト部分空間（Orthogonal Textual Subspaces）**を動的に組み合わせることで、トークンレベルの微細なアライメントを実現します。

主要な構成要素

2.1 マルチヘッドテキストプロンプト学習

グローバル・ローカル分離: 画像レベルの異常（全体像）とピクセルレベルの異常（局所的な欠陥）をそれぞれ学習するために、独立した学習可能プロンプト（グローバル用とピクセル用）を導入します。
ベース空間の構築: これらのプロンプトを結合し、MLP を通じて「ベーステキスト空間」を形成します。
直交部分空間への展開: ベース空間をマルチヘッド投影（Multi-head projection）を用いて複数の直交する部分空間（ $Q$ $Q$ 個）に展開します。これにより、異なるセマンティクス（例：物体、背景、特定の欠陥タイプ）をそれぞれ異なる部分空間で表現できるようにします。
- 部分空間間の冗長性を防ぐため、**直交正則化（Orthogonality Regularization）**を適用します。

2.2 最適輸送（Optimal Transport: OT）による動的アライメント

各視覚トークンをどのテキスト部分空間に割り当てるかを決定する核心メカニズムです。

OT 問題の定式化:
- 視覚トークン（ソース分布）とテキスト部分空間（ターゲット分布）の間の対応関係を、**最適輸送（OT）**問題として定式化します。
- コスト行列には視覚トークンとテキスト部分空間の余弦類似度（距離）を使用します。
目的関数の効果:
- マージナル制約（Marginal Constraint）: すべてのテキスト部分空間が十分に最適化されることを保証します。
- 最小コスト目的: 各部分空間が異なるセマンティクスに特化（Specialization）することを促します。理論的に、異なるクラスタ（視覚領域）を同じ部分空間に混ぜるとコストが増大するため、部分空間は自然に特定のセマンティクスに特化します。
スパース化（Top-K Masking）:
- 計算効率と特化の明確化のため、OT によって得られた輸送計画（Transport Plan）から、各トークンに対して上位 K 個の部分空間のみを選択し、それ以外をゼロにします（スパース化）。
- 選択された重みを正規化し、最終的なアライメント重みとして使用します。

2.3 学習と推論

損失関数: グローバル損失、ベース局所損失、動的アライメント損失、ヒンジ損失（正常・異常の分離）、直交正則化項を組み合わせ、エンドツーエンドで学習します。
推論: 画像レベルの異常スコアとピクセルレベルのセグメンテーションを同時に出力します。ピクセルレベルのスコアは、無差別アライメントと動的アライメントの結果を統合して算出します。

3. 主要な貢献

トークン単位のセマンティクス認識アライメント:
既存の「無差別アライメント」の限界を明らかにし、各視覚トークンに対して、セマンティクスを考慮した重み付きテキスト部分空間の組み合わせを動的に割り当てるフレームワークを提案しました。
最適輸送（OT）の応用:
トークンと直交テキスト部分空間の動的アライメントを OT 問題として定式化しました。これにより、部分空間の十分な最適化と、セマンティクス別の特化を数学的に保証しています。また、Top-K 選択により計算効率を維持しつつ、明確な対応関係を構築しています。
広範な実験による有効性の証明:
産業分野（MVTec AD, VisA など）および医療分野（脳 MRI, 皮膚病変など）の多様なベンチマークで、既存の最先端手法（SOTA）を上回る性能を示しました。

4. 実験結果

産業異常検出（Industrial Domain）

MVTec AD: ピクセルレベルの AUROC で 92.2、PRO で 87.9 を達成し、AnomalyCLIP（91.1 / 81.4）を大幅に上回りました。特に PRO（Precision-Recall Operating Characteristic）の向上は、微細な異常検出能力の向上を示唆しています。
VisA, MPDD, BTAD 他: ほぼすべてのデータセットで SOTA を更新し、画像レベルおよびピクセルレベルの両方で高い性能を示しました。

医療異常検出（Medical Domain）

ゼロショット転移性能: 産業データ（MVTec AD）で学習したモデルを医療データ（HeadCT, BrainMRI, ISIC など）に直接適用したところ、既存手法を凌駕する性能を発揮しました。
ISIC データセット: AUROC 91.6、PRO 83.4 を記録し、2 位との差を明確に引き離しました。これは、TokenCLIP が「一般的な異常セマンティクス」を汎用的に捉えていることを示しています。

計算コスト

TokenCLIP は、各トークンに個別のテキスト空間を割り当てるのではなく、少数の部分空間を組み合わせるため、計算オーバーヘッドは AnomalyCLIP と比較してわずかな増加（推論時間 +0.021 秒、GPU メモリ +951MB）に留まっています。
複数のプロンプトを学習する FAPrompt に比べ、メモリ使用量と推論時間が大幅に削減されています。

5. 考察と意義

部分空間の特化性: 可視化実験により、学習されたテキスト部分空間が明確に役割分担していることが確認されました。
- ある部分空間は「物体の前景（Foreground）」や「変化する領域」に特化。
- 他の部分空間は「背景（Background）」や「均一なテクスチャ」に特化。
- OT を用いない場合や直交正則化がない場合は、この特化性が弱まり、性能が低下することが示されました。
OT の重要性: 単なるコサイン類似度による貪欲な選択（TokenCLIP-Van）ではなく、OT による大域的な最適化が、部分空間の適切な分担と特化を促し、精度向上に不可欠であることが証明されました。

結論

TokenCLIP は、CLIP ベースのゼロショット異常検出において、単一のテキスト空間に依存する従来の限界を打破しました。最適輸送理論を活用した動的アライメントにより、画像内の多様な領域に対して適応的で微細なテキスト監督を提供し、産業および医療分野における高精度な異常検出を実現しました。このアプローチは、ゼロショット学習における「文脈に応じた適応」の新しいパラダイムを示すものとして意義深いです。

TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection