Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が一度も見たことのない『異常』や『欠陥』を、ゼロから見つけ出す方法」**について書かれたものです。

通常、AI に「不良品」や「病変」を教えるには、大量の「不良品の写真」が必要です。しかし、現実世界では「不良品」はめったに現れないため、その写真が手に入らないことが多く、AI の学習が難しいという問題があります。

この論文の著者たちは、**「言葉（テキスト）」と「画像」を結びつける最新の AI（CLIP というモデル）」**を改良し、写真を見なくても「これはおかしい」と判断できる新しい仕組み「WMoE-CLIP」を開発しました。

わかりやすくするために、3 つの工夫を**「スーパーマーケットの品揃えチェック」**という例えで説明します。

1. 従来の問題点：「固定されたマニュアル」の限界

これまでの AI は、**「良い商品」「悪い商品」という決まりきったマニュアル（固定された言葉）**だけを見て判断していました。

問題点: マニュアルが硬すぎて、微妙な傷や複雑な異常パターンに対応しきれません。また、画像の「形」や「色」しか見ていないため、目に見えないような細かい振動や周波数の変化（微妙な欠陥）に気づけません。

2. 新技術「WMoE-CLIP」の 3 つの魔法

この新しい AI は、3 つの特別なスキルを身につけています。

① VAE（変分オートエンコーダ）：「状況に合わせた柔軟なマニュアル作成」

仕組み: 画像全体を見て、「今の状況はどんな感じか？」を学習し、その瞬間に最適な「マニュアル（言葉）」をその都度作り変えます。
例え: 従来の AI が「りんごは赤くて丸い」という固定されたマニュアルを持つのに対し、この AI は「今日は雨でりんごが濡れているから、少し色が変わっているかも」とその場の状況に合わせてマニュアルを書き換えることができます。これにより、どんな種類の「不良」にも柔軟に対応できるようになります。

② ウェーブレット分解：「顕微鏡とラジオの合体」

仕組み: 画像を「波（ウェーブレット）」に分解して、低周波（全体像）だけでなく、高周波（細かいノイズや微細な傷）まで捉えます。
例え: 普通のカメラは「全体像」しか見ませんが、この AI は**「顕微鏡」のように微細な傷を見つめつつ、「ラジオ」**のように画像の「振動（周波数）」まで聞き取ります。
- 例：表面はきれいなように見えても、内部に「ひび」が入っているような、目に見えない微妙な異常を、音波のように捉えて「おかしい」と判断します。

③ 専門家のチーム（Mixture-of-Experts）：「多様な視点を持つ審査員」

仕組み: 1 人の審査員ではなく、複数の「専門家（エキスパート）」をチームにして、それぞれが得意とする視点（文脈）から情報を集め、最も確実な答えを出します。
例え: 1 人の審査員が「これは傷がある！」と判断するだけでなく、「形のプロ」「色のプロ」「質感のプロ」という複数の審査員が会議を開き、「確かに形は変だが、質感は正常だ。でも、この文脈（周囲の状況）を考えると、これは異常だ」と知恵を絞って結論を出します。これにより、誤判定を防ぎ、より正確に異常を見つけられます。

3. 結果：どんな分野でも活躍

この AI は、**工業製品（金属の傷、ボトルの割れなど）から医療画像（脳の腫瘍、皮膚の病変など）**まで、14 種類の異なるデータセットでテストされました。

結果: 既存の最高峰の AI たちよりも、「見落とし」が少なく、「誤検知」も少ないという素晴らしい成績を収めました。
特に医療分野: 患者のデータはプライバシーの問題で集めにくいですが、この AI は「見たことのない病変」でも、言葉と画像の知識を組み合わせることで、高い精度で発見できました。

まとめ

この論文は、**「固定されたマニュアルに頼らず、状況に合わせて言葉を変え、画像の微細な振動まで聞き取り、複数の専門家チームで判断する」**という新しい AI の仕組みを提案しています。

これにより、**「不良品や病気のデータがほとんどない状況」**でも、AI が自力で「ここがおかしいよ！」と見つけ出すことが可能になり、工場や病院での品質管理・診断を大きく進歩させる可能性があります。

Each language version is independently generated for its own context, not a direct translation.

論文要約：WMOE-CLIP（ゼロショット異常検出のためのウェーブレット強化混合エキスパート・プロンプト学習）

本論文は、ゼロショット異常検出（ZSAD: Zero-Shot Anomaly Detection）の課題を解決するため、視覚言語モデル（CLIP）を基盤とした新しい手法**「WMoE-CLIP」**を提案するものです。産業および医療分野における未知の異常を検出する能力を大幅に向上させることを目的としています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 背景と問題定義

異常検出は、工業製品や医療画像など多様な分野で重要ですが、異常サンプルの不足やプライバシー制約により、従来の教師あり学習や教師なし学習には限界があります。ゼロショット学習（ZSAD）は、補助データセットを用いて未知の異常を検出するアプローチとして注目されていますが、既存の手法には以下の 2 つの重大な課題がありました。

固定されたテキストプロンプトの限界: 既存手法（WinCLIP や AnomalyCLIP など）は、固定されたテキストプロンプトや単純な学習可能プロンプトに依存しており、複雑な意味情報を捉えきれず、制約された意味空間内で過学習を起こしやすい。
空間情報のみの依存: 既存手法は主に空間ドメイン（画像のピクセル配置）のみに焦点を当てており、微妙な欠陥や高周波成分を含む詳細な異常を検出する能力が不足している。

2. 提案手法：WMoE-CLIP

提案手法は、CLIP モデルを基盤としつつ、以下の 3 つの主要コンポーネントを組み合わせて画像とテキストの表現を強化します。

A. クラストークン分布サンプリング (CTDS: Class Token Distribution Sampling)

目的: 画像固有の視覚的文脈に適応可能なプロンプトを生成する。
仕組み:
- 画像エンコーダから得られるグローバルなクラストークン（ $x_c$ ）を、変分オートエンコーダ（VAE）を用いて潜在空間でモデル化します。
- 平均（ $\mu$ ）と分散（ $\sigma$ ）を学習し、再パラメータ化トリックを用いて潜在変数をサンプリングします。
- このサンプリングされた表現を、学習可能なベクトル（例：「良い写真」「損傷した写真」の文脈）と融合させ、動的にプロンプトを生成します。
- これにより、多様な異常パターンに対する適応性を高めています。

B. ウェーブレット強化クロスモーダルアテンション (WCMA: Wavelet-Enhanced Cross-Modal Attention)

目的: 微妙な異常を検出するために、高周波成分を捉えた画像特徴をテキスト埋め込みと統合する。
仕組み:
- 入力画像をハールウェーブレット変換を用いて分解し、低周波成分（全体構造）と高周波成分（水平、垂直、対角方向の詳細）に分割します。
- 高周波成分を強調し、クロスアテンション機構を通じてテキスト埋め込みを動的に洗練させます。
- これにより、空間情報だけでなく周波数領域の情報も活用し、微細な欠陥の検出能力を向上させます。

C. 意味認識型混合エキスパート (SA-MoE: Semantic-Aware Mixture-of-Experts)

目的: 文脈情報を集約し、より信頼性の高い異常スコアを算出する。
仕組み:
- 複数のレイヤから抽出されたパッチ特徴をアダプタで統合し、文脈表現を生成します。
- ルーティングゲート（Router）が、入力文脈に基づいて最適な「エキスパート（Expert）」ネットワークを選択・活性化します（Top-k 選択）。
- 選択されたエキスパートの出力を重み付けして集約し、グローバルな意味情報を強化した特徴量としてクラストークンに統合します。

3. 主要な貢献

WMoE-CLIP の提案: 画像 - テキスト相互作用を強化し、ゼロショット異常検出の精度と汎化性能を向上させる新しい CLIP ベースの手法を提案しました。
多角的な特徴統合:
- VAE を用いたグローバル特徴分布のモデル化と、周波数領域特徴の導入によるクロスモーダル相互作用の強化。
- 文脈的な意味情報を集約する「意味認識型混合エキスパート」モジュールの導入。
広範な実験による実証: 産業用（MVTec-AD, VisA など）および医療用（HeadCT, BrainMRI など）の 14 種類のデータセットで実験を行い、最先端（SOTA）の性能を達成しました。

4. 実験結果

データセット: 6 つの工業用データセットと 8 つの医療用データセット（計 14 種類）で評価。
比較対象: WinCLIP, CLIP-AD, AnomalyCLIP, AdaCLIP, AA-CLIP などの既存 SOTA 手法。
性能:
- 工業データ: MVTec-AD において画像レベルの AUROC が 92.4%、VisA で 87.3% を記録し、AA-CLIP などの既存手法を上回りました（MVTec-AD で 1.9%、VisA で 2.7% 向上）。
- 医療データ: HeadCT や BrainMRI などの 8 つの医療データセットでも、画像レベルおよびピクセルレベルの両方で SOTA を達成しました。
- 局所化精度: 困難な医療シナリオにおいても、異常の位置を正確に特定できることが視覚的に確認されました。
アブレーション研究: 各モジュール（CTDS, WCMA, SA-MoE）を順次追加することで、性能が段階的に向上することが確認されました。

5. 意義と結論

本論文は、ゼロショット異常検出において、**「固定されたプロンプトの限界」と「空間情報のみの依存」**という 2 つのボトルネックを克服しました。

技術的意義: ウェーブレット変換による周波数情報の活用と、VAE・MoE を組み合わせた適応的プロンプト学習は、視覚言語モデルの異常検出タスクへの応用において新しい方向性を示しています。
実用性: 産業現場（新品ラインの欠陥検出）や医療現場（希少疾患やプライバシー制約のあるデータ）において、ラベル付けされた異常データが不足している状況でも、高い汎化性能で異常を検出できる可能性があります。

結論として、WMoE-CLIP は、画像とテキストの対話を深め、周波数領域と文脈情報を効果的に統合することで、未知の異常に対する検出能力を飛躍的に向上させる画期的な手法です。

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection