Each language version is independently generated for its own context, not a direct translation.

人工知能の「距離」を解き明かす：Distance Explainer の物語

この論文は、人工知能（AI）が「なぜこの画像とあの画像は似ている（あるいは似ていない）と感じるのか？」という謎を解き明かすための新しい道具、「Distance Explainer（距離説明者）」について紹介しています。

AI は、写真や文章を「数字の羅列（埋め込みベクトル）」に変換して理解します。しかし、その数字の世界は人間には見えない「ブラックボックス」です。この論文は、そのブラックボックスの内部で何が起きているかを、**「なぜ A と B は近づくのか、C とは離れるのか？」**という視点から説明できる方法を開発しました。

以下に、難しい専門用語を使わず、身近な例え話で解説します。

1. 従来の AI 説明と、この新しい方法の違い

従来の方法：「一人の天才」を見る

これまでの AI 説明技術（XAI）の多くは、**「この写真を見て、AI は何だと思った？」**という問いに答えるものでした。

例：「この写真を見て、AI は『蜂』だと判断した。なぜなら、羽とストライプが見えるからだ」というように、1 つの答えを導き出すための理由を説明します。

新しい方法：「2 つの人の距離」を見る

この論文の「Distance Explainer」は、**「この写真（A）と、あの写真（B）は、なぜ AI の頭の中では『近しい関係』にあるのか？」**を説明します。

例：「蜂の写真」と「ハエの写真」を AI に見せると、AI は「似ている」と感じます。でも、**「どこが似ていて、どこが違うのか？」**を詳しく教えてくれます。
- 似ている部分： 羽の形（ここが近づけさせる要因）
- 違う部分： 体の縞模様（ここが離れさせる要因）

これを**「距離の解明」**と呼びます。

2. 仕組み：「マスク」を使った探偵ゲーム

この方法がどうやって動くのか、**「探偵が犯人（特徴）を特定するゲーム」**に例えてみましょう。

準備：
- 探偵（AI）には、「比較対象（基準）」となる写真（例：ハエ）と、「調べたい写真」（例：蜂）が渡されます。
- 探偵は、2 枚の写真がどれくらい似ているか（距離）を計算します。
ゲーム開始（マスク）：
- 探偵は、蜂の写真に**「ランダムなシール（マスク）」**を貼ります。シールが貼られた部分は見えなくなります（黒く塗りつぶされます）。
- 「あ、羽の部分が隠れたら、ハエとの距離が急に遠くなったな！」
- 「あ、縞模様が隠れても、距離はあまり変わらないな！」
繰り返しと分析：
- この「シールを貼る→距離を見る」作業を1000 回も繰り返します。
- 「どの部分を隠すと距離が大きく変わるか」を記録します。
- 距離が遠くなる（離れる）部分 ＝蜂とハエを区別する重要な特徴（例：縞模様）。
- 距離が近くなる（近づく）部分 ＝蜂とハエを共通させる特徴（例：羽）。
結果：
- 最終的に、蜂の写真の上に**「赤い色（離れる要因）」と「青い色（近づく要因）」**が描かれたマップが完成します。
- これを見れば、「あ、AI は羽の形を見て『似てる』と言っているんだな」と一目でわかります。

3. なぜこれがすごいのか？（3 つのポイント）

① 何でも比較できる（多様な組み合わせ）

この方法は、**「写真 vs 写真」だけでなく、「写真 vs 文章」**の比較もできます。

例：「蜂の写真」と「『花に座っている蜂』という文章」を AI に見せると、AI は「これらは近い関係だ」と判断します。
Distance Explainer は、「写真のどの部分が、この文章の意味と合致しているのか？」を可視化できます。

② 頑丈で信頼できる（ノイズに強い）

AI の説明は、少しのノイズで結果が変わってしまうことがありますが、この方法は**「鏡（ミラー）モード」**という工夫を取り入れています。

「距離を縮める要因」と「距離を広げる要因」の両方を同時に調べ、互いのノイズを打ち消し合うように計算します。
これにより、**「本当に重要な部分」**だけをくっきりと浮き彫りにします。

③ 透明性が高い（ブラックボックスの解消）

AI が「なぜこの 2 つを似ていると感じたのか」を、人間が直感的に理解できる「画像」として見せてくれます。これにより、AI の判断を信頼しやすくなります。

4. 具体的な実験結果：蜂とハエの例

論文では、**「蜂」と「ハエ」**の画像を使って実験しました。

赤い部分（離れる要因）： 蜂の体の「黒と黄色の縞模様」。これを隠すと、ハエとの距離が離れます（AI は「これは蜂だ」と強く認識するため）。
青い部分（近づく要因）： 「羽」や「小さな体」。これらを隠すと、ハエとの距離が縮まります（共通点が見えなくなるため）。

このように、AI が**「どこを見て似ていると感じ、どこを見て違うと感じているか」**を、色のついたマップとして見せてくれるのです。

5. まとめ：AI と人間の「共通言語」

この「Distance Explainer」は、AI の頭の中にある複雑な「距離の感覚」を、人間にわかる**「地図」**に変えるツールです。

従来の AI： 「これは蜂です！」（答えだけ）
新しい AI： 「これは蜂ですが、ハエとは『羽』は似ていて、『縞模様』が違うので、少し距離がありますよ」（理由と関係性）

この技術は、医療診断（「この病状とあの病状はなぜ似ているのか？」）や、自動運転（「この歩行者とあの歩行者はなぜ危険度が変わるのか？」）など、AI の判断根拠を明確にする必要があるあらゆる分野で、**「AI の透明性」**を高める重要な鍵となるでしょう。

つまり、**「AI の心（距離感）を、人間の目で見えるようにする魔法」**が完成したのです。

Each language version is independently generated for its own context, not a direct translation.

Distance Explainer: 埋め込み空間における距離の説明可能性に関する技術的概要

本論文は、機械学習モデルにおける「埋め込み空間（embedded spaces）」、特に高次元ベクトル空間内でのデータ点間の距離（類似度・非類似度）を解釈可能にするための新しい手法**「Distance Explainer」**を提案するものです。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義

背景: 説明可能な AI（XAI）の分野は画像、テキスト、時系列データなどに対して多くの手法が開発されていますが、深層学習モデルが生成する「埋め込み空間」そのものの解釈性、特に2 つのデータ点間の距離がなぜ生じたのかを局所的に説明する手法は不足しています。
課題: 埋め込み空間の次元は複雑な抽象概念を表しており、従来の XAI 手法（LIME, GradCAM, RISE など）は単一の入力に対するクラス分類や活性化を説明するものであり、2 つの埋め込みベクトル間の「距離」を直接説明するようには設計されていません。
既存手法の限界: 顔認識などの特定ドメイン向けに類似度を説明する手法（S-RISE, CorrRISE）は存在しますが、任意の埋め込み空間やマルチモーダル（画像とテキストなど）に適用できる汎用的な距離説明手法は存在しませんでした。

2. 手法：Distance Explainer

提案手法は、画像分類タスク向けに開発されたサリエンシーマップ手法RISE（Randomized Input Sampling for Explanation）を、埋め込み空間の距離説明用に拡張・改変したものです。

基本的なアプローチ

タスク定義: 2 つの入力（「説明対象 $e$ 」と「参照 $r$ 」）を受け取り、それらの埋め込みベクトル間の距離（例：コサイン距離）を説明します。
マスキングと距離評価:
- 説明対象 $e$ に対して、RISE のようにランダムなバイナリマスクを生成し、画像の一部を隠蔽（マスキング）します。
- マスキングされた画像をモデルに通し、参照 $r$ との新しい距離 $d_i$ を計算します。
距離ランク付けとフィルタリング（核心部分）:
- 従来の RISE はクラススコアを重みとしてマスクを加重平均しますが、距離値は確率分布ではないため、単純な加重平均は不適切です。
- 距離ランク付けフィルタリング: 生成された多数のマスクを、元の距離との変化量（距離が縮小したか拡大したか）に基づいてランク付けします。
- 選択基準:
  - Top-x%: 距離を最も縮小させたマスク（参照と似ている特徴）。
  - Bottom-x%: 距離を最も拡大させたマスク（参照と異なる特徴）。
  - Mirror Mode（鏡像モード）: 上記 2 つのセットを組み合わせ、距離を縮小させたマスクを正、拡大させたマスクを負として加算します。これにより、信号対雑音比（SN 比）が向上し、ノイズが相殺されます。
アトリビューションマップの生成: フィルタリングされたマスクを合計し、どの画素が距離の増減に寄与したかを示す可視化マップを生成します。

技術的改良点

距離指標: ユークリッド距離ではなく、ベクトルの大きさに依存せず角度の違いを重視するコサイン距離を採用（特に ImageNet 分類器の出力に対して有効）。
重み付けの廃止: 距離値の微小な差による重み付けの不安定性を避けるため、重み付け加算ではなく、閾値に基づいたマスクの選別と単純合計を行う方式に変更しました。

3. 主要な貢献

埋め込み空間距離の局所説明手法の提案: 任意の埋め込み空間（画像 - 画像、画像 - テキストなど）における 2 点間の距離を説明する、モダリティに依存しない初の汎用手法を提供。
RISE の拡張と距離ランク付けフィルタリング: クラス確率に依存しない新しいアトリビューション方式（距離ランク付けと Mirror Mode）を考案し、距離ベースのタスクへの適用を可能にした。
多角的な評価: 既存の XAI 評価指標（Faithfulness, Sensitivity/Robustness, Randomization）を用いた定量的評価と、定性的な視覚評価を実施。
パラメータ解析: マスク数、マスキング率、選択閾値などのハイパーパラメータが説明品質に与える影響を体系的に調査し、推奨設定を提示。

4. 実験結果

実験は ImageNet（ResNet50, VGG16）と CLIP（ViT-B/32）モデルを用いて行われました。

定量的評価:
- Faithfulness（忠実性）: 重要な領域を削除すると距離が急激に変化することを確認（Incremental Deletion 試験）。
- Sensitivity/Robustness（感度/頑健性）: 入力に対する感度が低く、安定した結果を得ていることを確認（Average Sensitivity 値は 0.04〜0.06 と低く、高い頑健性を示す）。
- Randomization（ランダム化）: モデルの重みをランダムにシャッフルすると、アトリビューションマップの相関が低下し、手法がモデルの学習パラメータに依存していることを確認（MPRT 試験）。
定性的評価:
- 画像 - 画像: 「蜂 vs ハエ」において、羽は距離を縮小させ（類似）、縞模様は距離を拡大させる（非類似）など、直感的に意味のある特徴を抽出。
- 画像 - テキスト（CLIP）: 「蜂の画像」と「花に座る蜂」というキャプションの距離を説明する際、蜂の画像の適切な部位が強調されるなど、マルチモーダルな説明も可能であることを示した。
パラメータの影響:
- マスク数を増やすと安定性が向上。
- 「Mirror Mode（両側選択）」は片側選択よりもノイズが少なく、信号が明確になる。
- 最適なマスキング率（ $p_{keep}$ ）はデータに依存するが、0.4〜0.6 付近が一般的に良好。

5. 意義と今後の展望

意義: 埋め込み空間の「ブラックボックス」化を解き、AI モデルがなぜ特定のデータ同士を「似ている」または「異なる」と判断したかを人間が理解できる手段を提供します。これにより、研究効率の向上や、医療・科学分野などでの AI への信頼性向上が期待されます。
汎用性: 画像だけでなく、DIANNA などの既存ライブラリと組み合わせることで、テキスト、表形式データ、時系列データへの拡張も容易です。
課題と展望:
- パラメータチューニング（マスク数やフィルタリング基準）の自動化。
- マスキングによる OOD（Out-of-Distribution）入力リスクの低減（学習済みの補完手法の検討）。
- 非専門家に対する説明の可読性を評価するユーザー研究の実施。

本論文は、深層学習における埋め込み空間の解釈性を高めるための重要な一歩であり、XAI 研究の新たな方向性を示すものです。

Explainable embeddings with Distance Explainer