Each language version is independently generated for its own context, not a direct translation.

画像と言語の「天才」が嘘をつく瞬間を見抜く方法

～AI の「自信」と「知識不足」を測る新しい目～

皆さん、最近の「AI（人工知能）」はすごいですよね。写真を見て「これは猫だ！」と言ったり、複雑な質問に答えたりします。でも、この AI にはある「癖」があります。時には**「ありえない嘘（幻覚）」をついたり、「悪意のある質問」に答えちゃったり、「見たことのない画像」**に戸惑ったりするのです。

この論文は、そんな AI の「ミステイク（誤動作）」を、**「AI がどれくらい自信を持っているか」ではなく、「AI の頭の中で何が起きているか」**を詳しく分析することで見抜く新しい方法を紹介しています。

1. 問題：AI は「自信満々」な嘘をつく

AI が間違うとき、私たちは「あ、間違えた」と気づきにくいことがあります。なぜなら、AI は**「自信ありげな口調」**で嘘をつくからです。

例 1（幻覚）： 写真に「金魚」が写っているのに、AI は「背景の砂浜に時計がある」と言います。実は時計なんてありません。でも AI は「あるに決まっている！」と自信を持って答えます。
例 2（知識不足）： 見知らぬ飛行機の写真を見せると、「これは何ですか？……えっと、多分パラグライダーかな？」と、自信なさげに推測します。

従来の AI のチェック方法は、「答えがバラバラなら怪しい」という程度でした。でも、これでは「なぜ間違えたのか（嘘をついたのか、単に知らないのか）」が分かりません。

2. 解決策：AI の頭の中を「証拠」で読み解く

この論文の著者たちは、AI の頭の中を**「裁判所の証拠調べ」**に例えて考えました。

AI が何かを判断する時、頭の中では無数の「証拠」が飛び交っています。

プラスの証拠（支持）： 「これは猫だ！」という証拠。
マイナスの証拠（反対）： 「でも、耳が変だぞ？」という証拠。

新しい方法（EUQ）は、この証拠を 2 つの視点で分析します。

① 葛藤（Conflict）：「頭の中がバラバラ」状態

**「証拠同士が喧嘩している」**状態です。

例：「これは猫だ（証拠 A）」と「でも耳が変だ（証拠 B）」が同時に強く出ている時。
結果： AI は**「幻覚（嘘）」**をつきやすくなります。頭の中で矛盾が起きているのに、無理やり答えを出そうとしているからです。
アナロジー： 料理人が「これは美味しい！」と叫びながら、同時に「まずい！」と叫んでいる状態。混乱しています。

② 無知（Ignorance）：「証拠が足りない」状態

**「証拠が全然ない」**状態です。

例：見たことのない変な生き物を見て、「これって何？……知らないな」という状態。
結果： AI は**「未知のデータ（OOD）」**に対して、自信を持って答えられず、適当に推測したり、失敗したりします。
アナロジー： 料理人が「材料が何もないから、何を作るか分からない」と言っている状態。

3. この方法のすごいところ

🚀 一度の計算で終わる（超高速！）

これまでの方法は、AI に「同じ質問を 100 回聞いて、答えがバラバラなら怪しい」というように、何度も計算させる必要がありました。それは**「100 回も料理を試作して味見する」ようなもので、時間がかかります。
でも、この新しい方法は、「1 回料理を作った瞬間に、材料のバランスを見て『これは危ない』と判断できる」**ようなものです。非常に速く、リアルタイムで使えます。

🔍 嘘と知識不足を区別できる

嘘（幻覚）を見たい？ → 「葛藤（Conflict）」の数値が高いか見る。
知らないこと（未知）を見たい？ → 「無知（Ignorance）」の数値が高いか見る。

これにより、AI が「なぜ間違えたのか」を詳しく診断できるようになります。

4. 実験結果：どんな AI でも効く

著者たちは、最新の 4 種類の AI（DeepSeek, Qwen, InternVL など）を使ってテストしました。

嘘（幻覚）を見抜く精度が、これまでの最高記録より10% 以上向上しました。
ハッキング（悪意ある攻撃）や未知の画像に対しても、非常に高い精度で危険を検知できました。

まとめ：AI の「心」を覗く新しいメガネ

この研究は、AI が「自信満々に嘘をつく」瞬間と、「何も知らないのに答えようとする」瞬間を、**「証拠のバランス」**という視点で見抜く方法を提案しています。

葛藤（Conflict） ＝「頭の中で矛盾が起きている（＝嘘をつきやすい）」
無知（Ignorance） ＝「情報が不足している（＝知らない）」

このように AI の内面を可視化することで、自動運転や医療診断など、**「失敗が許されない重要な場面」**で、AI が「あ、今自分は間違えそうだから止める！」と判断できるようになります。

AI がもっと安全で、私たちが安心して使えるようになるための、とても重要な一歩です。

Each language version is independently generated for its own context, not a direct translation.

論文サマリー：大規模視覚言語モデル（LVLM）の誤動作検出のための証拠的不確実性定量化（EUQ）

1. 背景と課題

大規模視覚言語モデル（LVLM）は多様な視覚言語タスクにおいて優れた性能を示していますが、分布外（OOD）の入力や挑発的な入力に対しては、幻覚（hallucination）、脱獄（jailbreak）、敵対的脆弱性、OOD 失敗などの「誤動作（misbehaviors）」を引き起こすことが知られています。これらの誤動作は、モデルの知識限界に起因する**認識的不確実性（epistemic uncertainty）**と密接に関連しています。

既存の不確実性定量化（UQ）手法は、以下の理由から LVLM の誤動作検出において限界がありました：

原因の特定 inability: 既存手法は「総予測不確実性」のみを捉え、その背後にある「内部矛盾（Conflict）」と「情報不足（Ignorance）」という 2 つの異なる根源を区別できません。
計算コスト: ベイズ推論やサンプリングベースの手法（複数回推論など）は計算コストが高く、実用的ではありません。
自己評価の不安定性: モデルに言語で自信を問う手法は、メタ認知能力が不足している LVLM では不安定で校正が難しい傾向があります。

2. 提案手法：証拠的不確実性定量化（EUQ）

著者らは、Evidential Uncertainty Quantification (EUQ) という、トレーニング不要（training-free）かつ計算効率の高いフレームワークを提案しました。この手法は、Dempster-Shafer 理論（証拠理論）に基づき、モデルの出力ヘッドから得られる特徴を「証拠」として解釈し、不確実性を**衝突（Conflict: CF）と無知（Ignorance: IG）**に分解して定量化します。

技術的な核心

証拠の構築（Evidence Construction）:
- LVLM の出力ヘッド（プロジェクション層）における「pre-logits 特徴（Z）」を証拠として扱います。
- これらの特徴を、モデルの決定に対する「支持（正）」と「反対（負）」の証拠として解釈します。
- 線形変換を証拠の融合とみなし、入力特徴と証拠重みの関係をアフィン変換でモデル化します。
信念の割り当て（Belief Assignment）:
- Dempster-Shafer 理論の**基本信念割り当て（BBA）**を適用します。
- 「最小コミットメントの原則（Least Commitment Principle）」に基づき、証拠重みを正成分（ $E^+$ ）と負成分（ $E^-$ ）に分解し、それぞれが特定の仮説を支持または否定する度合いを計算します。
不確実性の定量化（Uncertainty Estimation）:
- Dempster の結合則を用いて証拠を融合し、以下の 2 つの指標を単一のフォワードパスで算出します：
  - 衝突（Conflict, CF）: 正の証拠と負の証拠間の矛盾度合い。内部の論理矛盾を反映します。
  - 無知（Ignorance, IG）: 融合された証拠における情報の欠如度合い。モデルが判断に必要な情報を持っていない状態を反映します。
- これらの計算は、全冪集合（power set）を列挙する必要がないため、計算的に効率的です。

3. 主要な貢献

誤動作の根源の明確化: LVLM の多様な誤動作が、主に「内部矛盾（Conflict）」と「支持情報の欠如（Ignorance）」という 2 種類の認識的不確実性に起因することを初めて明示的に特徴付けました。
効率的な検出フレームワーク: 追加のトレーニングやサンプリングを必要とせず、単一のフォワードパスで CF と IG を算出する手法を提案しました。
層ごとの動的解析: デコーダ層ごとの不確実性の進化を分析し、層が深くなるにつれて「無知」が減少し「衝突」が増加する傾向を確認しました。また、特定の層で異なる誤動作タイプ（幻覚、脱獄など）を区別できることを示しました。
包括的な評価: 4 つの主要な誤動作カテゴリ（幻覚、脱獄、敵対的脆弱性、OOD 失敗）に対して、最先端の 4 つの LVLM で広範な評価を行いました。

4. 実験結果

DeepSeek-VL2-Tiny, Qwen2.5-VL-7B, InternVL2.5-8B, MoF-Models-7B などのモデルを用いた実験で、EUQ は既存の強力なベースライン（サンプリングベース、確率ベース、HiddenDetect など）を上回る性能を示しました。

検出性能: 平均して、AUROC で10.4% / 7.5%、AUPR で**5.3% / 5.5%**の相対的な改善を達成しました。
誤動作タイプごとの特性:
- 幻覚（Hallucinations）: 高い**内部衝突（CF）**と強く相関しています（モデル内部で矛盾した情報が存在するため）。
- OOD 失敗: 高い**無知（IG）**と強く相関しています（モデルが関連する知識を持っていないため）。
- 脱獄・敵対的攻撃: CF と IG の両方で検出可能ですが、特に敵対的例は分布の急激な変化により明確に識別可能です。
効率性: サンプリングベースの手法に比べて計算オーバーヘッドが極めて低く、リアルタイム適用が可能です。

5. 意義と将来展望

この研究は、LVLM の信頼性を高めるための重要なステップです。

解釈性の向上: 単に「不確実である」というだけでなく、「なぜ不確実なのか（矛盾か、知識不足か）」を特定できるため、モデルの失敗原因の診断や改善に役立ちます。
実用性: トレーニング不要であるため、既存の巨大モデルに容易に適用でき、安全クリティカルな応用（自動運転、医療診断など）におけるリスク管理に貢献します。
理論的拡張: Dempster-Shafer 理論を大規模モデルの内部表現解析に応用する新たな視点を提供し、証拠理論に基づく深層学習の方向性を広げました。

結論として、EUQ は LVLM の誤動作を高精度かつ効率的に検出・分類するための強力なツールであり、モデルの安全性と信頼性向上に不可欠な技術です。

Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification