Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

本論文は、視覚言語モデルの幻覚が最終出力ではなく中間層における「過剰思考(矛盾する仮説の繰り返し)」によって引き起こされることを発見し、この挙動を定量化する「Overthinking Score」を導入することで、従来の手法よりも高精度な幻覚検出を実現したことを報告しています。

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 結論から言うと:

これまでの AI の嘘発見器は、「最後の答え」だけを見て「自信があるか?」を判断していました。しかし、この論文は**「AI の『考え方の過程』そのもの」**に注目しました。

その結果、AI が嘘をつくときは、**「考えすぎて(Overthinking)、迷走している」**ことがわかりました。これを「過剰思考スコア」という新しい指標で測ることで、嘘を非常に高い精度で見抜けるようになりました。


🧠 1. 従来の方法がなぜダメだったのか?

これまでの研究では、AI が嘘をつくときは「自信がなさそう(不安そう)」に見えるだろうと考えられていました。

  • 従来の考え方: 「AI が『これは猫だ』と言うとき、もし自信がなさそう(確率が低い)なら、それは嘘かもしれない」と判断していました。
  • 現実: しかし、AI は**「自信満々で嘘をつく」**ことがあります。
    • 例え話: 料理人が「これは美味しいステーキだ!」と自信満々に言っているとき、実はそれは「石」だったとします。従来の方法は、料理人の「自信」を見て「本物だ」と信じてしまいます。

🌪️ 2. 新しい発見:「過剰思考(Overthinking)」と「嘘の伝染」

この論文の最大の特徴は、AI の脳内(ニューラルネットワークの層)を詳しく観察したことです。

🔍 発見した現象:「迷走する思考」

AI が画像を見て「これは何だ?」と考えるとき、以下のプロセスを踏みます。

  1. 最初の層(浅い思考): 「あれは何か?お皿かな?石鹸かな?シンクかな?」と、次々と候補を浮かべます。
  2. 中間の層(迷走): 「あ、お皿と石鹸とシンクはセットだ!だからこれは『食器』だ!」と、実際には存在しない「食器」を推測し始めます。
  3. 最後の層(結論): 「そうだ、これは『食器』だ!」と、自信を持って嘘をつきます。

🦠 比喩:「嘘の伝染(Confounder Propagation)」

これを**「嘘の伝染」**と呼んでいます。

  • シチュエーション: 画像に「シンク」と「石鹸」があります(本物)。
  • AI の脳内: 「シンク+石鹸=食器(Dish)」という連想が働きます。
  • 結果: 実際には「食器」は写っていないのに、AI は「シンクと石鹸があるから、食器もあるに違いない」と推測して嘘をついてしまいます。

これまでの方法は、この「脳内で迷走して嘘を確定させる過程」を見ていなかったので、見逃していました。

📊 3. 新しい解決策:「過剰思考スコア(Overthinking Score)」

著者たちは、この「迷走」を数値化する新しい指標を作りました。

  • 何をするのか?
    AI が「答え」を出すまでの間、脳内のどの層で「何」と考えていたかをすべてチェックします。
  • 判断基準:
    • 正常な場合: 「猫」→「猫」→「猫」と、最初から最後まで一貫して同じ考えを持っています(安定)。
    • 嘘をつく場合: 「猫」→「犬」→「猫」→「犬」→「食器」→「食器」と、層ごとに考えがコロコロ変わります(不安定・過剰思考)。

この「考えがコロコロ変わる度合い」と「迷っている度合い」を足し合わせたのが**「過剰思考スコア」**です。

  • スコアが高い = 迷走が激しい = 嘘の可能性大
  • スコアが低い = 一貫している = 本物である可能性大

🏆 4. 結果:どれくらいすごいのか?

この新しい方法を使えば、AI の嘘を78.9%の確率で見抜けます(従来の方法より大幅に向上)。
特に、
「文脈に引っ張られて嘘をつく場合」
(例:キッチン画像だから「食器」があると勝手に思い込む場合)に、従来の方法が全く通用しなかったのに対し、この方法は見事に検知しました。

💡 まとめ:何が重要なのか?

  • 従来の視点: 「答え」を見て「自信があるか?」を判断する。
  • この論文の視点: 「思考の過程」を見て「迷走していないか?」を判断する。

「嘘をつく人は、最後に自信満々でも、その過程で何度も言い訳を考え直しているものだ」
という人間の本質を、AI の「過剰思考」として発見し、それを検知する新しい技術を開発したのがこの論文です。

これにより、AI が「自信を持って嘘をついている」場面でも、その裏にある「迷走」を見抜いて、より安全で信頼できる AI 作りに貢献できるでしょう。