Enhancing Hallucination Detection through Noise Injection

この論文は、大規模言語モデルの幻覚検出精度を向上させるため、モデルの不確実性をベイズ的に捉える単純なノイズ注入アプローチを提案し、標準的なサンプリング手法よりも優れた性能を実証したものです。

Litian Liu, Reza Pourreza, Sunny Panchal, Apratim Bhattacharyya, Yubing Jian, Yao Qin, Roland Memisevic

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 料理の味見:なぜ「同じ味」だけではダメなのか?

AI が質問に答えるとき、私たちは通常、AI に「1 回だけ」答えを出させて、それが正しいか確認します。しかし、AI は自信満々に間違ったことを言うことがあります。

これまでの研究では、**「AI に同じ質問を 10 回聞いて、答えがバラバラなら『嘘をついているかも』」**という方法が主流でした。

  • 例え: 料理人が「このスープは塩味かな?」と聞いて、10 回とも「塩味だ!」と言ったら「本物」、もし「塩味」「砂糖味」「醤油味」とバラバラなら「自信がない(=嘘かもしれない)」と判断するのです。
  • 問題点: しかし、この方法は**「AI が持っている知識の不足(モデルの不確実性)」**までは測れていません。AI が「自信を持って間違った知識」を持っている場合、10 回聞いてもすべて同じ間違った答えが出てきてしまい、嘘を見抜けません。

🎲 新しい方法:AI の「脳」に少しノイズを混ぜる

この論文の著者たちは、**「AI の『脳(内部の神経)』に、あえて小さな『ノイズ(雑音)』を混ぜてから答えを出させる」**という画期的な方法を提案しました。

🌪️ 天気予報の例え

  • 従来の方法(ノイズなし):
    天気予報士が「明日は晴れです」と言います。彼が自信満々なら、10 回聞いても「晴れ」と言います。でも、もし彼が「実は過去のデータが少し曖昧で、本当は雨の可能性もあるのに、自信過剰で晴れと言っている」場合、10 回聞いても「晴れ」しか出ません。私たちは「嘘」に気づけません。

    • これを**「偶然の不確実性(Aleatoric)」**と呼びます(単に答えがバラけるかどうか)。
  • 新しい方法(ノイズ注入):
    予報士の頭の中に、あえて**「少しの揺らぎ(ノイズ)」を入れてみます。「昨日のデータ、ちょっと間違ってたかも?」「記憶が曖昧かも?」と、AI に「自分の知識が完璧じゃないかも?」**という疑念を抱かせます。

    • もし AI が**「本当の知識」**を持っていれば、少し揺らしても「明日は晴れだ!」と答えは変わりません。
    • もし AI が**「嘘(幻覚)」をついている(知識が曖昧なまま無理やり答えを作っている)なら、少し揺らすだけで「あれ?もしかして雨かも?」「いや、曇りかな?」と答えがガタガタに変わります**。

この**「揺らぎに対する弱さ」を測ることで、AI が本当に知っていることと、無理やり作っている嘘を見分けることができるのです。これを「認識論的不確実性(Epistemic)」**と呼びます。

🎯 この方法のすごいところ

  1. 特別な訓練は不要(Training-free):
    AI を最初から作り直す必要はありません。既存の AI に、計算の途中で「ノイズ」を少し混ぜるだけで済みます。まるで、料理をする前に包丁を少し振るだけで、味見の精度が上がるようなものです。
  2. 2 つの不確実性を同時に測れる:
    • 偶然の不確実性: 答えがバラけるか(従来の方法)。
    • 認識論的不確実性: 知識が揺らぐか(新しい方法)。
      これらを組み合わせることで、嘘を見抜く精度が劇的に向上しました。
  3. 計算コストが安い:
    複雑な計算をせず、既存の AI をそのまま使いつつ、少しだけ「揺さぶり」を加えるだけで実現できます。

📊 実験結果:嘘を見抜く力がアップ!

著者たちは、数学の問題や一般常識のクイズなど、さまざまなテストでこの方法を試しました。

  • 結果: ノイズを混ぜることで、AI が嘘をついているケースを、従来の方法よりもはるかに高い精度で見抜けるようになりました。
  • 副作用なし: 嘘を見抜く力が上がっても、AI が正しい答えを出す能力(精度)は下がらないことが確認されました。

💡 まとめ

この論文が伝えているのは、**「AI に『自信』があるからといって、それが『真実』とは限らない」**という点です。

AI の「脳」に少しの**「揺らぎ(ノイズ)」**を与えてみることで、AI が「本当に知っていること」と「無理やり作っている嘘」を区別できるようになります。これは、AI を安全に使うために、非常にシンプルで効果的な「嘘発見器」の新しい仕組みと言えます。

**「AI に『ちょっと待て、自分の記憶は本当に正しいか?』と問いかけるようなノイズを加えることで、嘘を見抜くことができる」**というのが、この研究の核心です。