Hallucination as output-boundary misclassification: a composite abstention architecture for language models

大規模言語モデルの幻覚を出力境界の誤分類として捉え、指示ベースの拒否と自己一貫性・再表現安定性・引用網羅性に基づく構造的棄却ゲートを組み合わせた複合アーキテクチャが、単独の手法では達成できない高い精度と幻覚抑制を実現することを示しています。

Angelina Hintsanen

公開日 2026-04-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 核心となるアイデア:「嘘」は「味見の失敗」

まず、この論文の最大の特徴は、AI の嘘を「単なる間違い」ではなく、**「味見(チェック)を怠って、まだ完成していない料理を客に出してしまったミス」**と捉えている点です。

  • AI の仕組み: AI は、前の言葉に続けて「ありそうな言葉」を次々と並べて文章を作ります。
  • ハルシネーション(嘘): 証拠(レシピや食材)がないのに、AI が「たぶんこうだろう」と想像して作った言葉を、**「本当の事実です!」**と自信満々に出してしまう状態です。

これを防ぐために、著者は**「2 つの異なるガードマン」**を雇うというアイデアを提案しました。


🛡️ 2 つのガードマン(対策)

論文では、2 つの異なる方法(ガードマン)を試しました。しかし、どちらか一方だけでは不十分でした。

1. 最初のガードマン:「お言葉(指示)で止める」

  • 仕組み: AI に「証拠がないときは『答えられません』と言いなさい」と命令するだけです。
  • 得意なこと: 自信を持って嘘をつきそうになるのを、AI 自身の「良識」で止めます。
  • 弱点:
    • 言いすぎ(過剰な警戒): 「本当は答えられるのに、慎重になりすぎて『答えられません』と逃げてしまう」ことがありました(特に高性能なモデルで)。
    • 聞き流し: 能力が少し低いモデル(GPT-3.5 など)だと、「命令を無視して」自信満々に嘘をついてしまうことがありました。

2. 2 番目のガードマン:「機械的なチェック(構造的门)」

  • 仕組み: AI が「自信を持っているかどうか」を機械的にチェックする装置です。
    • 「同じ質問を 3 回聞いて、答えが一致するか?」(自説の整合性)
    • 「言い方を変えても同じ答えが出るか?」(安定性)
    • 「答えが提供された資料に基づいているか?」(引用)
    • これらを点数化し、**「証拠不足のスコア」**が高ければ、強制的に出力をブロックします。
  • 得意なこと: AI が命令を無視しても、機械的に「証拠がない!」と判断して止めます。どんな能力の低い AI でも、このチェックは効きます。
  • 弱点:
    • 自信満々の嘘を見逃す: AI が「嘘」であっても、**「一貫性があり、安定していて、資料の言葉を使っている」**場合、この機械は「あ、これは大丈夫だ」と判断して通してしまいます。
    • 例:「A さんと B さんが矛盾したことを言っている」状況で、AI が A さんの話を自信を持って選んで答えたとします。機械的には「一貫しているし、資料にあるから OK」となり、**「矛盾を見抜けない」**という弱点があります。

🤝 最強の組み合わせ:「2 人のガードマンを同時に雇う」

ここで、論文の結論である**「複合アーキテクチャ(Composite Architecture)」**が登場します。

**「どちらか一方が『止めてください』と言えば、出力をブロックする」**という仕組みです。

  • 結果:
    • 指示だけで止めるガードマンが「答えられるのに止める」ミスをするのを、機械チェックが補正します。
    • 機械チェックが「自信満々の嘘」を見逃すのを、指示ガードマンが補正します。
    • 結果として、嘘(ハルシネーション)をほぼゼロ(0〜4%)に抑えつつ、正解も逃さないという、完璧に近いバランスが実現しました。

🧪 実験のまとめ(どんなテストをしたか?)

著者は、50 問のテスト(5 つの異なるシナリオ)と、100 問の「証拠なし」テストを行いました。

  1. 答えられる問題: 指示ガードマンは慎重すぎて「答えられない」と逃げるが、機械チェックは正解を出せる。
  2. 答えられない問題: 両方とも「答えられない」と正しく止める。
  3. 矛盾する情報: 機械チェックは「一貫しているから OK」と通してしまうが、指示ガードマンが「これは矛盾しているから止める」と判断する。
  4. 能力差: 能力の低い AI は命令を聞かないが、機械チェックは能力に関係なく機能する。

結論:
「指示(お言葉)」と「機械チェック(構造)」は、お互いの弱点を補い合う相棒の関係でした。どちらか一方だけでは完璧な防衛はできず、両方を組み合わせることで、初めて「嘘のない AI」に近づけることが証明されました。


💡 この論文が私たちに教えてくれること

  • AI の「自信」は嘘かもしれない: AI が「自信満々」に答えていても、それは単に「一貫して嘘をついている」だけかもしれません。
  • ダブルチェックの重要性: 人間の「良心(指示)」と、機械的な「事実確認(チェック)」の両方を使うことが、安全な AI 運用には不可欠です。
  • コストと安全性のトレードオフ: この完璧なシステムは、1 回の質問に対して AI に 20 回以上の計算(チェック)をさせるため、時間とコストがかかります。しかし、医療や法律など「嘘が許されない分野」では、このコストは正当化されると論文は結論づけています。

つまり、**「AI に嘘をつかせないためには、AI 自身に『考えさせ』つつ、外側から『機械的にチェック』させるという、二重の防衛線が必要だ」**というのが、この論文のシンプルなメッセージです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →