A Geometric Taxonomy of Hallucinations in LLMs

本論文は、LLM のハルシネーションを埋め込み空間の幾何学的特性に基づいて「不忠実性」「虚構」「事実誤認」の 3 種類に分類し、それぞれに対応する検出指標(SGI と DGI)を提案するとともに、TruthfulQA における分類性能の限界が事実誤認の検出ではなくスタイルの偏りに起因することを明らかにしています。

Javier Marín

公開日 Tue, 10 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI(大規模言語モデル)が「嘘をつく」あるいは「事実と違うことを言う」現象(ハルシネーション)を、単なる「間違い」として一括りにせず、「なぜ間違えたのか」という理由と「その間違いの形」によって 3 つに分けて理解しようという新しい考え方を提案しています。

著者は、AI の頭の中にある「言葉の地図(埋め込み空間)」を使って、この 3 つのタイプを区別し、それぞれに合った「嘘発見器」を開発しました。

以下に、難しい専門用語を避け、日常のたとえ話を使って分かりやすく解説します。


🗺️ 核心となるアイデア:AI の「言葉の地図」

まず、AI が言葉を理解している様子を想像してください。AI はすべての言葉を、巨大な**「3 次元(あるいはもっと多次元)の地図」**上に配置しています。

  • 「リンゴ」と「ミカン」は近い場所にあり、
  • 「リンゴ」と「飛行機」は遠く離れています。

この地図の上で、AI が質問に答えるとき、その答えは「質問の場所」から「答えの場所」へと移動します。この**「移動の方向や距離」**を測ることで、AI がどうやって嘘をついているかを突き止めようというのがこの論文の核心です。


🔍 3 つの「嘘」のタイプ(ハルシネーションの分類)

論文では、AI の間違いを 3 つのタイプに分けました。

1. タイプ I:「耳を貸さない嘘」 (Unfaithfulness)

  • どんな嘘?
    あなたが「昨日の会議の議事録を基に要約して」と頼んだのに、AI が**「議事録なんて無視して、自分の記憶(過去の知識)だけで適当に作った」**場合です。
  • たとえ話:
    先生が「教科書の 3 ページを見て答えなさい」と言っているのに、生徒が**「教科書は開かずに、自分の頭の中だけで適当に喋り続ける」**状態です。
  • 発見方法(SGI):
    「答え」が「教科書(文脈)」の方へ近づいているか、それとも「質問」のそばに留まっているかを見ます。教科書の方へ進んでいなければ、「耳を貸さない嘘」だとわかります。

2. タイプ II:「完全な作り話」 (Confabulation)

  • どんな嘘?
    存在しない会社、ありえない病気、架空の歴史など、「現実世界に存在しないもの」を本気で作り上げて話す場合です。
  • たとえ話:
    「東京に『空飛ぶラーメン屋』があります」と言われたとき、それは地図上には存在しない場所です。AI は**「ありえない場所」へと、まともな道筋から外れて飛んでいってしまいます。**
  • 発見方法(Γ):
    「まともな答えが通るはずの道(確実な道)」から、AI の答えがどれくらい**「外れた方向」**へ飛んでいったかを測ります。この「外れ方」が極端なら、それは「完全な作り話」だとわかります。

3. タイプ III:「細かい間違い」 (Factual Error)

  • どんな嘘?
    概念は合っているのに、「数字や日付、名前」が間違っている場合です。
    • 例:「東京タワーは 333 メートルです(正解)」→「東京タワーは 335 メートルです(間違い)」
  • たとえ話:
    地図上の「東京タワー」の位置は合っていますが、「標高」の数字が少しズレている状態です。
  • 発見の難しさ:
    これが最も厄介です。地図(AI の頭)の上では、正しい答えも間違いの答えも**「ほぼ同じ場所」にあります。だから、この論文の「地図を見る方法」では、このタイプの嘘は見分けがつかない**ことが証明されました。
    • ※以前、このタイプを検知できたという報告がありましたが、それは「答えの長さ」や「言い回し」の違いに反応していただけで、本当の「事実の間違い」を見抜けたわけではありませんでした。

🛠️ 論文が達成した成果

  1. 新しい「嘘発見器」の開発

    • タイプ I 用: 文脈(資料)に寄り添っているかチェックする「SGI」というツール。
    • タイプ II 用: 現実から外れた方向へ飛んでいないかチェックする「Γ(ガンマ)」というツール。
    • これらは、AI の内部構造(中身)を見ずに、「答え」の言葉の配置だけで判断できるため、非常に高速で安価です。
  2. 既存の技術との比較

    • 従来の「文脈が合っているかチェックする AI(NLI)」は、タイプ II(完全な作り話)には弱く、「文法的に正しい嘘」には見抜けませんでした。
    • しかし、新しい「Γ」ツールは、「文法的に正しい嘘」でも、その「方向性」がおかしいことを見抜くことに成功しました(人間が作ったテストでは 95% 以上の精度)。
  3. 「どこまで通用するか」の限界の解明

    • この「地図を見る方法」は、**「専門家の知識」「現実の事実」**を問う場面では非常に役立ちます。
    • しかし、「AI が勝手に作った嘘」(例:AI に「嘘をついて」と指示して作らせたデータ)のテストでは、あまり機能しないことがわかりました。これは、AI が「嘘をつく練習」をしたデータと、AI が「本当に間違えた」データでは、地図上の動き方が違うからです。

💡 まとめ:この論文が私たちに教えてくれること

  • 「嘘」は一つじゃない: 無視する嘘、完全な作り話、細かい間違いは、根本的に性質が違います。
  • 「地図」で見抜ける嘘と見抜けない嘘:
    • 「資料を無視した嘘」や「架空の存在」は、AI の言葉の配置(地図)を見るだけで見抜けます
    • しかし、「概念は合ってるけど数字がズレている嘘」は、AI の地図上では正解と見分けがつかないため、この方法では見抜けないことが理論的に証明されました。
  • 今後の課題:
    今の AI は「言葉の並び」を勉強しているだけで、「真実」そのものを理解しているわけではありません。だから、「数字の間違い」のような、地図上では同じ場所にある嘘をどう見抜くかは、まだ解決されていない大きな課題です。

この研究は、AI の「嘘」を盲目的に恐れるのではなく、「どんな種類の嘘か」を科学的に分類し、それぞれに合った対策を打つための第一歩となりました。