Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

この論文は、大規模言語モデルのハルシネーションが、限られた容量下での情報理論的に最適な戦略として、事実と非事実のスコア分布間の最小 KL ダイバージェンスによって特徴づけられるレート歪み定理の必然的な帰結であることを示しています。

Anxin Guo, Jingwei Li

公開日 Thu, 12 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🏠 結論:嘘は「節約」の結果だった?

この論文の核心は、**「AI が嘘をつくのは、バカだからではなく、むしろ『賢く節約しようとした結果』である」**という驚きの発見です。

想像してみてください。
**「巨大な図書館(AI の知識)」があり、そこに「100 万冊の本(事実)」が収められているとします。しかし、その図書館を管理する「司書の部屋(AI のメモリ)」**は、実はとても狭いんです。

1. 狭い部屋と膨大な本

AI は、電話帳や人物の生年月日など、**「推測できないランダムな事実」をすべて正確に覚える必要があります。しかし、AI のメモリ(部屋)には限りがあります。
もし「100% 正確にすべてを覚える」ことを目指すと、部屋がパンクしてしまいます。そこで AI は、
「情報を圧縮して、狭い部屋に無理やり詰め込む」**という戦略をとります。

2. 完璧な記憶 vs. 効率的な記憶

ここで、**「完璧な記憶」「効率的な記憶(圧縮)」**のどちらが部屋を節約できるか考えてみましょう。

  • 完璧な記憶: 「A は事実、B は嘘、C は事実…」と、一つ一つを区別して覚える。→ 部屋がパンクする。
  • 効率的な記憶(この論文の発見): 「A は事実(自信 100%)。B も A と似ているから、B も事実(自信 100%)にしておこう。」と、「事実」と「嘘」を区別せずに、同じ高い自信で扱う方が、実は部屋を広く使わずに済むのです。

つまり、「嘘(ハルシネーション)を少し混ぜる」ことの方が、メモリを節約する上で「最適解」だったのです。

3. 「ハルシネーション・チャンネル」という仕組み

論文では、これを**「ハルシネーション・チャンネル(嘘の通り道)」**と呼んでいます。

  • 事実(正解): 高い自信で答える。
  • 嘘(不正解): 一部は「知らない」と答えるが、残りの一部は、事実と同じくらい高い自信で「正解」と答える。

なぜこうなるのか?
「嘘」をすべて「知らない(0)」にすると、その区別をするための情報量(メモリ)が逆に増大してしまうからです。
「事実と嘘を、ある確率で混同して『高い自信』で答える」方が、結果としてメモリの節約になるという、一見矛盾した数学的な法則が働いているのです。


🎯 具体的なたとえ話:「名刺入れ」の例

AI のメモリを**「名刺入れ」、事実を「知人の名刺」、嘘を「見知らぬ人の名刺」**だと想像してください。

  • 現実: 知人の名刺は 1 万枚、見知らぬ人の名刺は 10 億枚あります。
  • 問題: 名刺入れの容量は限られています。

もし「見知らぬ人の名刺をすべて『知らない』と区別して捨ててしまう」ことを目指すと、「これは知人、これは知らない」という判断基準を作るためのルール(メモリ)が膨大になりすぎます。

そこで、賢い(メモリ節約型の)名刺入れはこう考えます:

「うーん、この 10 億枚のうち、1 割くらいは『知人』として扱っておこう。 間違っても、その 1 割は『知らない』と断るより、『知人』として扱った方が、ルールが単純で、名刺入れが小さくて済むんだ!」

結果として、**「実は知らない人なのに、AI は『これは私の知人だ!』と自信満々に答えてしまう(ハルシネーション)」**現象が生まれます。


💡 この研究が教えてくれること

  1. 嘘は「バグ」ではない:
    AI が嘘をつくのは、単なるエラーではなく、**「限られたリソースの中で最も効率的に動作しようとした結果」**です。これは、AI が「完璧な記憶」を諦め、「圧縮された記憶」を選んだから起こります。

  2. 「知らない」と言うのもコストがかかる:
    「知らない(拒絶)」と「自信満々に答える(嘘)」のどちらを選ぶか。
    論文によると、「嘘をつく」ことの方が、実は「知らない」と言うことよりも、メモリを節約しやすい場合があります。だから、AI は「知らない」と言わずに、自信を持って嘘をつく傾向があるのです。

  3. 解決策は「追加のメモリ」:
    この「ハルシネーション」を完全に消すには、**「メモリの容量を増やす」**必要があります。

    • モデルのサイズを大きくする(部屋を広くする)。
    • 外部のデータベース(RAG)を使う(名刺入れの外に本棚を置く)。
      これらが有効な理由も、この「メモリ不足」の理論で説明がつきます。

📝 まとめ

この論文は、**「AI が嘘をつくのは、脳(メモリ)が狭すぎて、事実と嘘を区別するコストが『嘘を事実だと信じる』コストよりも高くなってしまうから」**と説いています。

AI は「バカ」なのではなく、**「狭い部屋で生き延びようとして、無理やり情報を圧縮した結果、嘘を事実と見なすという『賢い(が悲しい)選択』を迫られている」**のです。

私たちが AI のハルシネーションに悩むなら、それは「AI をもっと賢くする」ことではなく、**「AI にもっと広い部屋(メモリ)を与え、外部の資料(検索機能)を使えるようにする」**ことが、最も合理的な解決策だと言っているのです。