How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

この論文は、RIKER 評価手法を用いた大規模な実証研究により、ドキュメント Q&A における LLM の幻覚発生率が文脈長とともに急増し、モデル選択が最も重要な要因である一方、ハードウェアプラットフォームには依存しないことを明らかにした。

JV Roig

公開日 2026-03-10
📖 2 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が書類を読んで質問に答えるとき、どれくらい嘘をつくのか?」**という、企業にとって非常に重要な疑問を、過去最大規模の実験で解き明かしたものです。

著者たちは、35 種類の AI モデルを、3 つの異なる「記憶容量(文脈長)」と、3 つの異なる「ハードウェア(計算機)」、そして 4 つの異なる「性格設定(温度)」でテストしました。その結果、**「AI は完璧ではなく、文書が長くなればなるほど、嘘をつきやすくなる」**という、少し寂しいけれど重要な事実が明らかになりました。

以下に、難しい専門用語を使わず、身近な例え話で解説します。


📚 1. 実験の舞台:「1720 億文字の巨大な図書館」

この研究は、単なる小さなテストではありませんでした。
Imagine(想像してください):

  • 35 人の「超優秀な図書館司書」(AI モデル)がいます。
  • 彼らは、**「3 万文字」「12 万文字」「20 万文字」**という、それぞれ厚さの違う本(文書)を渡されます。
  • 彼らに、「本の中に書かれていることだけ」を答えるよう命じます。
  • さらに、**「本に書いていない架空の人物について」**も質問し、彼らが嘘をついて答えてしまうかどうかをチェックしました。

この実験には、1720 億文字という、人類がこれまでに読んだ本をすべて合わせたような膨大なデータが消費されました。これほど大規模な実験は過去にありませんでした。

🎭 2. 結論:「嘘」はゼロにはならない

一番の衝撃的な結論はこれです。
「どんなに優秀な司書でも、100% 嘘をつかない人はいない」

  • 3 万文字(短い本)の場合: 一番上手な司書でも、100 回に 1 回(1.19%)は嘘をつきます。
  • 20 万文字(分厚い本)の場合: 優秀な司書でも、嘘をつく率は10% 以上に跳ね上がります。
  • 平均的な司書: 4 人に 1 人は、本にないことを「あったように」話してしまいます。

つまり、「AI に任せておけば大丈夫」というのは幻想で、必ずチェック体制が必要だということです。

📏 3. 文書が長くなると「記憶」が混乱する

本が薄ければ(3 万文字)、AI はよく理解できます。しかし、本が分厚くなると(12 万〜20 万文字)、AI は**「真ん中の情報を見失う」だけでなく、「ないものねだり」**を始めてしまいます。

  • 例え話: 100 ページのレポートを読ませるのと、1000 ページの辞書を読ませるのでは、後者の方が「どこに何が書いてあったか」を忘れるだけでなく、「たぶんこう書いてあったはずだ」と勝手に作り上げてしまう傾向が強まります。
  • 重要な発見: 多くの AI は「20 万文字まで読めます」と宣伝していますが、実際にはその長さになると、**「読める」のではなく「適当に喋っている」**状態に陥ることが分かりました。

🧠 4. 「記憶力」と「嘘つき度」は別物

ここが最も重要なポイントです。
「本から正しい情報を見つけ出す力(記憶力)」と、「ないことを嘘つかない力(嘘つき度)」は、全く別の能力です。

  • 例え話:
    • A 君(Llama 3.1 70B など): 本から「正解」を見つけるのが天才的ですが、「本にないこと」を聞かれると、自信満々に嘘をつきます。(記憶力 90 点、嘘つき度 50 点)
    • B 君(GLM 4.5 など): 本から「正解」を見つけるのも上手ですが、「本にないこと」を聞かれると、「分かりません」と素直に言えます。(記憶力 90 点、嘘つき度 2 点)

「検索が得意な AI」=「信頼できる AI」ではありません。 検索が得意でも、ないことをでっち上げる AI は、ビジネスでは危険です。

🌡️ 5. 「温度」設定の落とし穴

AI には「温度(Temperature)」という設定があります。

  • 温度 0.0(冷たい): 最も論理的で、同じ答えを返そうとする。
  • 温度 1.0(熱い): 創造的で、バリエーションに富む。

一般的な常識: 「嘘をつかせたくないなら、温度を 0.0(冷たい)にすればいい」と言われてきました。
この研究の発見: それは間違いです!

  • 温度を 0.0 にすると、「無限ループ(同じことを延々と言い続ける)」に陥る確率が、温度 1.0 の場合に比べて最大 48 倍も高まりました。
  • 逆に、少し温度を上げると(0.4 や 0.7)、「嘘をつく率」が下がるモデルもたくさんありました。
  • 教訓: 「冷たい設定=安全」という魔法のボタンはありません。状況に合わせて調整する必要があります。

💻 6. ハードウェアは関係ない

「NVIDIA の GPU」を使うか、「AMD」や「Intel」を使うかで、AI の嘘つき度は変わりませんでした。
例え話: 「高級な調理器具を使えば料理の味が変わる」と思っているかもしれませんが、「料理の味(AI の性能)」は「シェフ(AI モデル)」と「レシピ(設定)」で決まり、包丁のブランド(ハードウェア)にはほとんど関係ないということです。


🚀 企業にとっての「3 つの教訓」

この研究から、AI をビジネスで使う人へのアドバイスは以下の通りです。

  1. AI モデルの選び方が最重要
    • 単に「大きいモデル」や「新しいモデル」を選べばいいわけではありません。**「嘘をつきにくいモデル(GLM 系や MiniMax 系など)」**を選ぶことが、性能を上げる最大の近道です。
  2. 文書の長さに注意
    • 「20 万文字読めます」という宣伝を信じて、長い文書をそのまま AI に投げつけないでください。文書が長くなると、AI の嘘つき度が急増します。必要な部分だけを抜き出して渡すのが賢明です。
  3. 設定(温度)は固定しない
    • 常に「温度 0.0」にしておくのは危険です。場合によっては、少し温度を上げることで、**「嘘が減り、かつ無限ループに陥らない」**バランスが見つかるかもしれません。

🏁 まとめ

この論文は、**「AI は魔法の箱ではなく、間違いを犯す人間のような存在」**であることを、膨大なデータで証明しました。

AI を使うときは、「AI が 100% 正しい」と信じるのではなく、**「AI は時々嘘をつく可能性がある」と前提に置き、「どの AI を使い、どの長さの文書を与え、どう設定するか」**を慎重に選ぶことが、成功の鍵です。