How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が書類を読んで質問に答えるとき、どれくらい嘘をつくのか？」**という、企業にとって非常に重要な疑問を、過去最大規模の実験で解き明かしたものです。

著者たちは、35 種類の AI モデルを、3 つの異なる「記憶容量（文脈長）」と、3 つの異なる「ハードウェア（計算機）」、そして 4 つの異なる「性格設定（温度）」でテストしました。その結果、**「AI は完璧ではなく、文書が長くなればなるほど、嘘をつきやすくなる」**という、少し寂しいけれど重要な事実が明らかになりました。

以下に、難しい専門用語を使わず、身近な例え話で解説します。

📚 1. 実験の舞台：「1720 億文字の巨大な図書館」

この研究は、単なる小さなテストではありませんでした。
Imagine（想像してください）：

35 人の「超優秀な図書館司書」（AI モデル）がいます。
彼らは、**「3 万文字」「12 万文字」「20 万文字」**という、それぞれ厚さの違う本（文書）を渡されます。
彼らに、「本の中に書かれていることだけ」を答えるよう命じます。
さらに、**「本に書いていない架空の人物について」**も質問し、彼らが嘘をついて答えてしまうかどうかをチェックしました。

この実験には、1720 億文字という、人類がこれまでに読んだ本をすべて合わせたような膨大なデータが消費されました。これほど大規模な実験は過去にありませんでした。

🎭 2. 結論：「嘘」はゼロにはならない

一番の衝撃的な結論はこれです。
「どんなに優秀な司書でも、100% 嘘をつかない人はいない」

3 万文字（短い本）の場合： 一番上手な司書でも、100 回に 1 回（1.19%）は嘘をつきます。
20 万文字（分厚い本）の場合： 優秀な司書でも、嘘をつく率は10% 以上に跳ね上がります。
平均的な司書： 4 人に 1 人は、本にないことを「あったように」話してしまいます。

つまり、「AI に任せておけば大丈夫」というのは幻想で、必ずチェック体制が必要だということです。

📏 3. 文書が長くなると「記憶」が混乱する

本が薄ければ（3 万文字）、AI はよく理解できます。しかし、本が分厚くなると（12 万〜20 万文字）、AI は**「真ん中の情報を見失う」だけでなく、「ないものねだり」**を始めてしまいます。

例え話： 100 ページのレポートを読ませるのと、1000 ページの辞書を読ませるのでは、後者の方が「どこに何が書いてあったか」を忘れるだけでなく、「たぶんこう書いてあったはずだ」と勝手に作り上げてしまう傾向が強まります。
重要な発見： 多くの AI は「20 万文字まで読めます」と宣伝していますが、実際にはその長さになると、**「読める」のではなく「適当に喋っている」**状態に陥ることが分かりました。

🧠 4. 「記憶力」と「嘘つき度」は別物

ここが最も重要なポイントです。
「本から正しい情報を見つけ出す力（記憶力）」と、「ないことを嘘つかない力（嘘つき度）」は、全く別の能力です。

例え話：
- A 君（Llama 3.1 70B など）： 本から「正解」を見つけるのが天才的ですが、「本にないこと」を聞かれると、自信満々に嘘をつきます。（記憶力 90 点、嘘つき度 50 点）
- B 君（GLM 4.5 など）： 本から「正解」を見つけるのも上手ですが、「本にないこと」を聞かれると、「分かりません」と素直に言えます。（記憶力 90 点、嘘つき度 2 点）

「検索が得意な AI」＝「信頼できる AI」ではありません。 検索が得意でも、ないことをでっち上げる AI は、ビジネスでは危険です。

🌡️ 5. 「温度」設定の落とし穴

AI には「温度（Temperature）」という設定があります。

温度 0.0（冷たい）： 最も論理的で、同じ答えを返そうとする。
温度 1.0（熱い）： 創造的で、バリエーションに富む。

一般的な常識： 「嘘をつかせたくないなら、温度を 0.0（冷たい）にすればいい」と言われてきました。
この研究の発見： それは間違いです！

温度を 0.0 にすると、「無限ループ（同じことを延々と言い続ける）」に陥る確率が、温度 1.0 の場合に比べて最大 48 倍も高まりました。
逆に、少し温度を上げると（0.4 や 0.7）、「嘘をつく率」が下がるモデルもたくさんありました。
教訓： 「冷たい設定＝安全」という魔法のボタンはありません。状況に合わせて調整する必要があります。

💻 6. ハードウェアは関係ない

「NVIDIA の GPU」を使うか、「AMD」や「Intel」を使うかで、AI の嘘つき度は変わりませんでした。
例え話： 「高級な調理器具を使えば料理の味が変わる」と思っているかもしれませんが、「料理の味（AI の性能）」は「シェフ（AI モデル）」と「レシピ（設定）」で決まり、包丁のブランド（ハードウェア）にはほとんど関係ないということです。

🚀 企業にとっての「3 つの教訓」

この研究から、AI をビジネスで使う人へのアドバイスは以下の通りです。

AI モデルの選び方が最重要
- 単に「大きいモデル」や「新しいモデル」を選べばいいわけではありません。**「嘘をつきにくいモデル（GLM 系や MiniMax 系など）」**を選ぶことが、性能を上げる最大の近道です。
文書の長さに注意
- 「20 万文字読めます」という宣伝を信じて、長い文書をそのまま AI に投げつけないでください。文書が長くなると、AI の嘘つき度が急増します。必要な部分だけを抜き出して渡すのが賢明です。
設定（温度）は固定しない
- 常に「温度 0.0」にしておくのは危険です。場合によっては、少し温度を上げることで、**「嘘が減り、かつ無限ループに陥らない」**バランスが見つかるかもしれません。

🏁 まとめ

この論文は、**「AI は魔法の箱ではなく、間違いを犯す人間のような存在」**であることを、膨大なデータで証明しました。

AI を使うときは、「AI が 100% 正しい」と信じるのではなく、**「AI は時々嘘をつく可能性がある」と前提に置き、「どの AI を使い、どの長さの文書を与え、どう設定するか」**を慎重に選ぶことが、成功の鍵です。

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

📚 1. 実験の舞台：「1720 億文字の巨大な図書館」

🎭 2. 結論：「嘘」はゼロにはならない

📏 3. 文書が長くなると「記憶」が混乱する

🧠 4. 「記憶力」と「嘘つき度」は別物

🌡️ 5. 「温度」設定の落とし穴

💻 6. ハードウェアは関係ない

🚀 企業にとっての「3 つの教訓」

🏁 まとめ

論文要約：ドキュメント Q&A シナリオにおける LLM の幻覚（ハルシネーション）の定量評価

1. 背景と問題提起

2. 手法：RIKER 評価フレームワーク

3. 実験設計

4. 主要な結果

4.1 幻覚率の実態

4.2 モデル選択の重要性

4.3 温度（Temperature）の影響

4.4 ハードウェアの影響

4.5 接地性（Grounding）と捏造耐性（Fabrication Resistance）の分離

5. 結論と示唆

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

📚 1. 実験の舞台：「1720 億文字の巨大な図書館」

🎭 2. 結論：「嘘」はゼロにはならない

📏 3. 文書が長くなると「記憶」が混乱する

🧠 4. 「記憶力」と「嘘つき度」は別物

🌡️ 5. 「温度」設定の落とし穴

💻 6. ハードウェアは関係ない

🚀 企業にとっての「3 つの教訓」

🏁 まとめ

論文要約：ドキュメント Q&A シナリオにおける LLM の幻覚（ハルシネーション）の定量評価

1. 背景と問題提起

2. 手法：RIKER 評価フレームワーク

3. 実験設計

4. 主要な結果

4.1 幻覚率の実態

4.2 モデル選択の重要性

4.3 温度（Temperature）の影響

4.4 ハードウェアの影響

4.5 接地性（Grounding）と捏造耐性（Fabrication Resistance）の分離

5. 結論と示唆

関連論文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models