Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

この論文は、n-gram モデルやトランスフォーマーを用いた実証研究を通じて、単一事実率とモデルの較正誤差がハルシネーションの統計的下限を決定することを示し、訓練データの 5% 程度を戦略的に再重み付けする「選択的重み付け」手法により、精度を維持したままハルシネーションを最大 40% 削減できることを発見した。

Miranda Muqing Miao, Michael Kearns

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎭 物語の舞台:AI は「自信過剰な嘘つき」になりやすい

まず、AI が嘘をつく理由を想像してみてください。
AI は本を何万冊も読んで学習します。しかし、読んだ本の**「1 回だけ登場するキャラクター(単一事実)」と、「何度も登場する有名なキャラクター(頻出事実)」**では、扱いが違います。

  • 頻出事実(例:東京は日本の首都): 何度も見たので、AI は「100% 自信がある!」と言います。
  • 単一事実(例:ある特定の人の趣味が「パン作り」だった): 1 回しか見ていないので、AI は「たぶんそうだったかな?」と少し自信がなくなります。

ここが問題です。
AI は、1 回しか見ていない事実について「100% 自信がある」と嘘をついてしまう傾向があります。これを**「ハルシネーション(幻覚)」と呼びます。
論文のタイトルにある
「モノファクト(単一事実)」**とは、まさにこの「1 回しか見たことのない事実」のことです。


🔍 発見:嘘は「自信のなさ」から生まれる?

これまでの常識では、「AI が嘘をつかないためには、もっと正確で自信を持てるように学習させないといけない」と考えられていました。つまり、「データから重複(ダブり)を消して、きれいなデータで学習させる(去勢)」のが正解だと思われていたのです。

しかし、この論文の著者たちは、**「実は逆だった!」**と発見しました。

「AI に少し『自信過剰』な部分を作れば、嘘は減る!」

彼らは、**「モノファクト率(1 回しか見たことのない事実の割合)」「モデルの不較正(自信と実際の正解率のズレ)」**という 3 つの要素が、嘘の量を決めていることを突き止めました。

  • モノファクトが多い = 1 回しか見たことのない事実が多い = 嘘が増える
  • 不較正(自信のズレ)を意図的に作る嘘が減る

🪄 解決策:「5% の魔法の繰り返し」

では、どうすればいいのでしょうか?彼らが提案した方法は、とてもシンプルで、少し驚くべきものです。

「学習データの中から、たった 5% だけの『特定の事実』を、あえて 10 回も 20 回も繰り返し見せる」

これこそが**「セレクトアップウェイト(選択的加重)」**という技術です。

🍳 料理の例えで説明します

AI の学習を「料理の練習」と想像してください。

  • 従来の方法(去勢): 100 種類の食材を、1 回ずつだけ丁寧に使う。
    • 結果:食材の名前は全部覚えるけど、1 回しか使っていない食材の味は曖昧で、料理中に「これ、何だったっけ?」と適当に言ってしまう(=ハルシネーション)。
  • 新しい方法(この論文): 100 種類の食材のうち、5 種類だけを、10 回も 20 回も使って練習する。
    • 結果:その 5 種類の食材については、AI は「これなら 100% 自信がある!」と過剰に自信を持ちます。
    • 魔法の瞬間: AI は、自信がない曖昧な食材(嘘をつきやすい部分)を使うのを避け、「自信がある食材」ばかりを使って料理するようになります。 その結果、全体としての「嘘(ハルシネーション)」が40% も減ったのです!

📉 なぜ「去勢(重複削除)」はダメなのか?

これまで AI 業界では、「学習データから重複を消して、きれいに整理する(去勢)」ことが絶対のルールでした。それは「AI が特定のデータだけを覚えて、他のことができなくなる(過学習)」のを防ぐためです。

しかし、この論文は**「去勢しすぎると、AI は『1 回しか見たことのない事実』に直面し、そこで自信を失って嘘をつき始める」**と指摘しています。
**「あえて少しだけ重複させて、AI に『自信過剰』な部分を作ることが、嘘を減らす鍵」**なのです。


🎯 結論:AI の「自信」を操る新しい時代

この研究が教えてくれることは、以下の 3 点です。

  1. 嘘は避けられないものではない: AI が嘘をつくのは、学習データの「1 回しか見たことのない事実」が多すぎるから。
  2. 自信過剰は悪ではない: 意図的に一部のデータを繰り返し見せて「自信過剰」にすることで、AI は不安定な部分(嘘になりやすい部分)を避けるようになる。
  3. シンプルが最強: 複雑な技術を使わず、**「5% のデータを 10 回繰り返す」**という単純な操作で、嘘を劇的に減らせる。

「AI に完璧な記憶を求めず、あえて『自信過剰』な部分を作ってあげれば、AI はもっと正直になる」
この発見は、AI の開発方法そのものを変える可能性を秘めています。


💡 一言でまとめると

「AI に『1 回しか見たことのないこと』を覚えさせすぎると、AI は自信を失って嘘をつく。だから、あえて『5% のこと』を何度も繰り返し教えて『自信過剰』にさせれば、嘘は減る!」

これは、AI の「性格」をデータを通じてコントロールする、新しい時代の入り口と言えるでしょう。