Quantifying Hallucinations in Language Language Models on Medical Textbooks

本論文は、医療教科書に基づく質問応答において大規模言語モデルが事実と異なる回答(ハルシネーション)を生成する頻度を定量化し、その発生率が低いほど臨床医による有用性評価が高くなる傾向があることを示しています。

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が医療の教科書を読んでも、なぜか嘘をついてしまう(幻覚を起こしてしまう)現象」**を調べた研究です。

医療のような命に関わる分野で、AI が「自信満々に間違ったことを言う」のは非常に危険です。この研究では、その危険性を数値化し、どの AI がどれくらい嘘をつきやすいか、そして医師たちはそれをどう評価したかを明らかにしました。

以下に、専門用語を避け、身近な例え話を使って解説します。


🏥 研究の背景:「優秀な生徒」の嘘

まず、現在の医療 AI(大規模言語モデル)は、試験問題の正解率では「天才」レベルの点数を取ります。しかし、それは**「教科書を丸暗記しているだけ」**で、本当に理解しているわけではありません。

  • 例え話:
    想像してください。ある生徒が、試験で「100 点」を取ったとします。でも、その試験問題は「教科書の 1 ページ目」から出題されたもので、生徒はただそのページを丸暗記しただけでした。
    ところが、試験官が「教科書の 5 ページ目」から新しい問題を出すと、その生徒は**「自信満々に、しかし完全に間違えた答え」を言い出します。これを AI の世界では「幻覚(Hallucination)」**と呼びます。

これまでの研究では、AI が「教科書(信頼できる情報源)」に基づいて答えるかどうかを厳しくチェックする仕組みが不足していました。この論文は、その**「厳格なテスト」**を作りました。


🔍 実験のやり方:「教科書と AI の対決」

研究者たちは、以下の手順で実験を行いました。

  1. 教科書の選定: 著作権切れの公開された医療教科書から、重要な文章を抜き出しました。
  2. 質問の作成: AI 自身に、その教科書の内容に基づいて「質問と答え」のペアを作らせました。
  3. AI へのテスト: 作った質問を、最新の AI(LLaMA-70B など)に「教科書を見ながら」答えさせました。
  4. 医師によるチェック: 実際の医師たちが、AI の答えを「教科書の内容と一致しているか」厳しくチェックしました。

📊 驚きの結果:「98% は完璧に見えるが、20% は嘘」

実験の結果、いくつかの重要な発見がありました。

1. 嘘の頻度

有名なオープンソースの AI(LLaMA-70B)にテストさせたところ、**答えの約 20%(5 つに 1 つ)が「教科書にない嘘」**でした。

  • 重要なお知らせ: この嘘は、**「98% の確率で、非常に説得力があり、プロっぽい言葉遣い」**をしていました。
  • 例え話:
    詐欺師が、完璧なスーツを着て、流暢な言葉で嘘をついているようなものです。一般人が見れば「すごい専門家だ!」と思ってしまいますが、実は中身は空っぽか、嘘だらけなのです。

2. 医師の評価と AI の性能

研究者は、8 種類の異なる AI に同じテストを行いました。

  • 結果: 「嘘が少ない AI」ほど、医師から「役に立つ(Good)」と評価されました。
  • 傾向: AI のサイズが大きいほど(頭脳が大きいほど)、嘘の割合は減りました。しかし、「どんなに大きな AI でも、嘘をゼロにはできませんでした。」

3. 難しい質問ほど嘘が増える

  • 「逆の質問」: 「A 薬は安全か?」と聞くと正解でも、「A 薬は安全ではないか?」と聞くと、AI は混乱して嘘をつきやすくなりました。
  • 「リスト形式」: 「メトホルミンの禁忌(使ってはいけない条件)をすべてリストアップして」と聞くと、多くの AI が重要な条件を抜けたり、嘘の条件を加えたりしました。

💡 結論と教訓:「AI はまだ医者にはなれない」

この研究から得られた最大のメッセージは以下の通りです。

  1. AI は「完璧な嘘つき」になりうる:
    医療の現場で AI を使う際、その答えが「もっともらしい(説得力がある)」からといって、信用してはいけません。20% の確率で嘘をついている可能性があるからです。
  2. 人間(医師)のチェックが不可欠:
    AI が答えを出しても、最終的には**「人間の医師が、元の教科書と照らし合わせて確認する」**必要があります。
  3. コストの問題:
    自動で AI を使うのは簡単ですが、その嘘を人間がチェックして直すには、時間とコストがかかります。この「人間のチェックコスト」が、医療現場で AI を本格的に使うための最大の壁となっています。

🎒 まとめ

この論文は、**「AI は医療の教科書を読んでも、まだ『独り言』を言っている状態」**だと警鐘を鳴らしています。

AI は非常に賢く、流暢に話せますが、**「教科書に書いてあること以外を勝手に付け加えてしまう」という癖があります。そのため、医療のような命に関わる分野では、「AI は助手として使うが、最終的な判断とチェックは必ず人間が行う」**というルールが、現時点では絶対に必要だと言っています。

AI 技術は進歩していますが、**「嘘をつかない AI」**を作るには、まだ人間の手による厳格なチェックが欠かせないのです。