Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

この論文は、4 つの言語モデルと 5 つの提示条件を用いた実証研究により、展開制約を課しても LLM が生成する引用の存在率は 47.5% 以下に留まり、形式は整っていても事実無根の引用が多数含まれることを明らかにし、技術文献レビューやツールパイプラインへの導入前に事後検証の必要性を説いています。

Chen Zhao, Yuan Tang, Yitian Qian

公開日 Tue, 10 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI に論文を書かせると、本当に存在する参考文献を正しく出せるのか?」**という疑問を、まるで「探偵が嘘を見破る」ような実験で解明したものです。

簡単に言うと、**「AI は上手に嘘をつくのが得意で、特に『制約』をかけると、その嘘がより巧妙になり、見分けがつかなくなる」**という衝撃的な結果が報告されています。

以下に、難しい専門用語を使わず、身近な例え話で解説します。


🕵️‍♂️ 実験の舞台:「嘘発見器」を使った調査

研究者たちは、4 つの有名な AI(Claude, GPT-4o, LLaMA, Qwen)に、144 個の「学術的な質問」を投げかけました。
AI は「この質問に答える論文を 5〜8 個挙げて」という指示を受け、タイトルや著者、出版年、DOI(論文の ID 番号)まで含めてリストを作ります。

そして、研究者たちは**「Crossref」や「Semantic Scholar」という、世界中の論文データベースを網羅した「嘘発見器」を使って、AI が挙げたリストが「本当に存在する論文か」**を一つずつチェックしました。

🔍 発見された 3 つの「驚きの事実」

1. 「形は完璧でも、中身は空っぽ」な嘘

AI が作った参考文献リストは、見かけ上は完璧です。著者名も、雑誌名も、出版年も、すべて「ありそう」な形式で書かれています。
しかし、データベースで検索しても、その論文は存在しないというケースが大半でした。

  • 例え話:
    料理人が「最高のステーキ料理」を作ると言います。見た目も香りも本物のステーキそのものですが、中身は「プラスチックの偽物」だった、という感じです。
    特に
    「2020 年以降の論文だけ挙げて」という制約(時間制限)を与えると、AI は「2020 年以降」というルールは守りますが、中身の論文はほぼ 100% 存在しない
    という、最も危険な状態になりました。

2. 「存在するかも?」というグレーゾーンが大半

AI が挙げた参考文献のうち、3 割から 6 割は、「存在するとも、しないとも断定できない」状態(Unresolved)でした。
データベースに情報が不足しているのか、それとも AI が「ありそうな嘘」を混ぜているのか、自動では判断できないのです。

  • 例え話:
    警察が容疑者のリストを作ったとき、「犯人確定」も「無罪」もせず、「行方不明」が大半という状況です。
    さらに、手動でチェックしたところ、この「行方不明」グループの**半分近くは、実は「完全な嘘(捏造)」**であることが分かりました。「わからない」というのは、実は「嘘の可能性が高い」という意味だったのです。

3. 「お金持ちの AI」と「貧乏な AI」の差

有料の高性能 AI(Claude や GPT-4o)は、無料やオープンソースの AI(LLaMA や Qwen)よりも、少しだけ本物の論文を挙げる確率が高かったです。
しかし、**「高性能な AI でも、半分は嘘」**という状況でした。
特に「調査レポート風(多くの論文を挙げてまとめろ)」という指示を出すと、有料 AI と無料 AI の差がさらに広がりましたが、それでも無料 AI の嘘つき率は非常に高かったです。

⚠️ なぜこんなことが起きるのか?

AI は「次に来る言葉」を確率的に予測して文章を作ります。
「論文を挙げなさい」と言われると、AI は**「論文っぽく見える言葉の組み合わせ」**を一生懸命作ります。

  • 有名な研究者の名前
  • 有名な雑誌の名前
  • ありそうなタイトル

これらをパズルのように組み合わせて、**「本物そっくりな偽物」を量産してしまうのです。特に「特定の期間の論文だけ」とか「企業秘密だからデータ元は言えない」といった制約(ルール)**を課すと、AI は「本物がないから、無理やり作り上げろ」というプレッシャーを感じ、より巧妙な嘘をつくようになります。

💡 私たちが取るべき対策は?

この研究から得られた最も重要な教訓はこれです。

「AI が作った参考文献リストは、すべて『ドラフト(下書き)』だと考えなさい。絶対にそのまま使わないで!」

  • 確認が必要: AI が挙げた論文は、必ず Crossref や Google Scholar などで**「本当に存在するか」**を自分で確認する必要があります。
  • DOI を確認: 論文の ID(DOI)があるか、それが正しいかを確認しましょう。
  • AI 任せにしない: 学術論文や技術レポートを書く際、AI は「アイデア出し」や「文章の構成」には役立ちますが、「事実(参考文献)」の責任は人間が負う必要があります。

🎯 まとめ

この論文は、**「AI は嘘をつくのが上手すぎる」と警告しています。
特に、
「ルール(制約)を守っているように見えても、中身は嘘」**というパターンが最も危険です。

AI を使うときは、**「AI は優秀な助手だが、嘘つきな助手」であることを忘れず、「すべての参考文献は自分でチェックする」**という鉄則を守ることが、信頼できる研究や文章を作るための唯一の道です。