Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI に論文を書かせると、本当に存在する参考文献を正しく出せるのか？」**という疑問を、まるで「探偵が嘘を見破る」ような実験で解明したものです。

簡単に言うと、**「AI は上手に嘘をつくのが得意で、特に『制約』をかけると、その嘘がより巧妙になり、見分けがつかなくなる」**という衝撃的な結果が報告されています。

以下に、難しい専門用語を使わず、身近な例え話で解説します。

🕵️‍♂️ 実験の舞台：「嘘発見器」を使った調査

研究者たちは、4 つの有名な AI（Claude, GPT-4o, LLaMA, Qwen）に、144 個の「学術的な質問」を投げかけました。
AI は「この質問に答える論文を 5〜8 個挙げて」という指示を受け、タイトルや著者、出版年、DOI（論文の ID 番号）まで含めてリストを作ります。

そして、研究者たちは**「Crossref」や「Semantic Scholar」という、世界中の論文データベースを網羅した「嘘発見器」を使って、AI が挙げたリストが「本当に存在する論文か」**を一つずつチェックしました。

🔍 発見された 3 つの「驚きの事実」

1. 「形は完璧でも、中身は空っぽ」な嘘

AI が作った参考文献リストは、見かけ上は完璧です。著者名も、雑誌名も、出版年も、すべて「ありそう」な形式で書かれています。
しかし、データベースで検索しても、その論文は存在しないというケースが大半でした。

例え話：
料理人が「最高のステーキ料理」を作ると言います。見た目も香りも本物のステーキそのものですが、中身は「プラスチックの偽物」だった、という感じです。
特に「2020 年以降の論文だけ挙げて」という制約（時間制限）を与えると、AI は「2020 年以降」というルールは守りますが、中身の論文はほぼ 100% 存在しないという、最も危険な状態になりました。

2. 「存在するかも？」というグレーゾーンが大半

AI が挙げた参考文献のうち、3 割から 6 割は、「存在するとも、しないとも断定できない」状態（Unresolved）でした。
データベースに情報が不足しているのか、それとも AI が「ありそうな嘘」を混ぜているのか、自動では判断できないのです。

例え話：
警察が容疑者のリストを作ったとき、「犯人確定」も「無罪」もせず、「行方不明」が大半という状況です。
さらに、手動でチェックしたところ、この「行方不明」グループの**半分近くは、実は「完全な嘘（捏造）」**であることが分かりました。「わからない」というのは、実は「嘘の可能性が高い」という意味だったのです。

3. 「お金持ちの AI」と「貧乏な AI」の差

有料の高性能 AI（Claude や GPT-4o）は、無料やオープンソースの AI（LLaMA や Qwen）よりも、少しだけ本物の論文を挙げる確率が高かったです。
しかし、**「高性能な AI でも、半分は嘘」**という状況でした。
特に「調査レポート風（多くの論文を挙げてまとめろ）」という指示を出すと、有料 AI と無料 AI の差がさらに広がりましたが、それでも無料 AI の嘘つき率は非常に高かったです。

⚠️ なぜこんなことが起きるのか？

AI は「次に来る言葉」を確率的に予測して文章を作ります。
「論文を挙げなさい」と言われると、AI は**「論文っぽく見える言葉の組み合わせ」**を一生懸命作ります。

有名な研究者の名前
有名な雑誌の名前
ありそうなタイトル

これらをパズルのように組み合わせて、**「本物そっくりな偽物」を量産してしまうのです。特に「特定の期間の論文だけ」とか「企業秘密だからデータ元は言えない」といった制約（ルール）**を課すと、AI は「本物がないから、無理やり作り上げろ」というプレッシャーを感じ、より巧妙な嘘をつくようになります。

💡 私たちが取るべき対策は？

この研究から得られた最も重要な教訓はこれです。

「AI が作った参考文献リストは、すべて『ドラフト（下書き）』だと考えなさい。絶対にそのまま使わないで！」

確認が必要： AI が挙げた論文は、必ず Crossref や Google Scholar などで**「本当に存在するか」**を自分で確認する必要があります。
DOI を確認： 論文の ID（DOI）があるか、それが正しいかを確認しましょう。
AI 任せにしない： 学術論文や技術レポートを書く際、AI は「アイデア出し」や「文章の構成」には役立ちますが、「事実（参考文献）」の責任は人間が負う必要があります。

🎯 まとめ

この論文は、**「AI は嘘をつくのが上手すぎる」と警告しています。
特に、「ルール（制約）を守っているように見えても、中身は嘘」**というパターンが最も危険です。

AI を使うときは、**「AI は優秀な助手だが、嘘つきな助手」であることを忘れず、「すべての参考文献は自分でチェックする」**という鉄則を守ることが、信頼できる研究や文章を作るための唯一の道です。

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

🕵️‍♂️ 実験の舞台：「嘘発見器」を使った調査

🔍 発見された 3 つの「驚きの事実」

1. 「形は完璧でも、中身は空っぽ」な嘘

2. 「存在するかも？」というグレーゾーンが大半

3. 「お金持ちの AI」と「貧乏な AI」の差

⚠️ なぜこんなことが起きるのか？

💡 私たちが取るべき対策は？

🎯 まとめ

論文要約：Deployment Constraints Make LLMs Hallucinate Citations?

1. 問題定義 (Problem)

2. 研究方法 (Methodology)

実験設計

検証パイプライン

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

全体的な傾向

具体的な発見

SE 分野への関連性

5. 意義と示唆 (Significance & Implications)

結論

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

🕵️‍♂️ 実験の舞台：「嘘発見器」を使った調査

🔍 発見された 3 つの「驚きの事実」

1. 「形は完璧でも、中身は空っぽ」な嘘

2. 「存在するかも？」というグレーゾーンが大半

3. 「お金持ちの AI」と「貧乏な AI」の差

⚠️ なぜこんなことが起きるのか？

💡 私たちが取るべき対策は？

🎯 まとめ

論文要約：Deployment Constraints Make LLMs Hallucinate Citations?

1. 問題定義 (Problem)

2. 研究方法 (Methodology)

実験設計

検証パイプライン

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

全体的な傾向

具体的な発見

SE 分野への関連性

5. 意義と示唆 (Significance & Implications)

結論

関連論文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities