How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（大規模言語モデル）が論文を書くとき、嘘の参考文献（架空の論文）をどれだけ作り出してしまっているのか」**を徹底的に調査した、非常に重要な研究です。

まるで**「AI という名の新人アシスタントに、過去の偉大な先人の業績をリストアップしてもらおうとしたら、彼らがどれくらい『でっち上げ』をしてしまうか」**を、10 人の異なるアシスタントを相手に大規模なテストで検証したようなものです。

以下に、専門用語を排して、日常の比喩を使ってわかりやすく解説します。

1. 問題の本質：AI は「嘘つき」なのか？

以前から「AI は嘘をつく（ハルシネーション）」と言われていましたが、この研究では**「AI が嘘をつくのは、『参考文献をリストして』と頼まれたから」**だと突き止めました。

比喩：
もしあなたが「昨日食べた夕食について教えて」と聞けば、AI は正直に答えます。しかし、「過去の偉大な料理人のレシピを 10 個挙げて」と頼むと、AI は**「あ、この人はレシピが欲しいんだ！じゃあ、ありそうな名前を並べよう！」**と、実在しない料理人の名前と架空のレシピを勝手に作り出してしまいます。
- 発見： AI は「頼まれなければ」嘘をつきません。嘘をつくのは、「参考文献を挙げてくれ」という命令に応えようとして、無理やり作り出すからです。

2. 調査の規模：10 人の「料理人」と 7 万の「レシピ」

研究者は、OpenAI、Anthropic、Meta などの大手が提供している10 種類の AIをテストしました。

テスト内容： 4 つの分野（土木工学、環境科学、医療、AI 自体）について、それぞれ「最近の論文」と「古典的な論文」を求めました。
結果： 合計約 7 万個の参考文献を生成させ、実際に存在するかを 3 つのデータベースでチェックしました。
衝撃的な結果：
- 一番上手な AI（GPT-5-mini）は、嘘が**11%**程度でした。
- 一番下手な AI（haiku-4.5）は、嘘が**57%**にも達しました。
- つまり、**「同じ AI 家族でも、バージョンが新しいからといって、必ずしも上手くなるわけではない」**ことがわかりました。ある AI は進化し、別の AI は逆に退化してしまったのです。

3. なぜ嘘をつくのか？2 つの大きな理由

AI が嘘をつく確率は、以下の 2 つの要因で大きく変わりました。

A. 「最近」か「昔」か？（時間の罠）

現象： 「最近の論文」を求めると嘘が多くなり、「昔の古典的な論文」を求めると嘘が減りました。
比喩：
AI の脳（学習データ）は、「昔の新聞や本」はたくさん持っていますが、「昨日の新聞」はあまり持っていません。
「最近の論文」を求めると、AI は「昨日の新聞」がないので、「ありそうなタイトル」を想像して捏造してしまいます。一方、「昔の論文」は脳の中にしっかり記録されているので、正しく思い出せます。

B. 分野による違い

現象： AI や医学の分野では嘘が少なく、土木工学などの分野では嘘が多かったです。
理由： AI の学習データに、その分野の論文がどれだけ含まれているかによる差です。AI 分野はネット上にデータが溢れているので AI は得意ですが、土木工学のような専門的な分野はデータが少ないため、AI は「適当に作り出す」傾向が強くなります。

4. 見抜く方法：どうすれば嘘を見破れる？

この研究では、AI の嘘を見抜くための**「3 つの魔法のフィルター」**を見つけました。これを使えば、外部のデータベースを使わずに嘘を減らせます。

① 「3 人の AI に聞いてみる」作戦（多モデル合意）

方法： 同じ質問を 3 人の異なる AI に聞いて、**「3 人全員が同じ論文を挙げた場合」**だけ信じる。
効果： 1 人の AI だと嘘の確率は高いですが、3 人が一致すれば、正解率は 95% 以上になります。
比喩： 1 人の人が「あの店、美味しいよ」と言っても怪しいですが、3 人の異なる人が「同じ店」を勧めてきたら、その店は間違いなく存在するでしょう。

② 「同じ AI に 3 回聞いてみる」作戦（反復チェック）

方法： 1 つの AI に同じ質問を 3 回繰り返して、**「3 回とも同じ論文が出てきた場合」**だけ信じる。
効果： 嘘の論文は AI がその都度「その場で作り出す」ため、毎回バラバラになります。しかし、実在する論文は記憶から引っ張ってくるので、同じものが繰り返されます。
比喩： 嘘をついている人は、毎回話を変えてしまいますが、真実を記憶している人は、同じ話を繰り返します。

③ 「文字の見た目」で判断する（AI によるフィルタリング）

方法： 参考文献のリストを AI が作った「文字の形」だけでチェックするツールを開発しました。
発見： 嘘の参考文献には、**「著者の名前が短すぎる」「著者の数が少ない」「『et al.（他）』という言葉があまり使われていない」**という共通のクセがありました。
効果： このツールを使えば、データベースに問い合わせる前に、「これは怪しいかも」と瞬時に判断できます。

5. 重要な教訓：新しい AI は「万能」ではない

オープンソース vs クローズド： 中身が公開されている AI と、非公開の AI で嘘の多さに大きな差はありませんでした。
世代の進化： OpenAI の新しいモデルは嘘が減りましたが、Anthropic の新しいモデルは逆に嘘が増えました。
- 結論： 「最新バージョンだから安心」とは限りません。 開発者が「参考文献の正確さ」を重視して調整したかどうかで、性能は大きく変わります。

まとめ：私たちがどうすべきか

この論文は、**「AI に参考文献を任せるのは危険だが、正しい使い方をすれば防げる」**と教えています。

AI が勝手に参考文献をリストアップするのを待たない。
複数の AI に聞いて、一致したものだけを使う。
同じ AI に 3 回聞いて、安定して出るものだけを使う。
最終的には、人間が実際に存在するかを確認する。

AI は素晴らしい道具ですが、参考文献のような「事実」を扱うときは、**「AI は優秀な助手だが、嘘つきな可能性もある」**という前提で、人間が最終チェック役になることが不可欠です。

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

1. 問題の本質：AI は「嘘つき」なのか？

2. 調査の規模：10 人の「料理人」と 7 万の「レシピ」

3. なぜ嘘をつくのか？2 つの大きな理由

A. 「最近」か「昔」か？（時間の罠）

B. 分野による違い

4. 見抜く方法：どうすれば嘘を見破れる？

① 「3 人の AI に聞いてみる」作戦（多モデル合意）

② 「同じ AI に 3 回聞いてみる」作戦（反復チェック）

③ 「文字の見た目」で判断する（AI によるフィルタリング）

5. 重要な教訓：新しい AI は「万能」ではない

まとめ：私たちがどうすべきか

論文要約：LLM の引用とその重要性：AI 支援学術執筆における参照捏造のクロスモデル監査と幻影引用の検出手法

1. 問題定義

2. 研究方法論

2.1 対象モデルと実験設計

2.2 検証パイプライン

3. 主要な結果

3.1 モデル間のハルシネーション率の差異

3.2 時間的枠組みとドメインの影響

3.3 文献計量的バイアス

3.4 検出とフィルタリング手法の検証

3.5 モデル進化とスケーリング

4. 主要な貢献

5. 意義と結論

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

1. 問題の本質：AI は「嘘つき」なのか？

2. 調査の規模：10 人の「料理人」と 7 万の「レシピ」

3. なぜ嘘をつくのか？2 つの大きな理由

A. 「最近」か「昔」か？（時間の罠）

B. 分野による違い

4. 見抜く方法：どうすれば嘘を見破れる？

① 「3 人の AI に聞いてみる」作戦（多モデル合意）

② 「同じ AI に 3 回聞いてみる」作戦（反復チェック）

③ 「文字の見た目」で判断する（AI によるフィルタリング）

5. 重要な教訓：新しい AI は「万能」ではない

まとめ：私たちがどうすべきか

論文要約：LLM の引用とその重要性：AI 支援学術執筆における参照捏造のクロスモデル監査と幻影引用の検出手法

1. 問題定義

2. 研究方法論

2.1 対象モデルと実験設計

2.2 検証パイプライン

3. 主要な結果

3.1 モデル間のハルシネーション率の差異

3.2 時間的枠組みとドメインの影響

3.3 文献計量的バイアス

3.4 検出とフィルタリング手法の検証

3.5 モデル進化とスケーリング

4. 主要な貢献

5. 意義と結論

関連論文

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis