Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

この論文は、最大尤度モデルを用いて AI 学会のピアレビュー(ICLR 2024 など)を分析し、提出されたレビューの 6.5%〜16.9% が LLM によって大幅に修正または生成された可能性があり、その使用は低自信度や締め切り間近のレビューで顕著であることを明らかにした。

Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland, James Y. Zou

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍪 1. 問題:「誰が作ったかわからないお菓子」が増えた

最近、AI(チャット GPT など)が文章を書くのが上手になりました。でも、AI が書いた文章と人間が書いた文章は、一つ一つ見ると**「どっちがどっちだかわからない」**くらい似てきています。

科学の世界では、論文を投稿する際、他の専門家が「この論文は良いか?」を審査します(ピアレビュー)。
「AI が審査を書いていないか?」と疑う声が上がりましたが、**「1 つずつチェックして『これは AI だ!』と断定するのは、もはや不可能」**というのが現状でした。

🔍 2. 解決策:「大鍋のスープ」を味わう

そこで、この論文の著者たちは**「1 つずつ見ないで、全体(大鍋)の味を測る」**というアイデアを考えました。

  • 従来の方法(1 つずつ見る):
    「このお菓子は AI 製か?」と一つ一つ鑑定しようとするので、時間がかかり、AI が上手に偽装すると見抜けない。
  • この論文の方法(大鍋を味わう):
    「このお菓子屋さんの全体的な味は、昔と比べてどう変わったか?」を見る。
    • 昔の人間が作ったお菓子(人間データ)
    • AI が作ったお菓子(AI データ)
    • 今、店に並んでいるお菓子(審査データ)

これらを混ぜて、「今のお菓子の中に、AI の味が何%混ざっているか」を統計的に計算するのです。

📊 3. 発見:「AI の味」が混ざり始めた

彼らは、AI 発表後の主要な AI 学会(ICLR, NeurIPS など)の審査データを分析しました。

  • 結果:
    審査文の約 7%〜17%(文章の量で言うと、10 行に 1 行〜2 行くらい)は、AI が大きく書き換えていたり、AI が生成した可能性が高いことがわかりました。
    • ICLR 2024(AI 学会): 約 10.6%
    • EMNLP 2023(言語処理学会): 約 16.9%
    • Nature 誌(総合科学誌): 変化なし(AI 使われていない)

面白い発見:

  • 締め切り直前: 締め切りが迫ると、AI を使う割合が急増しました(「間に合わせたい」心理)。
  • 自信がない人: 「自分の審査に自信がない」と答えた人は、AI を使う傾向がありました。
  • 引用がない人: 参考文献(「〜によると」など)が少ない審査文は、AI が作っている可能性が高いです(AI は嘘の参考文献を作りやすいため)。
  • 同じような意見: AI が書くと、審査文が「画一的(みんな同じような内容)」になりがちでした。

🧐 4. なぜ「AI」だとわかったのか?(魔法の調味料)

AI は、人間があまり使わない**「特別な形容詞」を好んで使う傾向があります。
例えば、
「commendable(賞賛に値する)」「meticulous(綿密な)」「intricate(複雑な)」**といった言葉です。

  • 人間: 「この論文は面白いね」
  • AI: 「この論文は驚くほど綿密で、賞賛に値する貢献です」

AI は、これらの「キラキラした言葉」を過剰に使う傾向があるため、文章全体にその「調味料」がどれくらい散りばめられているかを数えることで、AI の使用率を推測しています。

💡 5. 結論とメッセージ

この研究は、「AI が審査を完全に代わった」と言っているわけではありません。
多くの審査員は、自分の考えをまとめ、それを AI に「文章を整理・拡張」してもらうような使い方をしているようです。

しかし、大きな問題があります。

  • 画一化: AI を使うと、審査の意見が「みんな同じような味」になり、多様な視点(人間の直感や独自の批判)が失われる恐れがあります。
  • 責任: 締め切り直前に AI に任せて、本当にその論文を精査しているのか?という疑問が生じます。

まとめ:
この論文は、「AI が科学の審査にどれくらい入り込んでいるか」を、大規模に、正確に、そして安価に測る新しい「味覚テスト」を開発したという画期的な研究です。
これにより、科学コミュニティは AI の使い方を議論し、より良いルールを作るためのデータを手に入れました。


一言で言うと:
「1 つずつ見てもわからないけど、『全体の味』を測れば、AI が審査にどれくらい混ざっているかがバレるよ!そして、AI を使いすぎると審査が『みんな同じ味』になっちゃうから注意しよう」というお話です。