Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

该研究提出了一种基于最大似然估计的方法来检测大规模文本中由大语言模型显著修改或生成的内容,并以 ICLR 2024 等四场 AI 会议的同行评审为例,发现约 6.5% 至 16.9% 的评审意见可能涉及 LLM 的深度生成,且此类使用情况与评审者的低置信度、临近截止日期提交以及较少参与反驳回应等行为特征显著相关。

Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland, James Y. Zou

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次**“学术界的法医鉴定”**,但它不检查单个文件,而是检查整个“图书馆”里有多少书被“机器”悄悄改写过了。

想象一下,你开了一家非常严格的**“审稿人餐厅”**(比如 ICLR、NeurIPS 这些顶级 AI 会议)。以前,所有的评论(Review)都是由人类专家(厨师)亲手写的。但自从 ChatGPT 这个“超级自动烹饪机”出现后,大家开始怀疑:是不是有些评论其实是机器做的,或者人类只写了个大纲,然后让机器把它扩充成一篇完整的文章?

问题是,现在的机器写得太像人了,单凭肉眼去读每一条评论,根本分不清哪句是人写的,哪句是机器写的。这就好比让一个普通人去分辨两杯一模一样的咖啡,一杯是手冲的,一杯是机器冲的,几乎不可能。

这篇论文做了一件很聪明的事:他们不再盯着“每一杯咖啡”看,而是去闻“整个厨房”的味道。

1. 核心方法:闻“整体味道” (统计嗅觉)

作者发明了一种叫**“分布量化”**的方法。

  • 传统方法(笨办法): 试图给每一条评论打分,说“这句是 AI 写的,那句不是”。这就像试图在茫茫大海里分辨哪一滴水是机器倒进去的,既慢又不准。
  • 作者的方法(聪明办法): 他们收集了 ChatGPT 发布之前的人类评论(作为“人类味道”样本),又让 ChatGPT 模拟写评论(作为"AI 味道”样本)。
  • 关键发现: 他们发现 AI 写东西时,特别喜欢用一些特定的“调味词”,比如"commendable"(值得称赞的)、"meticulous"(一丝不苟的)、"intricate"(错综复杂的)。这些词在人类评论里很少见,但在 AI 生成的评论里却像**“味精”**一样,放得特别多。

于是,他们不需要看每一句话,只需要统计整个评论库里,这些“味精”出现的频率。如果“味精”味突然变浓了,那就说明这个库里混入了大量的 AI 内容。

2. 主要发现:AI 真的混进来了

通过这种“闻味道”的方法,他们发现:

  • AI 确实存在: 在 2023 年底 ChatGPT 发布后,顶级 AI 会议(如 ICLR 2024)的审稿意见中,大约有 6.5% 到 16.9% 的内容是实质性由 AI 修改或生成的。
    • 注意: 这不是说审稿人完全没动脑子,而是说他们可能只写了几个要点,然后让 AI 把它“扩写”成了一篇长文。这就像厨师只给了一个食谱大纲,然后让机器把菜做出来。
  • Nature 期刊很“干净”: 相比之下,像《Nature》这样涵盖生物、医学等广泛领域的期刊,并没有发现这种明显的"AI 味”增加。这说明 AI 目前主要是在它自己最擅长的领域(AI 研究)里“捣乱”,还没渗透到所有科学领域。

3. 谁在用?什么时候用?(有趣的副作用)

作者还像侦探一样,分析了在什么情况下"AI 味”最浓:

  • 赶工期时最浓: 离截止日期越近(最后 3 天),AI 生成的内容就越多。就像学生赶作业,时间不够了,就赶紧让 AI 帮忙“润色”一下。
  • 信心不足时最浓: 审稿人如果觉得自己对论文不太懂,或者自信心不足,就更倾向于用 AI 来帮忙写评论。
  • 不爱互动的审稿人: 那些写完评论后,不愿意去回复作者反驳意见(Rebuttal)的审稿人,使用 AI 的比例更高。这暗示他们可能只是想“快速交差”,不想深入参与讨论。
  • 内容变得“千篇一律”: 这是一个很可怕的发现。AI 生成的评论往往结构相似、用词重复。这导致整个审稿库里的意见变得**“同质化”**(Homogenization)。就像大家都用同一个模板写评语,失去了人类专家那种独特的、充满个人见解的火花。

4. 为什么这很重要?

这就好比如果一家餐厅的评论全是机器生成的,虽然看起来都很礼貌、很专业,但失去了灵魂

  • 对于作者: 你可能收到了一堆看似完美的评论,但里面没有真正懂你研究痛点的专家意见。
  • 对于科学: 科学进步需要多样化的观点碰撞。如果大家都用 AI 写评论,观点就会变得单一,科学创新可能会停滞。

总结

这篇论文并没有指责谁“作弊”,而是像**“气象预报”**一样,告诉我们:

“嘿,现在的学术评论天空里,确实飘着不少‘机器云’。虽然它们看起来像人写的,但如果你把整个天空连起来看,就能发现它们的比例正在悄悄上升,而且正在让天空变得有点‘单调’。”

作者呼吁大家关注这个现象,制定规则,确保未来的科学交流依然保持真实、多样和充满人类智慧