Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews
该研究提出了一种基于最大似然估计的方法来检测大规模文本中由大语言模型显著修改或生成的内容,并以 ICLR 2024 等四场 AI 会议的同行评审为例,发现约 6.5% 至 16.9% 的评审意见可能涉及 LLM 的深度生成,且此类使用情况与评审者的低置信度、临近截止日期提交以及较少参与反驳回应等行为特征显著相关。