Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 Re2 的大项目,你可以把它想象成是人工智能(AI)学习如何当“学术审稿人”的超级训练教材。
为了让你更容易理解,我们可以用"写论文就像做菜,审稿就像美食评论家"这个比喻来贯穿全文。
1. 现在的麻烦是什么?(背景)
想象一下,现在全世界想发表“新菜谱”(学术论文)的人突然暴增,就像餐厅突然排起了长龙。
- 审稿人不够用:真正懂行的“美食评论家”(审稿人)数量没变,但要看的新菜谱太多了,导致他们累得半死,有时候只能随便看看,质量下降。
- 作者太盲目:很多作者没搞清楚自己的菜哪里难吃,就直接端给评论家。结果被退稿,改改再投,再退稿,再改……这就造成了大量的“重复劳动”和浪费。
- AI 想帮忙,但没教材:大家想用 AI 来当“预审稿员”,帮作者提前挑刺,或者帮评论家写评语。但是,现有的 AI 教材(数据集)质量很差:
- 教材太旧/太偏:只收录了少数几家餐厅(会议)的数据。
- 教材造假:很多教材里给 AI 看的“菜谱”,其实是作者被批评后修改过的版本,而不是最初被批评的那个版本。这就好比让 AI 学习“怎么评价一道已经改好的菜”,而不是“怎么评价一道有问题的菜”,AI 学歪了。
- 缺少互动:以前的教材只有“评论家打分”这一页,没有“作者反驳”和“双方争论”的过程。但现实中,作者和评论家经常会有多轮对话。
2. Re2 是什么?(核心方案)
为了解决这些问题,浙江大学的研究团队搞出了一个叫 Re2 的超级数据库。
- 规模巨大:它收集了来自 24 个顶级学术会议和 21 个工作坊的 近 2 万篇 原始论文、7 万多条 审稿意见,以及 5 万多条 作者反驳和讨论记录。这是目前世界上最大的同类教材。
- 保证“原汁原味”:这是 Re2 最厉害的地方。它确保给 AI 看的每一篇论文,都是作者第一次提交、还没被修改过的“初稿”。这样 AI 才能学会如何针对“有缺陷”的作品提出建设性意见,而不是对着“完美版”挑刺。
- 还原“吵架”现场:它把“作者反驳”和“审稿人回应”整理成了多轮对话的形式。就像把一场激烈的辩论赛完整录下来,让 AI 学习如何在对话中理解对方、逻辑清晰地回应,而不仅仅是写一段冷冰冰的评语。
3. 这个教材有什么用?(实验效果)
研究人员用这个新教材训练了几个 AI 模型,发现效果惊人:
- 更会“挑刺”了:AI 现在能更准确地预测一篇论文会不会被录用,或者能给出更合理的分数(就像美食评论家能更精准地判断菜好不好吃)。
- 更会“写评语”了:AI 生成的审稿意见,在语言风格和内容深度上,都更像真正的人类专家,而不是像机器人写的套话。
- 更会“辩论”了:在多轮对话中,AI 能更好地理解作者的辩解,并给出有逻辑的回应,而不是顾左右而言他。
4. 这对我们意味着什么?(未来愿景)
Re2 的出现,就像是给 AI 装上了一套“顶级厨艺学校”的教材。
- 对作者:在正式投稿前,可以先让 AI 当“模拟审稿人”看看自己的论文,提前发现漏洞并修改。这样能减少被退稿的次数,少做无用功。
- 对审稿人:AI 可以辅助人类审稿人,帮他们起草初稿或整理重点,减轻他们的工作负担。
- 对学术界:最终目的是让学术界的“做菜”和“评菜”过程更高效、更公平,让真正的好作品能更快被大家看到。
一句话总结:
Re2 就是一个真实、完整且经过严格清洗的“学术审稿与辩论”大数据库,它让 AI 学会了如何像人类专家一样,从初稿开始,通过多轮对话,公正、专业地评价和打磨学术论文。
Each language version is independently generated for its own context, not a direct translation.
Re2 数据集技术总结
1. 研究背景与问题 (Problem)
同行评审是科学进步(尤其是 AI 领域)的基石,但近年来投稿量的激增导致评审系统不堪重负,引发了审稿人短缺和评审质量下降的问题。除了学科热度增加外,另一个关键因素是大量低质量稿件的重复提交,这主要是因为作者缺乏有效的工具在提交前进行自我评估。
虽然大语言模型(LLM)在辅助作者和审稿人方面展现出巨大潜力,但其性能受限于同行评审数据的质量。现有的同行评审数据集存在三大主要局限性:
- 数据多样性不足:大多数数据集仅基于少数会议(主要是 ICLR),缺乏跨会议、跨年份的广泛覆盖。
- 数据一致性与质量缺陷:许多数据集提供的论文内容并非初始投稿版本,而是经过作者根据审稿意见修改后的版本。这导致论文内容与审稿意见不匹配,破坏了训练数据的逻辑一致性。
- 任务支持单一:现有数据集主要关注静态的评审生成或预测任务,缺乏对**反驳(Rebuttal)和讨论(Discussion)**阶段的深入支持,无法构建多轮对话范式来模拟真实的作者 - 审稿人互动。
2. 方法论 (Methodology)
为了解决上述问题,作者提出了 Re2(A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions),这是目前最大的、确保一致性的同行评审与反驳数据集。
2.1 数据收集与处理
- 数据来源:从 OpenReview 平台爬取了 2017 年至 2025 年间 24 个会议和 21 个工作坊 的公开数据,涵盖 68 个会议(最终筛选出 45 个有效来源)。
- 确保一致性(核心创新):
- 针对每个会议和年份,收集具体的投稿截止日期。
- 利用网络爬虫技术,从每篇论文的“修订历史(Revision History)”页面中提取截止日期前的最新版本,确保所有论文内容均为初始投稿版本,而非修改后的版本。
- 通过人工审计和定制化提取逻辑,处理不同会议和年份间的数据格式差异,统一提取完整的评审记录(包括元数据、评审意见、评分、反驳、元评审等)。
- 格式转换:使用商业工具 Doc2X 将 PDF 论文转换为 LaTeX 和 Markdown 格式,特别优化了数学公式的识别准确率。
2.2 数据集构建
Re2 包含两个主要子集:
- Re2-Review:包含 19,926 篇初始投稿 和 70,668 条人类评审意见。支持接受预测、评分预测、评审生成等静态任务。
- Re2-Rebuttal:包含 14,830 篇初始投稿 及其对应的 53,818 条反驳与讨论记录。
- 多轮对话构建:将反驳和讨论阶段重构为结构化的多轮对话。
- 内容合并策略:
- 针对 OpenReview 的字符限制导致的作者分条回复,将同一角色的连续回复合并为单轮对话。
- 剔除仅作为提醒或催促的无效回复。
- 对于“全局回复(Global Response)”,将其作为补充上下文插入到相关评审意见的对话流中,而非直接作为回复,以保持逻辑连贯性。
- 最终形成高质量的、自洽的多轮对话数据集。
3. 关键贡献 (Key Contributions)
- 规模最大且一致性最强:Re2 是目前最大的真实世界同行评审数据集,涵盖范围最广(24 个会议 +21 个工作坊),评审阶段最完整(从初始投稿到最终决定)。最重要的是,它100% 确保论文内容为初始投稿版本,解决了现有数据集版本不一致的致命缺陷。
- 首创多轮对话范式:首次将反驳和讨论数据构建为多轮对话任务,支持动态、交互式的 LLM 评审助手训练,使模型不仅能生成静态评审,还能理解作者反驳并进行多轮互动。
- 全面的统计分析与实验验证:对数据集进行了详尽的统计分析(长度分布、会议分布、关键词分布、评分分布等),并通过四个任务(接受预测、评分预测、评审生成、反驳对话)的实验,证明了该数据集能显著提升 LLM 在评审场景下的能力。
4. 实验结果 (Results)
作者在 Re2 数据集上对多个开源 LLM(如 LLaMA-3.1-8B, Qwen2.5-7B)进行了微调(SFT),并与现有基线模型进行了对比:
- 接受与评分预测:
- 微调后的模型在准确率、召回率和 F1 分数上表现更优,显著降低了评分预测的均方误差(MSE)和平均绝对误差(MAE)。
- 证明了数据能有效纠正 LLM“讨好人类”(倾向于接受所有论文)的偏差,使其更贴近人类审稿人的判断逻辑。
- 评审生成:
- 微调后的 LLaMA-3.1-8B 在 BLEU 和 ROUGE-L 指标上大幅超越零样本(Zero-shot)版本及其他基线模型。
- 在语义相似度(EmbedCos)上,微调模型比第三名高出近 50%,表明生成的评审在语义空间上与真实评审高度对齐。
- 反驳 - 讨论对话:
- 在语义相似度和基于 LLM 的评判(LLM-as-judge)中,微调模型在准确性、建设性、完整性、清晰度和质量五个维度上均表现最佳。
- 证明了 Re2 数据能有效提升模型在多轮互动场景下的表现,使其能生成更具上下文感知和建设性的反馈。
5. 意义与影响 (Significance)
- 缓解评审压力:通过提供高质量数据训练 LLM 辅助工具,帮助作者在提交前进行自我评估和修改,减少低质量稿件的重复提交,从而减轻审稿人的负担。
- 推动交互式评审研究:打破了传统静态评审的局限,为构建动态、交互式的 AI 评审助手奠定了基础,使 LLM 能够模拟真实的学术讨论过程。
- 社区资源:Re2 数据集和代码已开源,为学术界提供了一个统一、高质量、版本一致的基准,有助于推动自动化同行评审领域的标准化发展。
- 未来展望:虽然当前主要关注文本内容,但该数据集为未来结合视觉 - 语言模型(处理图表等视觉元素)进行更全面的学术评审提供了坚实基础。
总结:Re2 通过解决数据一致性和多样性问题,并引入多轮对话范式,为训练下一代智能同行评审系统提供了关键的数据基础设施,有望显著改善 AI 领域的学术评审生态。