Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Re2 的大项目，你可以把它想象成是人工智能（AI）学习如何当“学术审稿人”的超级训练教材。

为了让你更容易理解，我们可以用"写论文就像做菜，审稿就像美食评论家"这个比喻来贯穿全文。

想象一下，现在全世界想发表“新菜谱”（学术论文）的人突然暴增，就像餐厅突然排起了长龙。

审稿人不够用：真正懂行的“美食评论家”（审稿人）数量没变，但要看的新菜谱太多了，导致他们累得半死，有时候只能随便看看，质量下降。
作者太盲目：很多作者没搞清楚自己的菜哪里难吃，就直接端给评论家。结果被退稿，改改再投，再退稿，再改……这就造成了大量的“重复劳动”和浪费。
AI 想帮忙，但没教材：大家想用 AI 来当“预审稿员”，帮作者提前挑刺，或者帮评论家写评语。但是，现有的 AI 教材（数据集）质量很差：
- 教材太旧/太偏：只收录了少数几家餐厅（会议）的数据。
- 教材造假：很多教材里给 AI 看的“菜谱”，其实是作者被批评后修改过的版本，而不是最初被批评的那个版本。这就好比让 AI 学习“怎么评价一道已经改好的菜”，而不是“怎么评价一道有问题的菜”，AI 学歪了。
- 缺少互动：以前的教材只有“评论家打分”这一页，没有“作者反驳”和“双方争论”的过程。但现实中，作者和评论家经常会有多轮对话。

为了解决这些问题，浙江大学的研究团队搞出了一个叫 Re2 的超级数据库。

规模巨大：它收集了来自 24 个顶级学术会议和 21 个工作坊的 近 2 万篇 原始论文、7 万多条 审稿意见，以及 5 万多条 作者反驳和讨论记录。这是目前世界上最大的同类教材。
保证“原汁原味”：这是 Re2 最厉害的地方。它确保给 AI 看的每一篇论文，都是作者第一次提交、还没被修改过的“初稿”。这样 AI 才能学会如何针对“有缺陷”的作品提出建设性意见，而不是对着“完美版”挑刺。
还原“吵架”现场：它把“作者反驳”和“审稿人回应”整理成了多轮对话的形式。就像把一场激烈的辩论赛完整录下来，让 AI 学习如何在对话中理解对方、逻辑清晰地回应，而不仅仅是写一段冷冰冰的评语。

研究人员用这个新教材训练了几个 AI 模型，发现效果惊人：

Re2 的出现，就像是给 AI 装上了一套“顶级厨艺学校”的教材。

一句话总结：
Re2 就是一个真实、完整且经过严格清洗的“学术审稿与辩论”大数据库，它让 AI 学会了如何像人类专家一样，从初稿开始，通过多轮对话，公正、专业地评价和打磨学术论文。

Re2 数据集技术总结