Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이 프로젝트가 필요했을까요? (문제 상황)

지금 AI 학계는 논문이 너무 많이 쏟아져서 심사위원 (리뷰어) 들이 감당할 수 없을 정도로 바쁩니다. 마치 인기 있는 식당에 손님이 너무 몰려서 요리사들이 지쳐버린 상황과 비슷하죠.

그런데 문제는, 질문이 낮은 논문들이 계속 다시 제출된다는 점입니다. 마치 요리 실력이 부족한 요리사가 "이 요리는 맛없다"는 평가를 받고, 고치지도 않은 채 똑같은 요리를 다시 내는 것과 같습니다.

이걸 해결하기 위해 AI 를 도입하려는데, 기존에 있던 '심사 데이터'가 너무 엉망이었습니다.

비유: 요리사 (AI) 를 가르치려고 하는데, 교재가 '처음 제출된 원고'가 아니라 '심사위원의 지적을 받고 고쳐진 최종본'이 섞여 있었습니다. 이러면 AI 는 "어? 이 논문은 처음부터 완벽했나?"라고 착각하게 되죠.
또 다른 문제: 대부분의 데이터는 "심사위원이 쓴 한 줄 평"만 있었고, "저자가 반박하고 심사위원이 다시 답하는 대화" 같은 실제 소통 과정은 빠져 있었습니다.

2. Re2 는 무엇인가요? (해결책)

저자들은 **"Re2"**라는 새로운 데이터셋을 만들었습니다. 이는 24 개 이상의 국제 학술대회와 워크숍에서 모은 19,926 편의 논문과 7 만 개 이상의 심사 의견, 그리고 5 만 개 이상의 반박 (Rebuttal) 대화를 담고 있습니다.

이 데이터의 핵심 특징은 세 가지입니다:

① '최초 제출본'만 엄선한 정직한 교재 (일관성)

기존 데이터는 고쳐진 버전이 섞여 있었지만, Re2 는 심사위원이 처음 본 그대로의 논문만 모았습니다.

비유: 요리 실력 평가를 할 때, 요리사가 "이 요리는 처음부터 완벽했다"고 거짓말하지 못하게, 처음 내온 요리의 사진만 모아둔 것입니다. 그래서 AI 가 "아, 이 정도 수준이면 고쳐야겠다"는 것을 정확히 배울 수 있습니다.

② 거대한 도서관 (다양성)

ICLR 이라는 한 대회 데이터만 쓰던 과거와 달리, 24 개의 다양한 대회 데이터를 모두 모았습니다.

비유: 요리 학교가 한 가지 요리 (예: 김치찌개) 만 가르치던 것을 넘어, 전 세계의 다양한 요리 (한식, 중식, 양식 등) 를 모두 가르치는 거대한 요리 도서관을 만든 것입니다.

③ '대화'를 배우는 교실 (멀티턴 대화)

가장 혁신적인 점은 심사위원과 저자의 '대화'를 학습시킨다는 것입니다.

비유: 예전에는 "심사위원이 점수를 매기는 것"만 가르쳤다면, Re2 는 **"심사위원이 "이건 좀 부족해"라고 하면, 저자가 "아니요, 사실은 이렇게 설명할 수 있어요"라고 반박하고, 심사위원이 다시 "오, 그건 좋은 생각이군"이라고 답하는 과정"**까지 모두 포함합니다.
이를 통해 AI 는 단순히 점수를 매기는 로봇이 아니라, **저자와 논쟁하며 논문을 다듬어 줄 수 있는 '현명한 조력자'**가 될 수 있게 됩니다.

3. 이걸로 무엇을 할 수 있나요? (효과)

이 Re2 데이터로 훈련된 AI 는 다음과 같은 일을 할 수 있습니다:

저자를 위한 '사전 점검' 도구: 논문을 제출하기 전에 AI 가 "이 부분은 심사위원이 싫어할 것 같아"라고 미리 알려줍니다. 마치 요리사가 손님에게 맛을 보고 "이건 소금기가 좀 더 필요해요"라고 미리 알려주는 것처럼, 논문 품질을 높이고 불필요한 재제출을 줄여줍니다.
심사위원의 '조수': 심사위원이 피곤할 때, AI 가 "이 논문의 핵심은 이거고, 약점은 저거예요"라고 요약해 주거나, 저자의 반박을 분석해 줍니다.
실시간 대화: 저자가 "왜 이 논문을 거절하셨나요?"라고 물으면, AI 가 심사위원의 입장에서 논리적으로 답변을 도와줍니다.

4. 결론

이 논문은 **"학술 심사의 질을 높이고, 모두의 시간을 아껴주기 위해, AI 가 진짜 인간 심사위원처럼 생각하고 대화할 수 있도록 만든 최고의 교재 (Re2)"**를 공개했다는 소식입니다.

앞으로 AI 가 이 데이터를 배워, 저자는 더 좋은 논문을 쓰고, 심사위원은 덜 지치며, 과학 연구가 더 빠르게 발전하는 선순환이 만들어지기를 기대합니다.

Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

1. 왜 이 프로젝트가 필요했을까요? (문제 상황)

2. Re2 는 무엇인가요? (해결책)

① '최초 제출본'만 엄선한 정직한 교재 (일관성)

② 거대한 도서관 (다양성)

③ '대화'를 배우는 교실 (멀티턴 대화)

3. 이걸로 무엇을 할 수 있나요? (효과)

4. 결론

논문 요약: Re2 (일관성 보장된 전체 단계 피어 리뷰 및 다턴 반박 토론 데이터셋)

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

1. 왜 이 프로젝트가 필요했을까요? (문제 상황)

2. Re2 는 무엇인가요? (해결책)

① '최초 제출본'만 엄선한 정직한 교재 (일관성)

② 거대한 도서관 (다양성)

③ '대화'를 배우는 교실 (멀티턴 대화)

3. 이걸로 무엇을 할 수 있나요? (효과)

4. 결론

논문 요약: Re2 (일관성 보장된 전체 단계 피어 리뷰 및 다턴 반박 토론 데이터셋)

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature