Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat wetenschap een enorme, drukke bibliotheek is waar elke dag duizenden nieuwe boeken (onderzoekspapers) worden ingeleverd. Om te zorgen dat alleen de beste boeken worden opgenomen in de collectie, zijn er "boekenrecensenten" (de reviewers) nodig. Maar er is een groot probleem: er komen zoveel boeken binnen dat de recensenten het niet meer redden. Ze raken overbelast, de kwaliteit van hun recensies zakt, en sommige auteurs sturen hun boek steeds opnieuw in, omdat ze niet weten wat er mis is voordat ze het opsturen.

De auteurs van dit paper, Re2, hebben een oplossing bedacht die lijkt op het bouwen van een super-georganiseerde, digitale spiegel voor deze bibliotheek. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: Een rommelige archiefkast

Vroeger hadden onderzoekers die kunstmatige intelligentie (AI) wilden trainen om te helpen met recensies, slechts een paar oude, rommelige archiefkasten.

Verouderde versies: Vaak kregen ze de gewijzigde versie van een boek, niet het origineel. Dat is alsof je een recensent vraagt: "Wat vind je van dit verhaal?" terwijl je hem het verhaal geeft dat de schrijver al heeft aangepast nadat hij de kritiek had gekregen. De AI leert dan verkeerde patronen.
Te weinig diversiteit: De data kwam vaak maar van één of twee grote conferenties, alsof je alleen maar boeken uit één stad bekijkt en denkt dat dat de hele wereld is.
Geen dialoog: De meeste datasets waren statisch. Ze hadden alleen de recensie, maar niet de discussie erna. In het echte leven is een recensie echter vaak het begin van een gesprek: de schrijver zegt "Ik ben het niet eens" en de recensent reageert. Die dynamiek ontbrak.

2. De Oplossing: De "Re2" Bibliotheek

De auteurs hebben Re2 gebouwd. Dit is tot nu toe de grootste en meest complete verzameling van echte academische recensies, recensies en discussies die er bestaat.

De "Originele" Versie: Ze hebben er voor gezorgd dat ze alleen de eerste versie van de papers hebben gebruikt, precies zoals de schrijver die heeft ingediend voordat er iets veranderd was. Dit is cruciaal voor de "eerlijkheid" van de data. Het is alsof je een spiegel hebt die de waarheid toont, zonder filters.
De "Gespreks"-Modus: Ze hebben de discussies tussen schrijvers en recensenten omgezet in een meerdere-ronde gesprek (een chat). Stel je voor dat je een AI traint die niet alleen een briefje schrijft met "Dit is goed/slecht", maar die ook kan meedenken in een gesprek: "Ah, je zegt dat je de code hebt toegevoegd? Dat is een goed punt, maar heb je ook dit andere probleem opgelost?"
De Omvang: Ze hebben data verzameld van 45 verschillende plekken (conferenties en workshops) over de afgelopen jaren. Het is alsof ze niet alleen naar boeken uit Amsterdam kijken, maar uit heel Europa, en ze hebben alles in één standaard formaat gezet zodat het makkelijk te gebruiken is.

3. Waarom is dit nuttig? (De "AI-Assistent")

Met deze enorme, schone dataset kunnen ze nu slimme AI-assistenten bouwen die twee dingen doen:

Voor de Schrijver (De "Proeflezer"): Voordat een schrijver zijn paper indient, kan hij de AI vragen: "Hoe zou een echte recensent dit vinden?" De AI, getraind op Re2, kan zeggen: "Je hebt een sterke introductie, maar je vergat je experimenten te beschrijven." Hierdoor sturen schrijvers betere papers in, en hoeven ze minder vaak opnieuw te sturen.
Voor de Recensent (De "Hulpkracht"): De AI kan helpen bij het schrijven van de recensie zelf, zodat de druk op de menselijke reviewers minder wordt. Ze kunnen sneller en beter feedback geven.

4. Het Resultaat: Een betere cyclus

In het kort: Re2 is de "trainingsgrond" voor AI die beter begrijpt hoe wetenschappelijk recenseren werkt.

Vroeger: AI zag alleen losse stukjes tekst en leerde verkeerde patronen.
Nu: AI ziet het hele verhaal: het originele werk, de eerlijke kritiek, en de constructieve discussie erna.

Dit helpt niet alleen de AI om slimmer te worden, maar het maakt het hele proces van wetenschappelijk publiceren ook minder stressvol en eerlijker voor iedereen: schrijvers krijgen betere feedback, en reviewers krijgen minder werk. Het is alsof je een bibliotheek hebt die zichzelf organiseert, zodat de beste boeken sneller en makkelijker gevonden worden.

Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

1. Het Probleem: Een rommelige archiefkast

2. De Oplossing: De "Re2" Bibliotheek

3. Waarom is dit nuttig? (De "AI-Assistent")

4. Het Resultaat: Een betere cyclus

Probleemstelling

Methodologie: De Re2 Dataset

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

1. Het Probleem: Een rommelige archiefkast

2. De Oplossing: De "Re2" Bibliotheek

3. Waarom is dit nuttig? (De "AI-Assistent")

4. Het Resultaat: Een betere cyclus

Probleemstelling

Methodologie: De Re2 Dataset

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature