Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, die wissenschaftliche Welt ist eine riesige, überfüllte Bibliothek. Jeder, der ein neues Buch (eine Forschungsarbeit) schreiben möchte, muss es einem strengen Bibliothekar (dem Gutachter) vorlegen, bevor es in die Regale kommt.

Das Problem:
In den letzten Jahren haben sich so viele Autoren gemeldet, dass die Bibliothekare völlig überlastet sind. Es gibt zu viele Bücher, zu wenige Prüfer und die Qualität der Prüfungen leidet. Ein Teil des Problems ist, dass viele Autoren ihre Bücher immer wieder einreichen, ohne sie vorher richtig zu lesen und zu verbessern, weil ihnen das Werkzeug fehlt, um sich selbst zu prüfen.

Die Lösung: Ein neuer, riesiger Trainings-Atlas namens „Re2"
Die Forscher von der Zhejiang-Universität haben jetzt einen riesigen Datensatz namens Re2 erstellt. Man kann sich das wie einen perfekten Lehrbuch-Simulator für künstliche Intelligenz (KI) vorstellen.

Hier ist, was dieses Projekt so besonders macht, erklärt mit einfachen Bildern:

1. Der „Original"-Faktor (Konsistenz)

Früher hatten andere Datensätze ein großes Problem: Es war wie ein Kochkurs, bei dem die Schüler nur die fertigen Gerichte sehen durften, nicht aber die Zutaten, die am Anfang da waren. Oft waren die Texte in den Daten bereits korrigierte Versionen, nachdem die Kritiker schon gemeckert hatten.

Die Analogie: Stell dir vor, du lernst Schach, indem du nur die Endspiele von Profis siehst, aber nicht, wie sie die Partie angefangen haben. Das verwirrt dich.
Re2 macht es anders: Der Datensatz enthält nur die ganz ursprünglichen, unveränderten Manuskripte, genau so, wie sie der Autor zum ersten Mal eingereicht hat. Die KI lernt also, ein rohes, unfertiges Manuskript zu lesen und zu bewerten, genau wie ein echter Gutachter es tun muss.

2. Die „Gesprächs"-Ebene (Multi-Turn Rebuttal)

Bisher haben die meisten KI-Systeme nur eine Aufgabe gelernt: Ein Gutachter liest, schreibt einen Kommentar, und fertig. Das ist wie ein Briefwechsel, bei dem man nur einen Satz schreibt und dann wartet.

Die Analogie: In der echten Welt ist Peer-Review aber wie ein lebendiges Gespräch oder ein Fußballspiel mit vielen Pässen. Der Gutachter sagt: „Hier fehlt etwas!" Der Autor antwortet: „Ah, danke, ich habe das jetzt nachgerechnet!" Der Gutachter sagt: „Okay, aber was ist mit dem anderen Punkt?"
Re2 macht es anders: Dieser Datensatz fängt genau diese Gespräche ein. Er verwandelt die oft chaotischen E-Mail-Ketten und Kommentare in eine strukturierte, mehrstufige Konversation. Die KI lernt also nicht nur zu urteilen, sondern auch, wie man auf Kritik reagiert, Argumente verteidigt und gemeinsam eine Lösung findet.

3. Die Größe und Vielfalt

Bisher basierten viele KI-Trainings nur auf Daten von ein oder zwei sehr bekannten Konferenzen (wie ICLR). Das ist, als würde man einen Fußballspieler nur auf einem einzigen, sehr speziellen Rasen trainieren lassen.

Re2 macht es anders: Der Datensatz ist der größte seiner Art weltweit. Er enthält Daten von 45 verschiedenen Konferenzen und Workshops über einen Zeitraum von 8 Jahren. Es ist wie ein Trainingslager, in dem die KI Spieler aus allen möglichen Ligen und auf allen möglichen Feldern gesehen hat.

Was bringt das uns?

Mit diesem „Super-Atlas" (Re2) können wir KI-Modelle trainieren, die zwei Dinge tun können:

Für Autoren: Die KI kann wie ein persönlicher Coach fungieren. Bevor ein Autor sein Manuskript einreicht, kann er es der KI geben, die dann sagt: „Hey, hier ist ein Fehler, hier fehlt eine Erklärung, hier ist der Text unklar." Das hilft Autoren, ihre Arbeit zu verbessern, bevor sie sie einreichen.
Für Gutachter: Die KI kann wie ein Assistent arbeiten, der dem überlasteten Gutachter hilft, schnellere und genauere Kommentare zu formulieren.

Zusammenfassung:
Re2 ist wie ein riesiges, perfekt organisiertes Archiv von echten wissenschaftlichen Diskussionen. Es lehrt die KI, wie man wissenschaftliche Arbeiten fair bewertet und wie man konstruktiv über Fehler diskutiert. Das Ziel ist es, den wissenschaftlichen Prozess schneller, fairer und weniger stressig für alle Beteiligten zu machen.

Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

1. Der „Original"-Faktor (Konsistenz)

2. Die „Gesprächs"-Ebene (Multi-Turn Rebuttal)

3. Die Größe und Vielfalt

Was bringt das uns?

1. Problemstellung

2. Methodik und Datensatz (Re2)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Re2: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

1. Der „Original"-Faktor (Konsistenz)

2. Die „Gesprächs"-Ebene (Multi-Turn Rebuttal)

3. Die Größe und Vielfalt

Was bringt das uns?

1. Problemstellung

2. Methodik und Datensatz (Re2)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature