$\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie KI lernt, nicht stur weiterzumachen, wenn sie auf dem Holzweg ist

Stell dir vor, du hast einen sehr intelligenten, aber manchmal etwas sturen Schüler. Dieser Schüler (die KI) ist extrem gut darin, mathematische Rätsel zu lösen, aber er hat einen großen Fehler: Wenn er einmal einen falschen Weg eingeschlagen hat, gibt er nicht auf. Er denkt: „Ich muss einfach nur noch mehr nachdenken, dann wird es schon passen!"

Das Ergebnis? Er schreibt endlose, verworrene Texte voller Fehler, verbringt viel Zeit und Energie und kommt am Ende trotzdem zu einem falschen Ergebnis. Man nennt das im Englischen „Overthinking" (Überdenken).

Die Forscher aus diesem Papier haben eine Lösung gefunden, die sie Re2 nennen. Hier ist die Idee, einfach erklärt:

1. Das Problem: Der „Sturkopf"-Effekt

Stell dir vor, du versuchst, ein Labyrinth zu durchqueren.

Der alte Weg (Standard-KI): Du läufst los, kommst an eine Sackgasse, drehst dich um, läufst ein Stück weiter, stößt wieder gegen eine Wand, drehst dich wieder um... und läufst einfach weiter, bis du völlig erschöpft bist und immer noch nicht herauskommst. Die KI macht genau das: Sie generiert immer mehr Text (Schritte), auch wenn der Anfang schon falsch war.
Die Erkenntnis: Die Forscher haben gemerkt: Wenn die ersten paar Schritte falsch sind, hilft es nicht, einfach nur mehr Schritte zu machen. Die Wahrscheinlichkeit, das Ziel zu erreichen, sinkt sogar, je länger der falsche Weg wird.

2. Die Lösung: Der „Neustart"-Knopf (Re2)

Die Forscher haben der KI eine neue Fähigkeit beigebracht: Das Recht, aufzugeben und neu anzufangen.

Stell dir vor, die KI hat einen magischen Knopf mit der Aufschrift „Neustart".

Während sie ein Rätsel löst, überprüft sie sich selbst: „Hey, dieser Weg sieht doof aus. Ich bin mir nicht sicher, ob ich hier je zum Ziel komme."
Statt stur weiterzumachen, drückt sie den Knopf. Sie wirft den ganzen bisherigen Text weg und beginnt ganz von vorne mit einer frischen Idee.

Das klingt einfach, aber für eine KI ist das schwierig. Normalerweise ist sie darauf trainiert, immer eine Antwort zu geben, egal wie schlecht sie ist.

3. Wie lernt die KI das? (Der Belohnungs-Trick)

Wie bringt man einer KI bei, dass es in Ordnung ist, etwas zu löschen und neu anzufangen? Die Forscher nutzen eine Methode namens Reinforcement Learning (Bestärkendes Lernen). Das ist wie ein Video-Spiel mit Punkten:

Szenario A (Falscher Weg, stur weitergemacht): Die KI versucht, das Rätsel auf dem falschen Weg zu lösen und gibt eine falsche Antwort. -> 0 Punkte.
Szenario B (Falscher Weg, aber Neustart): Die KI merkt: „Oh, das wird nichts!" und sagt: „Ich mache neu!" und versucht es dann richtig. -> Hohe Punkte!
Szenario C (Richtiger Weg): Die KI findet sofort den richtigen Weg. -> Hohe Punkte!

Die KI lernt schnell: „Aha! Wenn ich merke, dass ich auf dem Holzweg bin, ist es besser, den Neustart-Knopf zu drücken, als stur weiterzumachen. Das bringt mir mehr Punkte!"

4. Das Ergebnis: Weniger Quatsch, mehr Erfolg

Durch diese Methode passiert etwas Wunderbares:

Die KI wird effizienter. Sie verschwendet keine Zeit mit endlosen, sinnlosen Texten.
Sie wird klüger. Sie erkennt ihre eigenen Fehler früher.
Die Ergebnisse auf schwierigen Mathe-Tests (wie dem AIME, einer Art Olympiade für Schüler) sind deutlich besser als bei anderen modernen KIs.

Ein einfaches Bild zum Schluss

Stell dir vor, du bist ein Koch und versuchst, einen Kuchen zu backen.

Die alte KI: Du mischst Zement statt Mehl in den Teig. Du merkst es nicht, rührst aber einfach weiter, fügst noch mehr Zement hinzu, backst den Kuchen und sagst: „Schau mal, wie groß der Kuchen ist!" (Er ist riesig, aber ungenießbar).
Die neue KI (Re2): Du mischst Zement rein, schmeckst es, merkst: „Etwas stimmt hier nicht!" -> Du wirfst den ganzen Teig weg. Du holst eine neue Schüssel, nimmst frisches Mehl und fängst von vorne an. Der Kuchen wird perfekt.

Fazit:
Die Forscher haben der KI beigebracht, dass es keine Schande ist, einen Fehler zu erkennen und neu anzufangen. Im Gegenteil: Es ist der Schlüssel, um wirklich schwierige Probleme zu lösen. Statt stur weiterzumachen, lernt die KI, flexibel zu sein und den besten Weg zu wählen – auch wenn das bedeutet, den bisherigen Weg zu verlassen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Arbeit adressiert ein fundamentales Problem bei der Anwendung von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) auf Large Language Models (LLMs) für komplexe Reasoning-Aufgaben (z. B. Mathematik, Programmierung).

Ineffizientes „Overthinking": Auch nach umfangreichem RLVR-Training neigen Modelle dazu, unnötige oder qualitativ minderwertige Schritte in ihren Chain-of-Thought (CoT)-Prozessen zu generieren.
Irreversible Fehler: Die Analyse zeigt, dass die Qualität der frühen Reasoning-Schritte entscheidend ist. Wenn der initiale Pfad suboptimal oder falsch ist, scheitert das Modell oft auch dann, wenn es deutlich mehr Token generiert. Das Modell gerät in „Dead Ends" und kann den korrekten Lösungsweg nicht mehr wiederfinden, selbst wenn es weiter nachdenkt.
Fehlende Flexibilität: Herkömmliche RLVR-Ansätze zwingen das Modell dazu, innerhalb eines einzelnen CoT-Pfads eine finale Antwort zu generieren. Es gibt keine Mechanismen, um einen gescheiterten Pfad aktiv zu verlassen und den Lösungsprozess neu zu starten.

2. Methodik: Re2 (Reinforcement Learning with Re-solving)

Die Autoren stellen Re2 vor, ein neues Framework, das LLMs beibringt, unproduktive Reasoning-Pfade flexibel aufzugeben und die Aufgabe neu zu lösen („Re-solving"), anstatt immer eine finale Antwort zu erzwingen.

Kein Supervised Fine-Tuning (SFT): Re2 basiert rein auf Reinforcement Learning (RL) ohne vorheriges SFT. Es nutzt das Verhalten des Basismodells direkt.
Trainingsprozess (Prefix-Grouping):
1. Für jede Eingabe (Query) werden $n$ vollständige Antworten gesampelt.
2. Diese werden zufällig abgeschnitten, um diverse „Prefixe" (Zwischenzustände des Reasonings) zu erzeugen.
3. Für jedes Prefix werden $m$ Fortsetzungen (Continuations) generiert.
4. Das Modell lernt nun für jedes Prefix eine Entscheidung zu treffen: Entweder eine finale Antwort geben oder den Prozess neu starten („Redo").
Belohnungsstrategie (Reward Strategy):
- Korrekte Antwort: Belohnung = 1.
- Falsche Antwort: Belohnung = 0.
- Neustart (Redo): Die Belohnung entspricht der erwarteten Erfolgsrate eines Neustarts. Diese wird geschätzt, indem die Erfolgsrate der anderen Gruppen (Out-of-Group) berechnet wird, die denselben Prefix nicht teilen.
- Logik: Wenn der aktuelle Pfad aussichtslos ist, ist die erwartete Erfolgsrate eines Neustarts höher als die eines weiteren Versuchs auf dem falschen Pfad. Das Modell lernt somit, frühzeitig abzubrechen, wenn die Wahrscheinlichkeit eines Erfolgs sinkt.
Advantage-Berechnung: Die Vorteile (Advantages) werden gruppenweise berechnet (innerhalb der $m$ Fortsetzungen eines Prefix), um das Lernen zu stabilisieren, ähnlich wie bei DAPO (Direct Preference Optimization).

3. Schlüsselbeiträge

Paradigmenwechsel: Einführung eines Reasoning-Paradigmas, das das „Verlassen" von Pfaden und das „Neustarten" als explizite Aktionen im RL-Rahmen erlaubt. Dies geht über das traditionelle Single-Chain-Ansatz hinaus.
Steigerung des „Redo"-Verhaltens: Das Framework erhöht die Rate an Neustart-Verhalten in Standardmodellen von nur 0,5 % auf über 30 %, ohne dass ein SFT notwendig ist.
Rationaleres Verhalten: Im Gegensatz zu Standard-RLVR, das das Modell dazu drängt, bei Unsicherheit trotzdem eine Antwort zu „raten" (was zu Halluzinationen führt), ermutigt Re2 das Modell, ehrlich zu erkennen, wenn ein Pfad gescheitert ist, und neu zu beginnen.
Effizienz bei Test-Time Scaling: Re2 optimiert den Einsatz von Rechenzeit während der Inferenz (Test-Time Compute), indem es verhindert, dass Rechenressourcen in aussichtslose Pfade investiert werden.

4. Ergebnisse

Die Evaluation erfolgte auf fünf Benchmarks (AIME 2024/2025, AMC 2023, GSM8K, GPQA-Diamond) mit Modellen von 3B bis 14B Parametern (einschließlich Qwen, Llama und DeepSeek-Varianten).

Überlegene Performance: Re2 übertrifft den State-of-the-Art-RLVR-Methoden (insbesondere DAPO) konsistent über alle Modelle und Schwierigkeitsgrade hinweg.
- Beispiel: Auf dem Qwen2.5-7B-Base-Modell stieg die durchschnittliche Genauigkeit von 41,7 % (DAPO) auf 47,5 % (Re2).
- Auf dem schwierigen AIME 2025-Benchmark zeigte Re2 signifikante Verbesserungen (z. B. von 10,3 % auf 19,0 % beim 7B-Modell).
Test-Time Scaling: Während die Leistung von DAPO bei erhöhter Anzahl an Samples (Majority Voting) schnell sättigt, verbessert sich Re2 kontinuierlich, sobald die Anzahl der Samples einen bestimmten Schwellenwert (ca. 64 Samples) überschreitet. Dies liegt daran, dass Re2 durch Neustarts mehr gültige Lösungsversuche pro Rechenbudget generiert.
Robustheit: Die Methode funktioniert sowohl bei Base-Modellen als auch bei Instruction-Tuned- und spezialisierten Reasoning-Modellen.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass die bloße Verlängerung von Chain-of-Thoughts (durch mehr Token) nicht automatisch zu besseren Ergebnissen führt, wenn die initiale Richtung falsch ist.

Wissenschaftlicher Wert: Re2 beweist, dass die Fähigkeit, Reasoning-Pfade aktiv zu verwerfen und neu zu starten, ein kritischer Faktor für das Reasoning-Potenzial von LLMs ist.
Praktische Relevanz: Die Methode ermöglicht es Modellen, sich selbst zu korrigieren, ohne auf externe Feedback-Schleifen oder komplexe Suchalgorithmen (wie Tree Search) angewiesen zu sein. Sie bietet einen effizienteren Weg, Test-Time Compute zu skalieren.
Zukunftsausblick: Die Autoren sehen Potenzial in der Erweiterung auf andere Modalitäten (z. B. Vision) und komplexere Aufgaben wie Tool-Use, wobei die aktuelle Arbeit einen starken Grundstein für flexiblere und zuverlässigere Reasoning-Modelle legt.

Zusammenfassend stellt Re2 einen wichtigen Schritt dar, um LLMs von starren, linearen Denkprozessen hin zu adaptiven, selbstkorrigierenden Systemen zu führen, die den menschlichen Ansatz des „Neudenkens" bei Sackgassen nachahmen.

Re2\textbf{Re}^{2}Re2: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

1. Das Problem: Der „Sturkopf"-Effekt

2. Die Lösung: Der „Neustart"-Knopf (Re2)

3. Wie lernt die KI das? (Der Belohnungs-Trick)

4. Das Ergebnis: Weniger Quatsch, mehr Erfolg

Ein einfaches Bild zum Schluss

1. Problemstellung

2. Methodik: Re2 (Reinforcement Learning with Re-solving)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes

$\textbf{Re}^{2}$ : Unlocking LLM Reasoning via Reinforcement Learning with Re-solving