$\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (een grote taalmodel) een heel moeilijk wiskundig probleem moet oplossen. Het doet dit door na te denken, stap voor stap, net als een mens die een puzzel oplost.

In de traditionele manier van werken (zoals beschreven in de paper), probeert de computer altijd zijn eerste idee te voltooien, hoe slecht dat idee ook blijkt te zijn. Het is alsof je op een verkeerd spoor in een doolhof loopt. Zodra je merkt dat je de weg kwijt bent, zou een slim mens zeggen: "Wacht, dit werkt niet, ik ga terug naar de ingang en probeer een andere route." Maar de oude AI-modellen blijven maar doorgaan, hopend dat ze ergens op de route toch de uitgang vinden. Ze blijven maar praten en redeneren, zelfs als ze al in een doodlopende straat zitten. Dit noemen de auteurs "overthinking" (te veel nadenken) en het leidt vaak tot fouten.

Deze paper introduceert een nieuwe methode genaamd Re2 (Reinforcement Learning with Re-solving).

De Kern van Re2: "Het is beter om opnieuw te beginnen"

Stel je voor dat je een ingewikkeld recept probeert te koken. Je begint met het snijden van groenten, maar je merkt halverwege dat je de verkeerde groenten hebt gekozen of dat de pan te heet is.

De oude manier (DAPO/RLVR): Je blijft doorgaan met het koken van die verkeerde groenten, hoping dat het aan het einde toch lekker smaakt. Je proeft het, het is rot, maar je hebt al uren tijd verspild.
De nieuwe manier (Re2): De AI leert een nieuwe vaardigheid: het durven stoppen. Als de AI merkt dat haar redenering "raar" aanvoelt of vastloopt, mag ze zeggen: "Dit werkt niet, ik gooi dit recept weg en begin opnieuw vanaf nul."

Hoe werkt dit? (De Analogie van de Gokker)

De auteurs hebben de AI getraind met een slimme beloningssysteem (Reinforcement Learning).

De Oude AI: Kreeg punten alleen als ze het eindantwoord goed had. Als ze een fout maakte, kreeg ze 0 punten. Dus ze probeerde alles om maar een antwoord te geven, zelfs als het een gok was.
De Re2 AI: Krijgt punten voor twee dingen:
- Het geven van het juiste antwoord (1 punt).
- Het slimme besluit om opnieuw te beginnen als ze ziet dat ze vastloopt.

De AI leert dat het soms beter is om een "verlies" te nemen (door te zeggen: "Ik begin opnieuw") dan om door te gaan met een slecht plan dat gegarandeerd fout gaat. Het is alsof je in een spelletje schaken leert dat je soms een pion moet opofferen om de hele partij niet te verliezen.

Wat levert dit op?

De paper laat zien dat deze methode wonderen doet:

Minder prullen: De AI produceert minder onzin en "opgeblazen" redeneringen.
Beter resultaat: Omdat de AI niet vastzit aan een slechte start, komt ze veel vaker op het juiste antwoord.
Slimmer denken: De AI leert om te zeggen: "Ik weet het niet zeker, ik ga het nog een keer proberen," in plaats van een willekeurig antwoord te verzinnen.

De "Re2" in het kort

De titel van de paper is Reinforcement Learning with Re-solving.

Reinforcement Learning: De AI leert door te proberen en beloningen te krijgen.
Re-solving: De AI leert om problemen op te lossen door ze opnieuw op te lossen als de eerste poging faalt.

Conclusie voor de gemiddelde lezer:
Vroeger waren slimme computers als koppige studenten die weigerden hun fouten toe te geven en maar doorgingen met hun verkeerde oplossing. Met deze nieuwe techniek (Re2) hebben we ze geleerd om te zeggen: "Oké, dit pad loopt dood. Ik ga terug naar de start en probeer het anders." Hierdoor worden ze niet alleen slimmer, maar ook efficiënter en betrouwbaarder in het oplossen van moeilijke problemen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Re2: Het ontsluiten van redeneervermogen van LLM's via Reinforcement Learning met Opnieuw Oplossen

1. Het Probleem

Hoewel Reinforcement Learning met verifieerbare beloningen (RLVR) de redeneerprestaties van Large Language Models (LLM's) heeft verbeterd door het testen van meer tokens (test-time compute), vertonen deze modellen nog steeds fundamentele tekortkomingen:

Overdenken en inefficiëntie: Modellen genereren vaak onnodige of laagwaardige stappen in hun Chain-of-Thought (CoT), wat leidt tot "overthinking".
Onherstelbare vroege fouten: De analyse in het paper toont aan dat er een sterke negatieve correlatie bestaat tussen de lengte van de CoT en de nauwkeurigheid. Als de initiële redeneringsstappen suboptimaal of verkeerd zijn, faalt het model bijna altijd om het juiste antwoord te vinden, zelfs als het duizenden extra tokens genereert. Het model blijft vastzitten in een doodlopende weg in plaats van terug te keren naar een correct pad.
Beperking van bestaande methoden: Bestaande RLVR-methoden dwingen het model om binnen één enkele traject een final antwoord te geven, zelfs als de redenering duidelijk fout is. Er is geen mechanisme om een onproductief pad actief te verlaten en opnieuw te beginnen.

2. Methodologie: Re2 (Reinforcement Learning with Re-solving)

Re2 introduceert een nieuw paradigma waarin LLM's leren om flexibel te beslissen of ze doorgaan met de huidige redenering, een final antwoord geven, of de oplossing volledig opnieuw beginnen ("re-solve").

Architectuur en Training:
- Zuiver Reinforcement Learning: Re2 vereist geen voorafgaande Supervised Fine-Tuning (SFT). Het leert puur via RL.
- Prefix Group Generation: Voor elke query worden $n$ volledige antwoorden gegenereerd en willekeurig getruncateerd tot diverse prefixes (tussentijdse redeneringstoestanden). Voor elke prefix worden vervolgens $m$ vervolgtrajecten (continuations) gegenereerd.
- De "Redo"-Actie: Het model heeft de mogelijkheid om een specifieke actie te kiezen: "It's better to redo the question" (het is beter om de vraag opnieuw te doen). Dit markeert het verlaten van het huidige prefix en het starten van een nieuwe oplossing vanaf nul.
Beloningsstrategie (Reward Strategy):
De kern van Re2 ligt in een geavanceerde beloningsfunctie die drie uitkomsten onderscheidt:
1. Correct antwoord: Beloning = 1.
2. Fout antwoord: Beloning = 0.
3. Kiezen voor "Re-solve": De beloning is niet 0, maar gelijk aan de verwachte succeskans van het oplossen van het probleem vanaf nul. Deze verwachte kans wordt geschat op basis van de uitkomsten van andere groepen (out-of-group continuations) die niet het huidige prefix delen.
- Logica: Als de huidige redenering waarschijnlijk fout is, is de verwachte beloning van het opnieuw beginnen (op basis van de algemene succeskans) hoger dan het risico om een fout antwoord te geven. Dit motiveert het model om onproductieve paden te verlaten.
Advantage Berekening:
De voordelen (advantages) worden berekend binnen groepen van vervolgtrajecten die uit hetzelfde prefix komen. Dit zorgt voor een stabiele update van het beleid (policy), vergelijkbaar met methoden zoals DAPO, maar dan met de toegevoegde optie om te herstarten.

3. Belangrijkste Bijdragen

Nieuw Redeneerparadigma: Re2 is het eerste werk dat een RL-framework introduceert waarbij modellen actief leren om onproductieve redeneringspaden te verlaten en opnieuw te beginnen, in plaats van vast te houden aan een enkele keten.
Verhoogde "Redo"-frequentie: Door pure RL te gebruiken, wordt het zeldzame gedrag van het opnieuw proberen in standaardmodellen (van oorspronkelijk ~0,5%) opgevoerd tot meer dan 30%.
Geen SFT nodig: Het framework werkt effectief zonder de noodzaak van dure voorafgaande supervisie, wat het toepasbaar maakt op diverse modeltypes.
Analyse van Vroege Kwaliteit: Het paper levert een gedetailleerde analyse die aantoont dat de kwaliteit van de eerste redeneringsstappen cruciaal is voor het eindresultaat, en dat langere antwoorden vaak een teken zijn van vroege fouten in plaats van dieper nadenken.

4. Resultaten

De methode werd geëvalueerd op een breed scala aan benchmarks (AIME 2024/2025, AMC 2023, GSM8K, GPQA-Diamond) en diverse modelgroottes (van 3B tot 14B parameters, inclusief base, instructie-tuned en reasoning-modellen).

Prestatieverbetering: Re2 overtreft consistent de state-of-the-art RLVR-methode DAPO onder dezelfde trainingsbudgetten.
- Op AIME 2025 (een zeer moeilijk wiskundebenchmark) steeg de nauwkeurigheid van Qwen2.5-7B-Instruct van 8,6% (DAPO) naar 21,2% (Re2).
- Op AIME 2024 steeg de prestatie van 16,0% naar 18,6%.
- Er werden significante verbeteringen gezien op zowel wiskundige benchmarks als op het wetenschappelijke redeneren (GPQA).
Test-Time Scaling: Re2 toont een superieure schaalbaarheid bij het verhogen van het aantal samples tijdens het testen. Terwijl de prestaties van DAPO verzadigen, blijft Re2 verbeteren naarmate meer rekenkracht (tokens) wordt gebruikt, omdat het model effectief onzekerheid kan omzeilen door opnieuw te beginnen.
Kwaliteit van Redenering: Case studies tonen aan dat Re2 minder "geforceerde" en onlogische stappen maakt. In plaats van een fout pad te volharden tot een fout antwoord, kiest het model voor een herstart, wat leidt tot kortere en nauwkeurigere oplossingen voor moeilijke problemen.

5. Betekenis en Impact

Dit werk markeert een verschuiving in hoe we redeneren bij LLM's benaderen. Het toont aan dat "meer denken" (meer tokens) niet altijd gelijkstaat aan "beter denken". Door modellen de autonomie te geven om hun eigen strategie te evalueren en te verlaten wanneer deze faalt, wordt de efficiëntie en betrouwbaarheid van redeneertaken aanzienlijk verbeterd.

Re2 opent de deur naar meer flexibele en mensachtige redeneermodellen die, net als mensen, kunnen erkennen wanneer een aanpak niet werkt en een nieuwe strategie kunnen kiezen, in plaats van vast te blijven zitten in een logische val. Dit heeft grote implicaties voor de ontwikkeling van betrouwbare AI-systemen in complexe domeinen zoals wiskunde, wetenschap en logistiek.

Re2\textbf{Re}^{2}Re2: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

De Kern van Re2: "Het is beter om opnieuw te beginnen"

Hoe werkt dit? (De Analogie van de Gokker)

Wat levert dit op?

De "Re2" in het kort

Titel: Re2: Het ontsluiten van redeneervermogen van LLM's via Reinforcement Learning met Opnieuw Oplossen

1. Het Probleem

2. Methodologie: Re2 (Reinforcement Learning with Re-solving)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes

$\textbf{Re}^{2}$ : Unlocking LLM Reasoning via Reinforcement Learning with Re-solving