Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een wiskundig probleem oplost. Soms heb je een antwoord dat je direct weet (zoals $2+2=4$ ). Maar soms loop je vast bij een lastige puzzel. Wat doe je dan? Je begint te graven, te proberen, te tekenen, en misschien zelfs een heel boek vol te schrijven met ideeën voordat je het juiste pad vindt.

Dit is precies wat het nieuwe onderzoek T2T (van Thickening-to-Thinning, ofwel "Dikmaken-naar-Dunmaken") doet voor kunstmatige intelligentie (AI).

Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het Probleem: De AI die niet weet wanneer hij moet stoppen

Tot nu toe leerden we AI-modellen (zoals grote taalmodellen) met een simpele beloning: "Als het antwoord goed is, krijg je een sterretje. Als het fout is, krijg je niets."

Het probleem hiermee is dat de AI niet weet hoe ze moet leren.

Bij een lastig probleem probeert ze soms te kort en geeft ze op.
Bij een makkelijk probleem blijft ze soms onnodig lang praten en herhalen, alsof ze een verhaal uitvult terwijl ze het antwoord al weet.

Het is alsof je een leerling vraagt om een wiskundetoets te maken, maar je zegt: "Het maakt niet uit of je 1 minuut of 1 uur doet, zolang het antwoord maar klopt." De leerling raakt dan in de war: moet ik nu snel zijn of moet ik diep graven?

2. De Oplossing: De "Hua Luogeng" Methode

De onderzoekers keken naar hoe mensen leren. Er is een beroemde Chinese wiskundige, Hua Luogeng, die zei: "Eerst moet je het boek dik lezen, en daarna dun."

Dik lezen (Thickening): Als je een nieuw, moeilijk onderwerp leert, moet je alles erover lezen. Je maakt aantekeningen, trekt diagrammen, probeert verschillende hoeken. Je bent "dik" in je kennis: vol met details en exploratie.
Dun lezen (Thinning): Zodra je het onderwerp echt begrijpt, kun je het samenvatten. Je haalt de overbodige details weg en houdt alleen de kern over. Je wordt "dun": snel, efficiënt en precies.

T2T probeert dit gedrag na te bootsen in de AI.

3. Hoe werkt T2T? Twee fasen in één systeem

De AI krijgt nu een slimme beloningssysteem dat verandert afhankelijk van hoe goed ze het doet:

Fase 1: Als het fout gaat -> "Dikmaken" (Exploratie)

Stel de AI probeert een lastig wiskundeprobleem en het antwoord is nog niet goed.

De beloning: De AI krijgt een extra bonus als ze langere antwoorden geeft.
De analogie: Het is alsof je een speurtocht geeft in een groot bos. Als je nog niet uit het bos bent, mag je (en moet je!) alle paden verkennen. Je mag zelfs een beetje verdwalen, zolang je maar nieuwe routes probeert. De AI wordt hierdoor aangemoedigd om dieper na te denken en meer "denktijd" te investeren.

Fase 2: Als het goed gaat -> "Dunmaken" (Efficiëntie)

Zodra de AI het juiste antwoord heeft gevonden.

De beloning: De AI krijgt een straf als ze te lang blijft praten. Ze wordt beloond voor korte, bondige antwoorden.
De analogie: Je bent het bos uit. Nu is het tijd om naar huis te lopen. Je hoeft niet meer elke boom te bekijken; je loopt het kortste pad. De AI leert hierdoor om haar kennis te "kraken" en alleen het noodzakelijke te zeggen.

4. Waarom is dit zo goed?

In het verleden moesten onderzoekers kiezen: of de AI moet leren zoeken (wat veel rekenkracht kost), of de AI moet leren snel zijn (wat soms leidt tot fouten).

Met T2T heeft de AI het beste van beide werelden:

Ze durft uit te breiden wanneer het moeilijk is (zoals een onderzoeker die alles uittest).
Ze wordt slim en kort wanneer ze het weet (zoals een expert die direct tot de kern komt).

5. De Resultaten

De onderzoekers hebben dit getest op verschillende AI-modellen met wiskundetoetsen (zoals de MATH-500 en AIME).

De AI's die met T2T werden getraind, werden beter in het oplossen van lastige problemen dan de standaard AI's.
Ze maakten minder fouten door te snel op te geven.
Ze waren sneller en gebruikten minder rekenkracht op de makkelijke vragen, omdat ze niet meer onnodig bleven "kletsen".

Samenvatting in één zin

T2T leert de AI om, net als een slimme mens, eerst grondig te graven als ze vastloopt, en daarna krachtig en beknopt te antwoorden zodra ze het antwoord heeft gevonden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Thickening-to-Thinning (T2T): Beloningsshaping via Menselijk Geïnspireerde Leer-dynamieken voor Redenering in LLM's

1. Het Probleem

Versterking met Verifieerbare Beloningen (Reinforcement Learning with Verifiable Rewards - RLVR) is een veelbelovende methode om het redeneervermogen van Large Language Models (LLM's) te verbeteren, vooral in domeinen zoals wiskunde en code. Echter, bestaande RLVR-methoden (zoals GRPO) lijden onder enkele fundamentele beperkingen:

Entropie-inzinking (Entropy Collapse): Modellen worden te snel eenzijdig en stoppen met het verkennen van alternatieve oplossingspaden.
Excessieve verbositeit: Modellen neigen naar overbodig lange en repetitieve antwoorden, wat de inferentie-efficiëntie verlaagt.
Gebrek aan onderscheidend vermogen: Bestaande beloningsschema's behandelen lange, verkennende redeneringen (nodig voor moeilijke problemen) en beknopte, meesterlijke antwoorden (nodig voor bekende kennis) vaak als gelijkwaardig. Ze onderscheiden niet tussen het moment dat een model moet verkennen en het moment dat het moet consolideren.

Dit leidt tot een gebrek aan dynamiek: het model weet niet wanneer het moet "uitbreiden" om een oplossing te vinden en wanneer het moet "inkrimpen" om efficiëntie te maximaliseren.

2. Methodologie: Thickening-to-Thinning (T2T)

De auteurs introduceren T2T, een dynamisch beloningssysteem dat is geïnspireerd op het menselijke leerproces, vaak samengevat door de pedagogische principe van Hua Luogeng: eerst het boek "dik lezen" (uitgebreid verkennen) en daarna "dun lezen" (abstractie en compressie).

Kernprincipes:
T2T modificeert de beloning (reward) op basis van twee factoren:

Correctheid: Is het antwoord juist of onjuist?
Competentie (Geschatte Succeskans): Hoe waarschijnlijk is het dat het model dit specifieke probleem oplost, gebaseerd op de huidige politiek?

Het Twee-fasen Mechanisme:

Fase 1: Verdikking (Thickening) bij Onjuiste Pogingen:
Wanneer het model een fout maakt (of de geschatte kans op succes laag is), wordt de beloning voor langere trajecten verhoogd. Dit moedigt het model aan om de zoekruimte te verbreden, meer redeneerstappen te nemen en nieuwe oplossingspaden te verkennen.
- Formule: Voor onjuiste antwoorden ( $V=0$ ) wordt de beloning positief beïnvloed door de lengte, gewogen met $(1-p)$ , waarbij $p$ de geschatte succeskans is.
Fase 2: Verdunning (Thinning) bij Juiste Pogingen:
Zodra het model een correct antwoord heeft gevonden (en de succeskans hoog is), verschuift de focus naar efficiëntie. De beloning straft lengte af om redundantie te ontmoedigen en beknopte, precieze oplossingen te bevorderen.
- Formule: Voor juiste antwoorden ( $V=1$ ) wordt de beloning negatief beïnvloed door de lengte, gewogen met $p$ .

Technische Implementatie:

De beloningsfunctie $R_{T2T}$ is een functie van de verifieerbaarheid $V(q, o)$ , de genormaliseerde lengte $s_L(o)$ en de geschatte succeskans $\hat{p}$ .
Het gebruik van kwadratische termen in de gewichten zorgt ervoor dat de lengte-shaping adaptief is: bij lage competentie domineert de "verdikkings"-term, bij hoge competentie de "verdunnings"-term.
Het systeem vereist geen extra modellen, geen token-level supervisie en geen extra rekenkracht tijdens het trainen; het is een plug-in voor bestaande RLVR-pijplijnen (zoals GRPO).

3. Belangrijkste Bijdragen

Conceptueel Nieuw Inzicht: De paper introduceert het idee dat redeneren een tweefasenproces is (verkennen vs. consolideren) en dat beloningsshaping dit expliciet moet ondersteunen in plaats van lengte simpelweg te straffen of te negeren.
Dynamische Beloning: In tegenstelling tot statische lengte-penaliteiten, past T2T de beloning dynamisch aan op basis van de moeilijkheid van het probleem en de huidige vaardigheid van het model.
Efficiëntie zonder Overhead: De methode behoudt de eenvoud van sequence-level RLVR maar lost complexe problemen op zoals entropie-inzinking en overmatige lengte zonder extra inferentie-kosten.
Bi-modale Strategie: T2T leert het model om twee strategieën te hanteren: uitgebreide redenering voor onbekende problemen en beknopte uitvoering voor beheerste taken.

4. Resultaten

De auteurs hebben T2T getest op wiskundige benchmarks (MATH-500, AIME'24/25, AMC'23) met modellen uit de Qwen- en DeepSeek-reeks (van 1.5B tot 14B parameters).

Superieure Prestaties: T2T presteert significant beter dan de standaard GRPO en geavanceerde baselines (zoals LASER, W-REINFORCE, EntroPIC).
- Op het Qwen3-14B model behaalde T2T de hoogste scores op alle metrics (Pass@1 en Pass@64), met name een sterke verbetering op AIME'24 (39.6% vs 29.1% bij GRPO).
- Op Qwen2.5-3B en Qwen3-4B werden consistente verbeteringen gezien, vooral op de moeilijkere AMC- en AIME-benchmarks.
Verbeterde Leer-dynamiek:
- Entropie: T2T voorkomt entropie-inzinking. De entropie van het beleid blijft hoger en stabiel, wat aangeeft dat het model actief blijft verkennen in plaats van in een lokaal optimum te blijven steken.
- Leer-snelheid: Het model bereikt een hogere trainingsnauwkeurigheid sneller dan baselines.
Ablatie-studies: Het verwijderen van zowel de "Thickening" als "Thinning" component leidde tot prestatieverlies, wat bevestigt dat beide fasen essentieel zijn.
Beperkingen: Op zeer kleine modellen (1.5B) presteerde T2T soms iets minder dan GRPO, waarschijnlijk omdat het model de complexe, lange redeneringsketens die T2T stimuleert, niet goed kan hanteren zonder in repetitieve lussen te vervallen.

5. Betekenis en Impact

Deze paper biedt een fundamentele verschuiving in hoe we RLVR toepassen voor redenering:

Van statisch naar dynamisch: Het benadrukt dat beloningsshaping niet statisch moet zijn, maar moet evolueren naarmate het model leert.
Computational Budget Management: T2T biedt een mechanisme om het "denk-budget" (rekenkracht) dynamisch toe te wijzen: meer tijd voor moeilijke problemen, minder tijd voor makkelijke.
Menselijke Analogie: Door het menselijke leerprincipe van "dik lezen" naar "dun lezen" te vertalen naar een wiskundige beloningsfunctie, creëren de auteurs een robuustere en efficiëntere manier om LLM's te trainen.
Toekomstperspectief: De methode is lichtgewicht en kan direct worden geïntegreerd in bestaande frameworks, wat het een praktische oplossing maakt voor het verbeteren van redeneervermogen in de volgende generatie LLM's zonder de complexiteit van externe zoekalgoritmen (zoals Tree of Thoughts) tijdens de inferentie.

Kortom, T2T lost het dilemma op tussen exploratie en exploitatie door deze twee fasen te scheiden in de tijd en te koppelen aan de competentie van het model, wat leidt tot krachtigere en efficiëntere redenerende AI-systemen.