Training Large Language Models To Reason In Parallel With Global Forking Tokens

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een slimme chatbot) een heel moeilijk wiskundeprobleem moet oplossen. Vaak denkt de computer te lang na op één manier, of hij raakt in de war en begint te "overdenken". Hij loopt vast in een spoor dat niet leidt tot het juiste antwoord.

De auteurs van dit paper hebben een slimme oplossing bedacht om deze AI's slimmer te maken. Ze noemen hun methode SSFT (Set Supervised Fine-Tuning). Laten we dit uitleggen met een paar creatieve analogieën.

1. Het Probleem: De "Overdenkende" Reisgids

Stel je voor dat je een reisgids hebt die een complexe route moet plannen.

De oude manier: De reisgids probeert één route te bedenken. Als die route vastloopt, probeert hij het opnieuw, maar vaak blijft hij in dezelfde denkfouten hangen. Of hij probeert heel snel veel routes te bedenken door zijn "temperatuur" (zijn creativiteit) op te draaien, maar dan worden de routes vaak onzin.
Het probleem: De juiste, creatieve startpunten voor een goede oplossing zitten vaak diep in de gedachtenreeks. Het is moeilijk om die toevallig te vinden.

2. De Oplossing: De "Magische Sleutels" (Global Forking Tokens)

De auteurs hebben een systeem bedacht waarbij ze de AI niet één, maar meerdere specifieke startknoppen geven. Ze noemen deze knoppen "Global Forking Tokens".

De Analogie: Stel je voor dat je een groot, donker kasteel hebt met vele deuren.
- Normaal gesproken moet de AI raden welke deur hij open moet doen om de schat te vinden. Soms kiest hij de verkeerde deur en loopt hij in een doodlopende straat.
- Met deze nieuwe methode hebben ze speciale sleutels (zoals <think 1>, <think 2>, etc.) gemaakt.
- Als je sleutel <think 1> gebruikt, opent de AI automatisch de deur naar een logische, stap-voor-stap route.
- Als je <think 2> gebruikt, opent hij de deur naar een creatieve, intuïtieve route.
- Als je <think 3> gebruikt, opent hij een wiskundige, formele route.

Elke sleutel leidt naar een ander denkspoor, maar elk spoor is ontworpen om het juiste antwoord te vinden.

3. Hoe hebben ze dit geleerd? (Het Matchingspelletje)

De slimme truc zit in hoe ze de AI hebben getraind. Ze hebben de AI niet zomaar laten oefenen. Ze hebben een soort matchingspelletje gespeeld.

Het Spel: Ze hadden een set van vragen en een set van goede antwoorden (geschiedenissen) van verschillende slimme leraren. Ze wilden weten: "Welke sleutel past bij welk antwoord?"
De Methode (Bipartite Matching): Ze lieten de AI alle mogelijke combinaties proberen. Ze zochten de perfecte match: welke sleutel leidt het snelst en het zekerst naar welk specifiek antwoord?
Het Resultaat: De AI leerde dat <think 1> altijd moet leiden naar een bepaalde denkwijze en <think 2> naar een andere. Ze leerden de AI om deze "sleutels" te herkennen en er bewust op te reageren.

Zonder deze slimme training zou de AI alle sleutels verwarren en uiteindelijk allemaal dezelfde saaie route kiezen (dit noemen ze "collapse" of instorten). Maar met hun methode blijven de routes verschillend en uniek.

4. De "Chef" die de beste route kiest (GFPO)

Na het trainen hebben ze nog een stap toegevoegd, genaamd GFPO.

De Analogie: Stel je voor dat je een chef-kok bent met 6 verschillende recepten (de 6 sleutels). Je wilt weten welk recept het lekkerst is voor een specifieke gast (de vraag).
In plaats van dat de chef zomaar kiest, heeft hij een klein beetje extra training gekregen om te leren: "Voor deze specifieke vraag is <think 5> de beste keuze."
Hierdoor kan de AI niet alleen meerdere routes tegelijk bedenken (voor extra zekerheid), maar ook de beste route direct kiezen voor het eindantwoord.

Waarom is dit geweldig?

Geen "Overdenken": De AI hoeft niet blindelings te gissen. Hij kan bewust kiezen voor een andere denkwijze als de eerste niet werkt.
Diversiteit: De AI leert dat er meer dan één manier is om een probleem op te lossen, en hij kan die manieren allemaal beheersen.
Betere resultaten: Op tests voor wiskunde en coderen bleek dat deze AI's veel vaker het juiste antwoord vonden dan AI's die op de oude manier waren getraind.

Kortom:
De auteurs hebben een manier gevonden om een AI te leren dat er niet één "juiste manier" is om te denken. Ze hebben hem een set van magische sleutels gegeven, zodat hij voor elk probleem de perfecte denkroute kan kiezen, in plaats van vast te lopen in één denkpatroon. Het is alsof je een genie hebt dat niet alleen slim is, maar ook weet hoe het moet denken voor elk specifiek probleem.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLM's) hebben hun redeneervermogen verbeterd door meer "test-time compute" (rekenkracht tijdens het genereren) te alloceren. Er zijn twee hoofdbenaderingen:

Sequentiële schaling: Het genereren van langere ketens van gedachten (Chain-of-Thought). Dit leidt echter vaak tot "overthinking", waarbij de prestaties na een bepaalde lengte afnemen.
Parallele schaling: Het genereren van meerdere redeneerpaden tegelijk en het aggregeren van de beste antwoord (bijv. via Self-Consistency).

De kernuitdaging bij parallele schaling is het vinden van diverse en accurate redeneerpaden. Voor complexe problemen bevinden de "forking tokens" (de specifieke tokens die leiden tot een correct en verschillend redeneerpad) zich vaak diep in de generatietree. Bestaande methoden om diversiteit te stimuleren, zoals het verhogen van de temperature, creëren een ongunstige afweging tussen diversiteit en nauwkeurigheid. Bovendien collapseert standaard Supervised Fine-Tuning (SFT) op meerdere redeneertraces vaak naar één enkel dominant redeneerpatroon, waardoor de potentiële diversiteit verloren gaat.

Methodologie

Het paper introduceert een nieuwe aanpak die parallel redeneren behandelt als een set-volgende-token-predictie probleem. De kern van de methode bestaat uit drie componenten:

1. Global Forking Tokens

In plaats van te vertrouwen op willekeurige tokens tijdens de generatie, introduceert het model een gereserveerde set speciale tokens (bijv. <think 1>, <think 2>, ..., <think N>). Deze tokens fungeren als expliciete "forking tokens" die het model instrueren om een specifiek redeneerpad te volgen.

2. Set Supervised Fine-Tuning (SSFT)

SSFT is een trainingsframework dat een set-gebaseerde globale loss introduceert.

Bipartiete Matching: Voor elke vraag $x$ en een set van $M$ grondware redeneertraces $R = \{r^{(j)}\}$ , en een set van $N$ forking tokens $G = \{g^{(i)}\}$ , berekent het model de autoregressieve loss voor elke combinatie van token en trace.
Optimale Toewijzing: Het algoritme gebruikt de Hungarian-algoritme om de optimale bipartiete matching $\hat{\sigma}$ te vinden die de totale loss minimaliseert. Dit betekent dat elke unieke redeneertrace $r^{(j)}$ wordt gekoppeld aan de forking token $g^{(i)}$ waarvoor de loss het laagst is.
Loss Functie: De trainingsloss wordt berekend over deze optimale matching. Dit zorgt ervoor dat het model leert dat specifieke forking tokens uniek corresponderen met specifieke redeneermodi, zonder dat de volgorde van de traces in de dataset van belang is (permutatie-invariantie).
Voordeel: Dit voorkomt dat het model alle traces naar één gemiddeld pad "collapseert", wat vaak gebeurt bij standaard SFT.

3. Global Forking Policy Optimization (GFPO)

Na de SSFT-fase wordt een lichte Reinforcement Learning (RL) stap toegepast.

In plaats van het hele generatiepad te optimaliseren, optimaliseert GFPO alleen de selectie van de forking token $g(i)$ op basis van de vraag.
Dit "scherpt" de outputverdeling van de forking tokens, waardoor het model beter leert welke token het meest geschikt is voor een specifieke complexe vraag, zonder de reeds geleerde diverse redeneermodi te vernietigen.

Kernbijdragen

Invoering van Global Forking Tokens: Een mechanisme om parallelle redeneerpaden expliciet te sturen via gereserveerde tokens, wat de afhankelijkheid van willekeurige forking tokens tijdens de generatie vermindert.
SSFT Framework: Een nieuwe fine-tuning methode die bipartiete matching gebruikt om een set-based loss te berekenen. Dit behoudt unieke redeneermodi die bij standaard SFT zouden verdwijnen.
GFPO: Een efficiënte RL-methode die de selectie van forking tokens optimaliseert, wat leidt tot betere prestaties bij zowel Pass@1 (één pad) als Cons@k (meerdere paden).
Empirisch Bewijs: Het paper toont aan dat SSFT modellen leert om diverse strategieën te gebruiken (gevisualiseerd door verschillen in lengte en structuur van de redeneertraces per token), terwijl standaard SFT deze diversiteit onderdrukt.

Resultaten

De methoden werden getest op wiskundige redeneringsbenchmarks (AIME 2024/25, MATH-500, GPQA-Diamond) en code-generatie (LiveCodeBench).

Prestaties: De SSFT-modellen (Qwen2.5-32B) presteerden consistent beter dan hun SFT-tegenhangers en andere baselines (zoals Multiverse en s1.1).
- Op AIME 2024 bereikte SSFT een Pass@1 van 64.06%, een aanzienlijke verbetering ten opzichte van de beste SFT-baseline (58.23%).
- Bij Cons@6 (majority voting van 6 parallelle paden) bereikte SSFT 75.45% op AIME 2024 en 73.94% op AIME 2025.
Diversiteit vs. Nauwkeurigheid: In tegenstelling tot temperature scaling, waarbij hogere temperaturen de nauwkeurigheid verlagen om diversiteit te krijgen, behoudt SSFT hoge nauwkeurigheid terwijl het diverse paden genereert.
Robuustheid: De resultaten bleven geldig bij verschillende modelgroottes (4B, 8B, 32B) en bij overdracht naar code-generatie taken (Out-of-Distribution generalisatie).
Ablatie Studies: Het tonen aan dat de optimale bipartiete matching cruciaal is; een willekeurige matching (random $\sigma$ ) leidt tot significante prestatieverliezen en faalt in het leren van unieke token-trace correlaties.

Significantie

Dit paper biedt een fundamentele doorbraak in hoe LLM's kunnen worden getraind om effectief gebruik te maken van test-time compute.

Paradigmaverschuiving: Het verschuift de focus van "meer tokens genereren" naar "slimmer genereren door gestuurde diversiteit".
Efficiëntie: Door vooraf te leren welke forking token welk redeneerpad activeert, kan het model complexere problemen oplossen zonder de kosten van willekeurige sampling en het risico op "overthinking".
Toekomstige Toepassingen: De methode is schaalbaar en toepasbaar op diverse domeinen (wiskunde, code, redenering), wat het een veelbelovende techniek maakt voor het bouwen van robuuste AI-agenten die complexe taken kunnen oplossen.

Samenvattend introduceert SSFT een manier om LLM's te trainen om een "repertoire" van redeneerstrategieën te bezitten, waarbij elke strategie expliciet kan worden opgeroepen via een forking token, wat leidt tot superieure prestaties in zowel nauwkeurigheid als betrouwbaarheid.