Continuous Chain of Thought Enables Parallel Exploration and Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een chatbot) een moeilijk raadsel moet oplossen. Normaal gesproken doet dit door één stap voor één te denken, net als een mens die hardop nadenkt: "Oké, ik ga eerst dit proberen... nee, dat werkt niet. Dan probeer ik dat..."

Deze methode heet "Chain of Thought" (Gedachtenketen). Het werkt goed, maar het heeft een groot nadeel: als de AI op het verkeerde spoor terechtkomt, moet ze helemaal opnieuw beginnen. Het is alsof je door een donker bos loopt en bij elke splitsing maar één pad kiest. Als je het verkeerde pad kiest, loop je vast.

Deze paper introduceert een revolutionaire nieuwe manier van denken, genaamd CoT2 (Chain of Thought met Continue Tokens).

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. Het oude probleem: De "Enige Weg"

Stel je voor dat je een grote berg moet beklimmen met een kaart.

De oude AI (Discrete CoT): Ze kijkt naar de kaart en zegt: "Ik ga naar links." Ze loopt die kant op. Als ze een afgrond ziet, is het te laat. Ze moet terug naar de start en een nieuwe poging wagen. Om zeker te zijn dat ze de top haalt, moet ze de berg misschien 10 keer beklimmen met verschillende routes.
Het probleem: Dit kost veel tijd en energie. De AI "kijkt" maar naar één optie tegelijk.

2. De nieuwe oplossing: De "Magische Rook" (CoT2)

De auteurs van dit paper zeggen: "Waarom kiezen we maar één pad? Laten we alle paden tegelijk bewandelen!"

In plaats van dat de AI één woord kiest (bijvoorbeeld "links"), laat ze haar gedachten vloeibaar worden.

De Analogie: Stel je voor dat de AI niet één pad kiest, maar een wolk van rook is die zich over alle mogelijke paden in het bos verspreidt.
In plaats van te zeggen "Ik ga links", zegt ze: "Ik ben 50% links, 30% rechts en 20% rechtuit."
Deze "wolk" bevat tegelijkertijd informatie over alle mogelijke routes. De AI houdt dus parallel rekening met alle scenario's.

3. Hoe werkt dit technisch? (De "Zachte" Gedachten)

Normaal gesproken zijn de "woorden" in een computer discrete blokjes (0 of 1, A of B).

CoT2 maakt deze blokjes "zacht". Het is alsof je in plaats van een harde steen (een woord) een smeltende was gebruikt.
Deze was kan tegelijkertijd de vorm van "links" en "rechts" aannemen.
Door deze zachte, vloeibare gedachten te gebruiken, kan de AI in één enkele "denkstap" (in plaats van tien) alle mogelijke oplossingen verkennen.

4. Het "Budget" van de AI

De paper introduceert een interessant concept: het Budget.

Je kunt de AI vertellen: "Gebruik een klein budget" (dan denkt ze als een normale AI, één pad tegelijk).
Of je kunt zeggen: "Gebruik een groot budget" (dan verspreidt ze haar "rook" over alle mogelijke paden tegelijk).
De ontdekking: Als je de AI genoeg "ruimte" geeft (in de computertermen: een grote embedding dimensie), kan ze met een groot budget razendsnel de beste oplossing vinden, zonder dat ze hoeft te "gokken" en opnieuw hoeft te beginnen.

5. Waarom is dit zo belangrijk?

Stel je voor dat je een puzzel moet oplossen met 1000 stukjes.

De oude manier: Je probeert stukje voor stukje. Als je er één verkeerd plaatst, moet je alles uit elkaar halen en opnieuw beginnen.
De CoT2-methode: Je legt alle 1000 stukjes tegelijk op de tafel en laat ze "zweven" in een magische krachtveld. Je ziet direct welke stukjes bij elkaar horen, omdat ze allemaal tegelijk in je bewustzijn zijn. Je hoeft niet te gokken; je ziet het antwoord direct.

Samenvattend

De auteurs hebben bewezen dat AI's slimmer kunnen worden door te stoppen met het kiezen van één gedachte per seconde, en in plaats daarvan vele gedachten tegelijk te laten "vloeien" in hun interne wereld.

Vroeger: "Ik denk na over optie A... oh nee, optie B... oh nee, optie C..." (Langzaam, foutgevoelig).
Nu (CoT2): "Ik denk na over A, B en C tegelijk en zie direct welke de beste is." (Snel, efficiënt, en veel minder fouten).

Dit is alsof je van een fiets op een motor overstapt: je komt veel sneller aan op je bestemming, en je hoeft niet meer bij elke bocht te twijfelen of je de juiste kant op gaat. De AI "weet" het antwoord al voordat ze het hardop zegt, omdat ze alle wegen tegelijk heeft bewandeld.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Moderne taalkundige modellen (LLMs) genereren Chain-of-Thought (CoT) redeneringen door autoregressief tokens te bemonsteren uit een eindige vocabulaire. Hoewel deze discrete aanpak succesvol is, kent deze beperkingen:

Discrete Sampling: Bij elke stap kiest het model één token. Dit beperkt de informatie-inhoud per stap tot de Shannon-entropie van de softmax-uitvoer (maximaal $\log_2(v)$ bits), terwijl token-embeddings veel meer informatie kunnen bevatten ( $O(d)$ bits, waarbij $d$ de embed-dimension is).
Gebrek aan Parallelisme: Discrete sampling dwingt het model om zich vroeg vast te leggen op één oplossing, waardoor het alternatieve paden niet kan verkennen. Bestaande methoden om dit op te lossen (zoals Self-Consistency of Best-of-N) vereisen meerdere inferentiedoorlopen, wat rekenkundig inefficiënt is.
Foutaccumulatie: Een fout in een vroege stap kan leiden tot een "snowball-effect" waarbij latere stappen onjuist worden.

Het paper introduceert CoT2 (Chain of Thought with Continuous Tokens) om deze uitdagingen aan te pakken door redenering in een continue ruimte mogelijk te maken in plaats van in een discrete ruimte.

2. Methodologie

De kern van CoT2 is dat het model niet één token kiest, maar een continue superpositie van tokens genereert op basis van de softmax-uitvoer. Dit stelt het model in staat om meerdere redeneerpaden parallel te volgen binnen één enkele trace.

A. Continuous Supervised Fine-Tuning (CSFT)

In plaats van het model te trainen op "harde" doelwitten (één correct token), gebruikt de auteurs een budget-gedreven supervisiestrategie:

Superpositie van Trajecten: Voor een gegeven budget $B$ (het aantal te volgen paden), selecteert het model de $B$ beste trajecten (gebaseerd op een taak-specifieke scorefunctie).
Soft Targets: De supervisie voor een stap $t$ is het gemiddelde van de embeddings van de toestanden die door deze $B$ trajecten worden bezocht. Dit resulteert in een continue token $z_t = E^\top \alpha_t$ , waarbij $\alpha_t$ een kansverdeling is over de vocabulaire.
Budget Trade-off: Door $B$ te variëren, kan het model interpoleren tussen discrete CoT ( $B=1$ ) en het volgen van alle mogelijke paden ( $B = |T|$ ).

B. Inference Strategieën

Het paper introduceert twee methoden voor het genereren van continue tokens tijdens inferentie:

Base CoT2: Deterministische inferentie waarbij de ruwe softmax-uitvoer direct wordt omgezet in een continue token. Dit volgt alle paden perfect parallel.
CoT2-MTS (Multi-Token Sampling): Een stochastische methode waarbij $K$ discrete tokens worden bemonsterd en gemiddeld om een continue token te vormen. Dit fungeert als een schatting van de "ideale" continue staat.

C. Reinforcement Learning (RL) voor CoT2

De auteurs passen Group Relative Policy Optimization (GRPO) toe op CoT2-modellen. Ze introduceren twee samplingstrategieën voor RL:

Multi-Token Sampling (MTS): Bemonsteren en middelen van $K$ tokens.
Dirichlet Sampling: Het interpreteren van de softmax-uitvoer als concentratieparameters voor een Dirichlet-verdeling om continue tokens te genereren.
Dit stelt het model in staat om tijdens de RL-fase relevante redeneerpaden te prioriteren en de entropie van de continue representaties te verlagen (meer zekerheid) zonder de voordelen van parallelle exploratie volledig te verliezen.

3. Belangrijkste Bijdragen

Theoretische Garanties

Parallelle Exploratie: Het paper bewijst theoretisch dat CoT2 het model in staat stelt om meerdere discrete traces parallel bij te houden.
Sample Complexiteit: Er wordt aangetoond dat CoT2-MTS met parallelisme $K$ even krachtig is als het aggregeren van $K$ standaard discrete CoT-traces, maar met veel minder bemonsteringskosten. De schatting van de verdeling convergeert sneller dan bij discrete sampling.
Embedding Capaciteit: Er wordt een ondergrens afgeleid voor de embed-dimension $d$ die nodig is om $B$ superposities robuust te decoderen: $d = \Omega(B \log(v/B))$ . Dit illustreert de trade-off tussen parallelisme en modelcapaciteit.
Constructie voor MNNS: Er wordt een constructie getoond van een één-laags transformer die het Minimum Non-Negative Sum (MNNS) probleem (een generalisatie van het Subset Sum-probleem) kan oplossen met CoT2, mits de embed-dimension voldoende groot is. Dit bewijst dat transformers meerdere paden in de latente ruimte kunnen volgen.

Experimentele Resultaten

De methoden werden getest op drie taken:

MNNS (Minimum Non-Negative Sum): Een wiskundig zoekprobleem.
ProntoQA & ProsQA: Logische redeneertaken die meerdere paden vereisen.

Kernbevindingen:

Superioriteit: CoT2-modellen (getraind met CSFT) presteren significant beter dan discrete CoT, COCONUT en "no-CoT" baselines, vooral op zoek-gebaseerde taken.
Efficiëntie: CoT2 bereikt met één enkele inferentiedoorloop (single-shot) prestaties waar discrete CoT meerdere pogingen (Pass@k of Maj@k) voor nodig heeft.
Budget vs. Dimensie: Er is een duidelijke "sweet spot" voor het parallelisme ( $B$ ). Als de embed-dimension te klein is, kan het model geen grote budgetten ( $B$ ) hanteren. Bij voldoende grote dimensies ( $d$ ) verbetert de prestatie monotoon met $B$ .
RL Verbetering: Toepassing van GRPO met CoT2-MTS of Dirichlet sampling verbetert de nauwkeurigheid verder ten opzichte van alleen Supervised Fine-Tuning (SFT), vooral door het model te helpen relevante paden te prioriteren.

4. Significantie

Dit paper biedt een fundamentele verschuiving in hoe redenering in LLMs wordt benaderd:

Van Discreet naar Continuum: Het demonstreert dat het verlaten van strikt discrete token-selectie voor continue superposities de expressiviteit en het parallelle zoekvermogen van modellen aanzienlijk verhoogt.
Rekenkundige Efficiëntie: Door meerdere paden in één keer te volgen in plaats van ze sequentieel te genereren, biedt CoT2 een manier om "test-time compute" te verhogen zonder de inferentietijd lineair te laten toenemen.
Theoretische Onderbouwing: Het biedt een wiskundig kader voor het begrijpen van de relatie tussen embed-dimensie, parallelisme en redeneerprestaties, wat nieuwe richtingen opent voor het ontwerp van toekomstige architecturen.
Praktische Toepasbaarheid: De combinatie van CSFT (supervisie) en GRPO (versterkingslering) vormt een robuust trainingsparadigma voor modellen die complexe zoek- en redeneertaken moeten uitvoeren.

Kortom, CoT2 transformeert de Chain-of-Thought van een sequentiële, discrete zoektocht naar een parallelle, continue exploratie in de latente ruimte, wat leidt tot efficiëntere en nauwkeurigere redenering.