Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

Each language version is independently generated for its own context, not a direct translation.

🧠 Het Grote Geheim van het "Gedachteproces" van AI

Stel je voor dat een kunstmatige intelligentie (zoals een slimme chatbot) een moeilijke puzzel moet oplossen, bijvoorbeeld: "Is er een weg van punt A naar punt B in dit ingewikkelde labyrint?"

In het verleden deden deze AI's dit door hardop te denken. Ze schreven elke stap op in woorden, net als een mens die hardop zegt: "Ik ga naar links, dan naar rechts, oh wacht, dat is een doodlopende weg, ik ga terug..." Dit heet "Chain of Thought" (CoT). Het werkt goed, maar het is traag en kost veel rekenkracht, omdat de AI elke stap als een apart woord moet kiezen.

De auteurs van dit paper onderzoeken een nieuwere, snellere methode: Chain of Continuous Thought.
In plaats van woorden te kiezen, houdt de AI haar gedachten in een vloeibare, continue ruimte. Het is alsof de AI niet meer zegt "links" of "rechts", maar een soort "energieveld" van mogelijkheden creëert waar alle mogelijke paden tegelijkertijd bestaan.

Het paper beantwoordt de grote vraag: Hoe leert een computer dit vanzelf? Waarom begint de AI plotseling om meerdere paden tegelijk te overwegen (superpositie) in plaats van er maar één te kiezen?

🚦 De Analogie: De Verkeersagent en de Superpositie

Om dit te begrijpen, gebruiken we een analogie met een verkeersagent in een stad met veel straten.

1. Het oude probleem: De Verkeersagent die te snel oordeelt

Stel je een verkeersagent voor die elke weg moet controleren.

De fout: Als de agent te snel is, kiest hij direct de eerste weg die eruitziet alsof het goed gaat. Hij denkt: "Die weg heeft veel bomen, dus die is vast de goede!" en stopt met kijken.
Het gevolg: Hij mist de juiste weg omdat hij te vroeg heeft besloten. Hij is te zeker van zichzelf. In de AI-wereld noemen we dit een "onbeperkte logit" (een getal dat de zekerheid aangeeft). Als dit getal te groot wordt, kiest de AI blindelings één optie en gooit hij alle andere mogelijkheden weg.

2. De nieuwe methode: De "Gedachtenstroom"

Bij de nieuwe methode (Continuous CoT) houdt de AI haar gedachten in een vloeibare vorm.

Het wonder: De AI kan nu alle mogelijke routes tegelijk in haar hoofd houden. Het is alsof de verkeersagent niet één weg kiest, maar een lichtveld projecteert over de hele stad. Alle straten die misschien leiden naar het doel, lichten zachtjes op.
Superpositie: Dit is het "superpositie"-effect. De AI denkt niet in "A OF B", maar in "A EN B tegelijkertijd". Als ze niet zeker is, houdt ze beide opties open met ongeveer evenveel gewicht.

🔍 Wat hebben de onderzoekers ontdekt?

De onderzoekers keken precies naar hoe de AI dit leert tijdens het trainen. Ze ontdekten een heel belangrijk mechanisme dat ze de "Index-Matching Logit" noemen. Laten we dit zien als de volume-knop van de zekerheid.

De twee fases van het leren:

Fase 1: Het verkennen (De zoektocht)
De AI moet leren hoe ze het labyrint moet verkennen. Ze moet niet te snel een weg kiezen, maar ook niet volledig willekeurig rondrennen.
- De ontdekking: De onderzoekers bewijzen wiskundig dat tijdens het trainen, de "volume-knop" (de zekerheid) eerst oploopt, maar dan stopt.
- Waarom is dit goed?
  - Als de knop te laag staat: De AI is te verward en ziet geen verschil tussen goede en slechte wegen.
  - Als de knop te hoog staat: De AI wordt arrogant en kiest direct één weg, zelfs als die misschien fout is.
  - De Gouden Middenweg: De AI leert dat de knop op een beperkt, gezond niveau moet blijven. Hierdoor is ze slim genoeg om de lokale straten te zien (exploitatie), maar blijft ze nederig genoeg om ook andere mogelijke routes te blijven overwegen (exploratie). Dit nederige, gebalanceerde niveau zorgt ervoor dat de "superpositie" (het houden van meerdere gedachten) ontstaat.
Fase 2: Het antwoord geven
Als de AI het labyrint heeft verkend, moet ze het juiste antwoord geven.
- De AI gebruikt nu de informatie uit haar "vloeibare gedachten" om te zien welk van de twee eindpunten (A of B) bereikbaar is.
- Omdat ze alle paden in haar superpositie heeft bewaard, kan ze het juiste pad met vertrouwen selecteren, zelfs als ze in het begin twijfelde.

🧪 De Experimenten: Bewijs in de praktijk

De onderzoekers hebben dit niet alleen in theorie bewezen, maar ook in de praktijk getest.

Ze lieten een AI een grafiek-probleem oplossen.
Ze keken naar de "volume-knop" (de logit) terwijl de AI leerde.
Het resultaat: De knop steeg inderdaad en stabiliseerde op een veilig niveau (zoals voorspeld). De AI leerde om meerdere paden tegelijk te houden in plaats van er één te kiezen.
Als ze de AI dwongen om te kiezen alsof ze alleen woorden zou gebruiken (de oude methode), bleef de knop maar stijgen tot de AI "geblindeerd" raakte en fouten maakte.

🌟 Conclusie in één zin

Dit paper laat zien dat AI's vanzelf leren om niet te snel een oordeel te vellen. Door hun "zekerheids-volume" op een gebalanceerd niveau te houden, kunnen ze meerdere oplossingen tegelijk in hun hoofd houden (superpositie), wat hen veel slimmer en flexibeler maakt bij het oplossen van complexe problemen.

Het is alsof de AI leert: "Ik weet niet zeker wat de juiste weg is, dus ik houd alle mogelijke wegen even sterk in mijn hoofd, totdat ik zekerheid heb." En dat is precies wat hen zo goed maakt in denken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) tonen sterke redeneerprestaties met "Chain of Thought" (CoT), maar traditionele CoT werkt in een discrete token-ruimte. Dit beperkt het model tot het volgen van één pad tegelijk, wat inefficiënt is voor complexe taken zoals het vinden van een pad in een gerichte graaf (reachability). Recent werk (Zhu et al., 2025) toonde aan dat "Chain of Continuous Thought" (CoCONUT), waarbij redenering plaatsvindt in een continue latente ruimte, het vermogen tot superpositie mogelijk maakt: het model kan meerdere plausibele zoekpaden parallel houden. Hoewel er bewezen is dat een transformer met CoCONUT deze taak theoretisch kan oplossen, is het onduidelijk hoe dit superpositie-mechanisme natuurlijk ontstaat tijdens het trainen via gradiënt-based methoden. De centrale vraag is: leiden gradiënt-afstammingsmethoden (gradient-based training) automatisch tot deze constructie?

Methodologie

De auteurs analyseren de trainingsdynamica van een vereenvoudigde twee-laags transformer op het probleem van gerichte graaf-bereikbaarheid (is er een pad van knoop $r$ naar $c^*$ ?).

Trainingsfasen:
- Fase 1: Thought Generation: Het model genereert autoregressief een keten van continue gedachten ( $[t_1], [t_2], \dots$ ). In elke stap wordt de verzameling van bereikbare knopen uitgebreid.
- Fase 2: Prediction: Het model gebruikt de gegenereerde gedachten om het eindantwoord ( $c^*$ ) te voorspellen.
Theoretisch Kader:
- Het paper introduceert de index-matching logit ( $\mu$ ) als een maatstaf voor de sterkte van het lokale zoekvermogen van het model.
- Ze analyseren het gedrag van $\mu$ $μ$ onder twee verschillende verliesfuncties:
  - COCONUT-BFS: Het model moet elke bereikbare knoop voorspellen (expliciete begeleiding).
  - COCONUT: Het model moet slechts één demonstratiepad volgen (praktischere setting, zoals in echte CoT-data).
- Ze gebruiken gradiëntflow-analyse (gradient flow) om te bewijzen hoe de parameters evolueren tijdens het trainen.
Mechanisme:
- De eerste laag kopieert informatie van randen naar buffer-ruimtes.
- De tweede laag voert een "expansie" uit: als een knoop bereikbaar is, worden zijn buren toegevoegd aan de superpositie. De sterkte van deze toevoeging wordt gereguleerd door $\mu$ .

Belangrijkste Bijdragen en Resultaten

1. Theoretische Analyse van Superpositie-ontstaan

De kernbevinding is dat het gedrag van de index-matching logit $\mu$ cruciaal is voor het ontstaan van superpositie:

Bij COCONUT-BFS: De logit $\mu$ divergeert (groeit onbeperkt) logaritmisch. Dit leidt tot een "one-hot" verdeling waarbij het model te zelfverzekerd wordt en één pad kiest, waardoor superpositie verloren gaat.
Bij COCONUT (de praktische setting): Onder milde aannames convergeert $\mu$ $μ$ naar een beperkte, positieve waarde ( $\mu^* < \infty$ $μ^{*} < \infty$ ).
- Waarom is dit belangrijk? Een beperkte $\mu$ $μ$ balanceert exploratie en exploitatie.
  - Als $\mu$ te klein is, kan het model geen lokale structuur benutten (willekeurig gissen).
  - Als $\mu$ te groot is, kiest het model te snel voor één pad op basis van lokale kenmerken (zoals in-degree) en gooit het andere plausibele paden weg.
  - Een beperkte $\mu$ zorgt ervoor dat het model lokale structuren benut, maar meerdere plausibele paden tegelijkertijd behoudt met vergelijkbare gewichten. Dit resulteert in superpositie (impliciete parallelle denkprocessen).

2. Voorspelfase Analyse

In de voorspelfase wordt bewezen dat het model de bereikbare kandidaat ( $c^*$ ) correct kan identificeren door twee signalen te combineren:

Residual Carryover: Het overnemen van de superpositie van bereikbare knopen uit de laatste gedachte.
Candidate Lift: Het verhogen van de logit voor de twee kandidaat-knoopen.
Het paper toont aan dat de gradiëntflow leidt tot een richting in de parameter-ruimte waarbij de verhouding tussen deze signalen optimaal is om $c^*$ te onderscheiden van de onbereikbare kandidaat, zelfs voor ongezette grafen (generalisatie).

3. Experimentele Validatie

De auteurs trainden een GPT-2-achtig model (2 lagen) op een dataset van graaf-problemen (ProsQA).

Logit-groei: De experimenten bevestigen de theorie: bij training met de COCONUT-loss stabiliseert het verschil in attentie-logits (proxy voor $\mu$ ) op een gebonden waarde, terwijl het bij de BFS-variant blijft stijgen.
Lengte-generalisatie: Het model leert superpositie in vroege stadia en kan dit mechanisme hergebruiken voor langere paden zonder expliciete training voor die lengtes.
Prestaties: Het model bereikte 96,2% nauwkeurigheid op de testset en toonde een snelle overgang van willekeurig gissen naar hoge nauwkeurigheid zodra de "residual carryover" en "candidate lift" signalen waren geleerd.

Significantie

Dit paper biedt een fundamenteel inzicht in hoe en waarom moderne LLMs complexe redeneerstrategieën zoals superpositie leren.

Mechanistisch Inzicht: Het onthult dat superpositie geen handmatig ontworpen eigenschap is, maar een natuurlijk gevolg van het trainen met continue gedachten en een specifieke verliesfunctie die onzekerheid behoudt.
Schalbaarheid: Het verklaart waarom continue CoT (CoCONUT) schaalbaarder is dan discrete CoT voor complexe taken: het vermijdt het "over-commitmen" aan één pad en maakt parallelle verkenning mogelijk.
Toekomstige Richting: De bevindingen suggereren dat het beheersen van de "boundedness" van attentie-logits een sleutel kan zijn voor het ontwerpen van efficiëntere redeneermodellen die beter kunnen omgaan met onzekerheid en complexe zoekruimtes.

Kortom, het paper bewijst theoretisch en valideert empirisch dat beperkte attentie-logits de sleutel zijn tot het natuurlijke ontstaan van superpositie in transformers, waardoor ze effectief kunnen redeneren door meerdere paden tegelijkertijd te houden.

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

🧠 Het Grote Geheim van het "Gedachteproces" van AI

🚦 De Analogie: De Verkeersagent en de Superpositie

1. Het oude probleem: De Verkeersagent die te snel oordeelt

2. De nieuwe methode: De "Gedachtenstroom"

🔍 Wat hebben de onderzoekers ontdekt?

De twee fases van het leren:

🧪 De Experimenten: Bewijs in de praktijk

🌟 Conclusie in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen en Resultaten

1. Theoretische Analyse van Superpositie-ontstaan

2. Voorspelfase Analyse

3. Experimentele Validatie

Significantie

Meer zoals dit

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models