Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

Dit artikel onthult theoretisch en experimenteel hoe het superpositiemechanisme in ketens van continue gedachte bij transformermodellen ontstaat tijdens het trainingsproces, waarbij een gebalanceerde index-matching logit zorgt voor een evenwicht tussen exploratie en exploitatie.

Hanlin Zhu, Shibo Hao, Zhiting Hu, Jiantao Jiao, Stuart Russell, Yuandong Tian

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🧠 Het Grote Geheim van het "Gedachteproces" van AI

Stel je voor dat een kunstmatige intelligentie (zoals een slimme chatbot) een moeilijke puzzel moet oplossen, bijvoorbeeld: "Is er een weg van punt A naar punt B in dit ingewikkelde labyrint?"

In het verleden deden deze AI's dit door hardop te denken. Ze schreven elke stap op in woorden, net als een mens die hardop zegt: "Ik ga naar links, dan naar rechts, oh wacht, dat is een doodlopende weg, ik ga terug..." Dit heet "Chain of Thought" (CoT). Het werkt goed, maar het is traag en kost veel rekenkracht, omdat de AI elke stap als een apart woord moet kiezen.

De auteurs van dit paper onderzoeken een nieuwere, snellere methode: Chain of Continuous Thought.
In plaats van woorden te kiezen, houdt de AI haar gedachten in een vloeibare, continue ruimte. Het is alsof de AI niet meer zegt "links" of "rechts", maar een soort "energieveld" van mogelijkheden creëert waar alle mogelijke paden tegelijkertijd bestaan.

Het paper beantwoordt de grote vraag: Hoe leert een computer dit vanzelf? Waarom begint de AI plotseling om meerdere paden tegelijk te overwegen (superpositie) in plaats van er maar één te kiezen?


🚦 De Analogie: De Verkeersagent en de Superpositie

Om dit te begrijpen, gebruiken we een analogie met een verkeersagent in een stad met veel straten.

1. Het oude probleem: De Verkeersagent die te snel oordeelt

Stel je een verkeersagent voor die elke weg moet controleren.

  • De fout: Als de agent te snel is, kiest hij direct de eerste weg die eruitziet alsof het goed gaat. Hij denkt: "Die weg heeft veel bomen, dus die is vast de goede!" en stopt met kijken.
  • Het gevolg: Hij mist de juiste weg omdat hij te vroeg heeft besloten. Hij is te zeker van zichzelf. In de AI-wereld noemen we dit een "onbeperkte logit" (een getal dat de zekerheid aangeeft). Als dit getal te groot wordt, kiest de AI blindelings één optie en gooit hij alle andere mogelijkheden weg.

2. De nieuwe methode: De "Gedachtenstroom"

Bij de nieuwe methode (Continuous CoT) houdt de AI haar gedachten in een vloeibare vorm.

  • Het wonder: De AI kan nu alle mogelijke routes tegelijk in haar hoofd houden. Het is alsof de verkeersagent niet één weg kiest, maar een lichtveld projecteert over de hele stad. Alle straten die misschien leiden naar het doel, lichten zachtjes op.
  • Superpositie: Dit is het "superpositie"-effect. De AI denkt niet in "A OF B", maar in "A EN B tegelijkertijd". Als ze niet zeker is, houdt ze beide opties open met ongeveer evenveel gewicht.

🔍 Wat hebben de onderzoekers ontdekt?

De onderzoekers keken precies naar hoe de AI dit leert tijdens het trainen. Ze ontdekten een heel belangrijk mechanisme dat ze de "Index-Matching Logit" noemen. Laten we dit zien als de volume-knop van de zekerheid.

De twee fases van het leren:

  1. Fase 1: Het verkennen (De zoektocht)
    De AI moet leren hoe ze het labyrint moet verkennen. Ze moet niet te snel een weg kiezen, maar ook niet volledig willekeurig rondrennen.

    • De ontdekking: De onderzoekers bewijzen wiskundig dat tijdens het trainen, de "volume-knop" (de zekerheid) eerst oploopt, maar dan stopt.
    • Waarom is dit goed?
      • Als de knop te laag staat: De AI is te verward en ziet geen verschil tussen goede en slechte wegen.
      • Als de knop te hoog staat: De AI wordt arrogant en kiest direct één weg, zelfs als die misschien fout is.
      • De Gouden Middenweg: De AI leert dat de knop op een beperkt, gezond niveau moet blijven. Hierdoor is ze slim genoeg om de lokale straten te zien (exploitatie), maar blijft ze nederig genoeg om ook andere mogelijke routes te blijven overwegen (exploratie). Dit nederige, gebalanceerde niveau zorgt ervoor dat de "superpositie" (het houden van meerdere gedachten) ontstaat.
  2. Fase 2: Het antwoord geven
    Als de AI het labyrint heeft verkend, moet ze het juiste antwoord geven.

    • De AI gebruikt nu de informatie uit haar "vloeibare gedachten" om te zien welk van de twee eindpunten (A of B) bereikbaar is.
    • Omdat ze alle paden in haar superpositie heeft bewaard, kan ze het juiste pad met vertrouwen selecteren, zelfs als ze in het begin twijfelde.

🧪 De Experimenten: Bewijs in de praktijk

De onderzoekers hebben dit niet alleen in theorie bewezen, maar ook in de praktijk getest.

  • Ze lieten een AI een grafiek-probleem oplossen.
  • Ze keken naar de "volume-knop" (de logit) terwijl de AI leerde.
  • Het resultaat: De knop steeg inderdaad en stabiliseerde op een veilig niveau (zoals voorspeld). De AI leerde om meerdere paden tegelijk te houden in plaats van er één te kiezen.
  • Als ze de AI dwongen om te kiezen alsof ze alleen woorden zou gebruiken (de oude methode), bleef de knop maar stijgen tot de AI "geblindeerd" raakte en fouten maakte.

🌟 Conclusie in één zin

Dit paper laat zien dat AI's vanzelf leren om niet te snel een oordeel te vellen. Door hun "zekerheids-volume" op een gebalanceerd niveau te houden, kunnen ze meerdere oplossingen tegelijk in hun hoofd houden (superpositie), wat hen veel slimmer en flexibeler maakt bij het oplossen van complexe problemen.

Het is alsof de AI leert: "Ik weet niet zeker wat de juiste weg is, dus ik houd alle mogelijke wegen even sterk in mijn hoofd, totdat ik zekerheid heb." En dat is precies wat hen zo goed maakt in denken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →