SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models

Het paper introduceert SPOT, een framework dat expliciete Chain-of-Thought-redenering comprimeert naar interpreteerbare latente pauzetokens via span-niveau semantische uitlijning en een bevriezing van de taalhoofd, waardoor de inferentiekosten met 37,5% dalen terwijl de nauwkeurigheid met gemiddeld 2,3 punten stijgt.

Yunlong Chu, Minglai Shao, Yuhang Liu, Bing Hao, Yumeng Lin, Jialu Wang, Ruijie Wang

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groot taalmodel (zoals een slimme AI) een moeilijke wiskundevraag moet oplossen. Om het juiste antwoord te vinden, "denkt" de AI hard na. Normaal gesproken schrijft deze AI al haar gedachten op, stap voor stap, in een lange tekst. Dit heet Chain-of-Thought (Denkrijtje).

Het probleem is dat deze "denkrijtjes" vaak erg langdradig zijn. De AI herhaalt zich, schrijft dingen die ze al weet, en gebruikt daardoor veel tijd en rekenkracht. Het is alsof iemand die een recept zoekt, eerst een heel boek over de geschiedenis van de keuken schrijft voordat hij de ingrediënten noemt.

De onderzoekers van deze paper (SPOT) hebben een slimme oplossing bedacht: SPOT.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het idee: De "Pauze"-knop

In plaats van dat de AI alles hardop opschrijft, leren we haar om op bepaalde momenten te pauzeren. In de computerwereld noemen ze dit een <pause>-token.

  • Voor SPOT: De AI schrijft: "Oké, ik heb 20 handtekeningen, en Jennifer heeft er 44. Samen zijn dat er 64."
  • Vervolgens: In plaats van uit te leggen hoe ze aan 64 komt (20 + 44 = 64), stopt ze en voegt ze een toe.
  • Wat gebeurt er nu? In die korte pauze doet de AI al het rekenwerk in haar "hoofd" (haar geheugen), zonder dat er een woord wordt geschreven.
  • Daarna: Ze schrijft direct het resultaat: "Dus ze hebben 36 handtekeningen nodig."

Het resultaat? De tekst is veel korter, maar de AI heeft nog steeds even hard nagedacht.

2. De uitdaging: Hoe weten we wat er in dat hoofd gebeurt?

Het grote probleem met eerdere methoden was dat deze "pauzes" vaak onbegrijpelijk waren. Het was alsof de AI een geheime code gebruikte die niemand kon lezen. Als je vroeg: "Wat dacht je net?", kon de AI geen duidelijk antwoord geven.

SPOT lost dit op met twee slimme trucs:

Truc A: De "Samenvatting" (Span-level Alignment)

Stel je voor dat de AI een lange tekst heeft geschreven over het oplossen van een probleem. In plaats van dat de AI één woord moet samenvatten, leren we haar om een geheel stuk tekst (een "span") te samenvatten in één pauze.

  • De analogie: Stel je voor dat je een heel hoofdstuk uit een boek moet samenvatten. Eerdere methoden probeerden dat te doen door alleen naar de laatste zin te kijken. SPOT kijkt naar het hele hoofdstuk en pakt de belangrijkste ideeën eruit.
  • De onderzoekers gebruiken een wiskundige techniek (Sinkhorn) die ervoor zorgt dat de "pauze" precies past bij de inhoud van het stuk tekst dat er vóór haar lag. Het is alsof de AI een perfecte samenvatting maakt in haar hoofd.

Truc B: De "Vertaalbare" Pauze (Frozen-Head Decoding)

Dit is misschien wel het coolste deel. Omdat de AI de pauze zo heeft getraind, kun je er later weer een tekst van maken.

  • De analogie: Stel je voor dat de AI een geheime taal spreekt. Bij SPOT is die geheime taal eigenlijk gewoon Nederlands (of Engels), maar dan heel kort. Als je de "pauze" terugleest, zie je dat de AI eigenlijk dacht aan woorden als "optellen", "vermenigvuldigen" of "64".
  • Dit maakt het interpreteerbaar. Mensen kunnen zien wat de AI dacht, zonder dat de AI een heel lang verhaal hoeft te schrijven.

3. Waarom is dit geweldig?

De onderzoekers hebben dit getest op moeilijke wiskundeproblemen en wetenschapsvragen.

  • Sneller en goedkoper: De AI schrijft 37,5% minder tekst. Dat betekent dat het sneller is en minder energie kost.
  • Slimmer: Verrassend genoeg wordt de AI hierdoor zelfs beter in het oplossen van problemen (gemiddeld 2,3 punten meer op testscores). Waarom? Omdat ze niet meer afgeleid wordt door het schrijven van lange, saaie zinnen, maar zich kan focussen op het denken.
  • Controleerbaar: Je kunt zelf bepalen hoe vaak de AI moet "pauzeren". Wil je dat ze heel snel gaat? Laat ze minder pauzeren. Wil je dat ze heel diep nadenkt? Laat ze vaker pauzeren.

Samenvatting in één zin

SPOT is als het geven van een stille denkpauze aan een slimme AI: ze denkt nog steeds hard na, maar in plaats van dat ze alles hardop uitkraamt, doet ze het in stilte en geeft ze alleen het belangrijkste resultaat, waardoor ze sneller, slimmer en transparanter wordt.