Tiny Autoregressive Recursive Models

Hoewel het autoregressieve TRM-model geen betrouwbare prestatieverbeteringen bood ten opzichte van standaardmodellen, tonen de resultaten aan dat twee-staps verfijningsmechanismen in het algemeen veelbelovend zijn voor kleine autoregressieve taken.

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De "Kleine, Slimme Gedachte" vs. De "Grote, Dikke Boek"

Stel je voor dat je een computermodel hebt dat moet leren rekenen, net als een kind dat leert optellen. Er is een nieuw idee opgedoken in de kunstmatige intelligentie-wereld: de TRM (Tiny Recursive Model). De makers van dit model zeggen: "Wacht even, we hoeven niet per se een enorme, zware computer te bouwen. Als we een heel klein model geven, maar we laten het nadenken voordat het antwoord geeft, kan het net zo slim worden als de grote modellen!"

Het idee is als volgt: in plaats van direct een antwoord te schreeuwen, laat je het model een paar keer in zichzelf fluisteren: "Hm, is dit wel goed? Misschien moet ik het anders doen." Dit noemen ze recursieve zelfverbetering.

De auteurs van dit paper (Paulius, Claudio en Mihaela uit Cambridge) wilden weten: Werkt dit idee ook als we het in een standaard computermodel stoppen? Kunnen we die "nadenk-pauze" toevoegen aan een gewone tekst-generator om hem slimmer te maken?

Hier is wat ze hebben ontdekt, vertaald in alledaags taal:

1. De Drie Manieren om te "Rekenen"

Stel je voor dat je een budget hebt van 12 minuten om een probleem op te lossen. Je kunt die 12 minuten op drie verschillende manieren besteden:

  • Optie A: De Diepe Toren (De standaard manier). Je bouwt een toren van 12 aparte verdiepingen. Elke verdieping doet een stukje werk en geeft het door aan de volgende. Geen verdieping is hetzelfde; ze zijn allemaal uniek.
  • Optie B: De Ronde Dans (De Universal Transformer). Je hebt maar één verdieping, maar je laat die 12 keer rondlopen. Elke keer doet het dezelfde persoon iets anders, maar het is dezelfde persoon.
  • Optie C: De Binnensluiper (De TRM-stijl). Je hebt één verdieping, maar voordat je het antwoord geeft, laat je die verdieping in zichzelf 12 keer nadenken. Het is alsof je een spiegel in de kamer zet en steeds weer naar je eigen reflectie kijkt om je gedachten te ordenen, voordat je iets zegt.

De vraag was: Welke manier werkt het beste als je precies evenveel tijd (rekenkracht) hebt?

2. Het Experiment: De "Optel-Test"

De onderzoekers hebben deze drie modellen getest op simpele taken, zoals:

  • Kopiëren: Een rijtje letters overnemen.
  • Omdraaien: Een rijtje letters achterstevoren schrijven.
  • Optellen: Twee getallen bij elkaar optellen (dit is lastig, want als je op het eerste cijfer een foutje maakt, gaat de hele som fout).

3. De Verbluffende Resultaten

Wat dachten ze dat zou gebeuren? Dat de "Binnensluiper" (Optie C, de TRM) het allerbeste zou doen, omdat het eerst goed nadenkt.

Wat gebeurde er echt?

  • Optie A (De Diepe Toren) en Optie B (De Ronde Dans) deden het uitstekend. Ze konden de letters kopiëren en omdraaien, en zelfs optellen met een redelijk goed resultaat.
  • Optie C (De TRM)? Die deed het vreselijk slecht. Het haalde nauwelijks 10% van de antwoorden goed. Het was alsof het model in de war raakte van al dat zelf-nadenken. Het verloor zijn focus.

4. Waarom faalde de "Slimme Nadenker"?

De onderzoekers ontdekten iets interessants over hoe de modellen leerden:

  • De Diepe Toren leerde stap voor stap. Het maakte eerst een foutje, maar omdat elke stap uniek was, kon het zich corrigeren op de volgende verdieping.
  • De TRM probeerde alles in één keer in zijn hoofd te doen. Het bleek dat voor een computermodel heel lastig is om die "nadenk-pauze" te gebruiken zonder de draad kwijt te raken. Het model vergat eigenlijk wat het al had gedaan terwijl het probeerde na te denken over wat het nog moest doen.

Bij het optellen was het verschil het grootst. De "Diepe Toren" kon de "dragen" (de tientallen die je moet onthouden) goed bijhouden. De TRM raakte hier volledig in de war.

5. De Conclusie: "Nadenken" is niet altijd de oplossing

De boodschap van dit paper is een beetje een koude douche voor de hype rondom "recursief nadenken" in kleine modellen:

"Het idee dat een klein model slimmer wordt door in zichzelf te fluisteren, werkt niet zomaar in standaard modellen. Soms is het beter om gewoon een langere toren te bouwen (meer lagen) dan om te proberen in één laag te blijven hangen en te blijven nadenken."

De grote les:
Het is alsof je iemand vraagt een ingewikkeld raadsel op te lossen.

  • Als je zegt: "Denk eerst 12 keer na voordat je iets zegt" (TRM), raakt de persoon in paniek en vergeet hij de regels.
  • Als je zegt: "Laat 12 verschillende experts achtereenvolgens kijken" (Diepe Toren), dan komt het antwoord veel beter.

Kortom: De "TRM" is misschien geweldig voor specifieke puzzels (zoals de ARC-AGI test waar het voor bedacht is), maar als je het in een gewone tekst-generator stopt, werkt het niet. Soms is simpelweg "dieper" bouwen beter dan "binnenin" blijven draaien.