Not all tokens are needed(NAT): token efficient reinforcement learning

Het artikel introduceert NAT (Not All Tokens Are Needed), een framework dat de trainingskosten van reinforcement learning voor lange redeneringen verlaagt door alleen een subset van tokens te updaten via Horvitz-Thompson-herschaling, terwijl het prestatieniveau van volledige token-training behouden blijft.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar ook erg dure robot wilt trainen om wiskundige raadsels op te lossen. Deze robot denkt hard na en schrijft een heel lang verhaal (een "chain of thought") om bij het antwoord te komen.

In het verleden dachten onderzoekers dat ze elk enkel woord dat de robot schreef, moesten controleren en corrigeren om hem te leren. Het was alsof je een leraar bent die elke letter van een 100 pagina's tellend essay van een student moet nakijken, zelfs als de eerste 90 pagina's alleen maar "hallo" en "laten we beginnen" bevatten. Dit kostte enorm veel tijd, energie en computerkracht.

Deze paper introduceert een slimme nieuwe methode genaamd NAT (Not All Tokens are Needed, oftewel: "Niet alle woorden zijn nodig").

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Te dure" Leraar

Stel je voor dat je een marathonloper traint. De leraar loopt de hele 42 kilometer mee en corrigeert elke stap.

  • Het probleem: De leraar is moe, de batterij van zijn stopwatch gaat leeg, en het kost te veel tijd.
  • De realiteit: De loper maakt alleen kritieke beslissingen op bepaalde momenten (bijvoorbeeld: "nu moet ik versnellen" of "nu sla ik een bocht"). De rest van de tijd loopt hij gewoon rechtdoor. Die "gewone" stappen zijn minder belangrijk om te corrigeren.

2. De Oplossing: NAT (De Slimme Assistent)

De auteurs van dit paper zeggen: "Waarom kijken we niet alleen naar de belangrijke momenten?"

Ze hebben een systeem bedacht dat werkt als een slimme cameraman:

  • In plaats van de hele film (het hele antwoord van de robot) op te nemen en te analyseren, filmt de cameraman alleen de hoogtepunten.
  • Maar hier is de magische truc: De cameraman is niet willekeurig. Hij gebruikt een wiskundige formule (de Horvitz-Thompson schatting) om ervoor te zorgen dat het beeld dat hij wel vastlegt, statistisch gezien precies hetzelfde gewicht heeft als de hele film.

Het is alsof je een hele maaltijd proeft, maar je neemt slechts één hap van elk gerecht. Als je die hap slim kiest en de smaak goed berekent, kun je toch zeggen hoe de hele maaltijd smaakt, zonder dat je de hele maaltijd hoeft op te eten.

3. Twee Manieren om te Kiezen

De paper test twee manieren om deze "belangrijke momenten" te kiezen:

  • Willekeurige Steekproef (URS): De leraar pakt een willekeurige set woorden uit het verhaal.
    • Nadeel: Omdat de robot in zijn gedachten alle eerdere woorden nodig heeft om het volgende woord te begrijpen, moet de computer toch de hele tekst "lezen" (voorwaartse berekening), ook al kijkt hij maar naar een paar woorden. Het bespaart tijd, maar niet genoeg geheugen.
  • Willekeurig Afsnijden (RPC) - De Winnaar: De leraar kiest een punt in het verhaal en zegt: "Ik kijk alleen naar het begin, tot hier."
    • Voordeel: Dit is als het afsnijden van de laatste pagina's van een boek. Omdat de robot nu een korter verhaal moet lezen en schrijven, hoeft de computer minder zware berekeningen te doen.
    • De magie: Zelfs als je de laatste 50% van het verhaal afsnijdt, zorgt de slimme formule ervoor dat de robot toch leert alsof hij het hele verhaal had gezien. Het is alsof je een spiegel gebruikt die de afwezigheid van de laatste pagina's compenseert.

4. Wat is het Resultaat?

De tests met een robot genaamd Qwen (een slimme AI) toonden aan:

  • Snelheid: De training was tot 29% sneller.
  • Geheugen: De computer had 18% minder geheugen nodig.
  • Kwaliteit: De robot werd even goed in wiskunde als wanneer hij het hele verhaal had geleerd.

De Grootste Les

Deze paper leert ons dat we niet alles hoeven te doen om iets goed te doen. Net zoals je niet elke seconde van een film hoeft te bekijken om de plot te begrijpen, hoeft een AI niet elk woord te analyseren om slim te worden.

Met NAT kunnen we AI's trainen die langer en complexer nadenken, zonder dat onze computers ontploffen van de kosten. Het is een manier om de "belasting" van het trainen te verlagen, zodat we in de toekomst nog slimmere robots kunnen bouwen.

Kort samengevat:
Het is alsof je een zware rugzak vol stenen (woorden) draagt. NAT laat je de helft van die stenen weglaten, maar zorgt er met een slimme truc voor dat je toch precies evenveel kracht opbouwt als met de volle rugzak.