A Triadic Suffix Tokenization Scheme for Numerical Reasoning

Dit paper introduceert Triadic Suffix Tokenization (TST), een deterministisch schema dat getallen in drie-cijferige triaden verdeelt met expliciete magnitude-markers om de inconsistenties van standaard subwoord-tokenisatie op te lossen en zo numeriek redeneren in grote taalmodellen te verbeteren.

Oorspronkelijke auteurs: Olga Chetverina

Gepubliceerd 2026-04-14
📖 4 min leestijd☕ Koffiepauze-leesvoer

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot language model (zoals een slimme chatbot) probeert te leren rekenen. Het probleem is dat deze modellen getallen vaak op een rare manier "lezen".

Normaal gesproken splitsen ze getallen op in willekeurige stukjes, net als een kind dat een lange zin in losse letters probeert te snijden. Als je het getal 1.004.000 geeft, ziet de computer misschien alleen "100" en "400". Het verliest het idee dat het ene stukje "een miljoen" is en het andere "vierduizend". Het is alsof je iemand vraagt de afstand van Amsterdam naar New York te schatten, maar je geeft ze alleen de letters van de stadnamen zonder de afstanden. Ze moeten het dan raden, en dat gaat vaak mis (zoals bij het beroemde voorbeeld dat 9,11 groter is dan 9,9).

Deze paper introduceert een nieuwe manier om getallen te "verpakken" voor computers, genaamd Triadische Suffix-tokenisatie (TST).

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het probleem: De "Willekeurige Puzzel"

Stel je voor dat je een enorme legpuzzel hebt, maar de stukjes zijn niet op de juiste manier gesneden. Soms is een stukje "100", soms "1000", en soms "10". De computer ziet alleen de stukjes, maar weet niet hoe groot ze zijn in verhouding tot elkaar. Het moet alles zelf uitvinden, wat heel moeilijk en onnauwkeurig is.

2. De oplossing: De "Gepakte Koffers" (TST)

De auteurs zeggen: "Laten we getallen niet in willekeurige stukjes hakken, maar in pakketjes van drie cijfers (zoals duizendtallen, miljoenen, miljarden) en elk pakketje een duidelijk etiket geven."

Ze noemen dit Triadic Suffix Tokenization.

  • Triadisch: Je groepeert cijfers in blokken van drie (zoals wij dat doen met komma's: 1.000.000).
  • Suffix (Achtervoegsel): Je plakt een duidelijk label achter het blokje.

Voorbeeld:
In plaats van 100400 (wat de computer in de war brengt), wordt het:
100k 400

  • 100k betekent: "Dit is 100 duizend".
  • 400 betekent: "Dit is gewoon 400".

Het is alsof je in plaats van een losse lading bakstenen, dozen krijgt met daarop duidelijk geschreven: "Doos 1: 100 bakstenen", "Doos 2: 400 bakstenen". De computer hoeft niet meer te raden hoe zwaar de doos is; het staat erop.

3. Hoe werkt het met decimalen (komma's)?

Bij getallen met een komma (zoals 3,14159) doen ze iets vergelijkbaars, maar dan in de andere richting. Ze gebruiken een soort "diepte-markers" (zoals p, pp, ppp).

  • 3.141p betekent: "Dit is 141 tienden".
  • 592pp betekent: "Dit is 592 honderdduizendsten".

Om ervoor te zorgen dat alles netjes blijft, vullen ze lege plekken op met nullen. Of je nu schrijft 0,1 of 0,100, voor de computer wordt het exact hetzelfde pakketje: 0.100p. Dit voorkomt verwarring.

4. Waarom is dit zo slim? (De Vergelijking)

  • Huidige methode (BPE): Het is alsof je een boek leest waarbij de woorden willekeurig zijn opgesplitst. Je moet zelf raden of "123" nu 123 euro is, of 123.000 euro, afhankelijk van waar het in de zin staat.
  • Nieuwe methode (TST): Het is alsof je een boek krijgt waarin elk getal een kleurcode en een eenheid heeft. "123" is altijd rood (duizend), "456" is altijd blauw (miljoen). De computer hoeft niet meer te gissen; het ziet de grootte direct.

5. Twee manieren om dit te doen

De paper stelt twee manieren voor om dit in te voeren:

  1. De losse methode: Je leert de computer alleen de etiketten (k, m, b) en de cijfers apart. Dit is lichtgewicht.
  2. De samengestelde methode: Je maakt nieuwe woorden van het hele pakketje, zoals 123k of 456m als één enkel woord. Dit is nog sneller voor de computer, omdat het direct ziet wat het betekent zonder eerst te moeten rekenen.

6. Het grote voordeel

De belangrijkste boodschap is: Geen giswerk meer.
Door deze duidelijke labels te geven, hoeft het computermodel niet te leren wat "duizend" of "miljoen" betekent door duizenden voorbeelden te zien. Het staat er gewoon op. Dit zou moeten leiden tot:

  • Minder rekenfouten.
  • Sneller leren.
  • Betere resultaten in wetenschap en financiën.

Kortom:
De auteurs zeggen: "Laten we stoppen met computers getallen te laten raden als een raadsel. Laten we ze getallen geven in duidelijk verpakte dozen met etiketten, zodat ze precies weten wat ze hebben." Het is een simpele, maar krachtige truc om slimme computers beter te laten rekenen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →