VerChol -- Grammar-First Tokenization for Agglutinative Languages

Het paper introduceert VerChol, een grammatica-gedreven tokenisatiemethode die de beperkingen van statistische tokenizers voor agglutinerende talen oplost door morfologische grenzen te respecteren in plaats van woorden willekeurig te fragmenteren.

Prabhu Raja

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt vol met boeken in het Tamil, Turks, Fins of Koreaans. Om een computer (zoals een AI) deze boeken te laten lezen, moet je de tekst eerst in kleine stukjes hakken die de computer begrijpt. Deze stukjes heten "tokens".

Hoe computers dit nu doen, is als een blinde kok die een complexe maaltijd probeert te snijden.

Het Huidige Probleem: De Blinde Kok (BPE)

De meeste AI-modellen gebruiken een methode die BPE heet. Stel je voor dat je een Turks woord als anlayabildiklerimizden ("van de dingen die we konden begrijpen") hebt. Dit is één woord, maar het bevat zes verschillende grammaticale onderdelen (een wortel, een vermogen, een meervoud, een bezit, etc.).

De "blinde kok" (BPE) ziet geen grammatica. Hij kijkt alleen naar welke letters vaak samen voorkomen. Hij snijdt het woord dus willekeurig door de midden, dwars door de betekenis heen.

  • Het resultaat: Het woord wordt opgebroken in 3 of 4 onzin-stukjes.
  • De gevolgen: De computer moet veel meer stukjes onthouden om één zin te begrijpen. Het is alsof je een heel boek moet lezen, maar elke zin is in 30 losse puzzelstukjes verdeeld. Dat is traag, duur en inefficiënt.

De Oplossing: VerChol (De Slimme Taalkundige)

Deze paper introduceert VerChol (wat in het Tamil "wortelwoord" betekent). In plaats van blind te snijden, gebruikt VerChol een slimme taalkundige die de taal perfect kent.

Stel je voor dat VerChol een Lego-meester is.

  • Hij weet precies welke blokjes (wortels) er zijn.
  • Hij weet precies welke klemmetjes (achtervoegsels voor tijd, persoon, plaats) erbij horen.
  • Als hij een complex woord ziet, haalt hij het niet in stukjes, maar ontmantelt hij het in zijn oorspronkelijke Lego-blokjes.

Hoe werkt VerChol? (De 4-Stappen-Check)

VerChol werkt in vier lagen, als een slimme filter:

  1. De Woordenlijst (Tier 0): Is het woord al bekend? Dan pakt hij het hele woord in één keer. (Zoals een woord dat je al uit je hoofd kent).
  2. De Grammatica-ontleedmachine (Tier 1): Is het woord nieuw? Dan kijkt hij naar de regels. Hij scheidt de wortel van de achtervoegsels. Bijvoorbeeld: "Ik loop" wordt gesplitst in "loop" + "ik". Dit is het belangrijkste stukje!
  3. De Lettergrepen (Tier 2): Als het woord heel raar is (bijv. een naam van een buitenlander), splitst hij het in logische lettergrepen.
  4. De Letters (Tier 3): Als het echt niet lukt, splitst hij het letter voor letter.

Wat is het resultaat? (De Vergelijking)

De auteurs hebben dit getest op het volledige Tamil-Wikipedia (een enorme hoeveelheid tekst).

  • De oude methode (BPE): Moest 3,52 stukjes (tokens) gebruiken om één woord te beschrijven.
  • VerChol: Gebruikt slechts 1,86 stukjes voor hetzelfde woord.

Dat is bijna de helft minder!
Stel je voor dat je een vrachtwagen vol boeken moet vervoeren. De oude methode moet twee vrachtwagens huren. VerChol doet het met één vrachtwagen.

  • Snelheid: De computer is sneller.
  • Kosten: Het kost minder rekenkracht (geen dure GPU's nodig om de "woordenlijst" te leren, want die is gemaakt met grammaticaregels, niet met statistiek).
  • Begrip: Omdat de AI nu ziet dat "-ku" altijd "voor" betekent, leert hij de taal veel sneller, in plaats van te raden wat die willekeurige lettercombinaties betekenen.

Waarom is dit belangrijk?

Deze methode is niet alleen voor het Tamil. Het werkt voor alle talen die woorden bouwen door stukjes aan elkaar te plakken (zoals Turks, Fins, Koreaans, en zelfs Swahili).

De boodschap van het papier is simpel: Je hoeft niet alles te leren door miljoenen voorbeelden te tellen. Soms is het beter om de regels te kennen. Voor talen met een complexe grammatica is het kennen van de structuur (grammatica) veel krachtiger dan het tellen van letters (statistiek).

Kortom: VerChol is de slimme taalkundige die de taal respecteert, in plaats van de blinde kok die het in stukjes hakken. Voor de wereld van AI betekent dit dat we talen zoals het Tamil, Fins en Turks eindelijk op een eerlijke en efficiënte manier kunnen laten spreken.