Transducing Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, creatieve kok hebt (een Taalmodel). Deze kok is getraind om heerlijke maaltijden te bereiden, maar hij werkt alleen met specifieke ingrediënten: subwoorden. Hij denkt niet in hele woorden als "hond" of "kat", maar in stukjes zoals "h", "ond", "k", "at".

Nu wil je dat deze kok een recept schrijft voor een klant die alleen hele woorden wil zien, of misschien zelfs lettertjes, of zelfs aminozuren (de bouwstenen van eiwitten in de biologie).

Het probleem? Als de kok "hond" schrijft als "h" + "ond", en jij vraagt om het woord "hond", dan klopt de berekening van de kans niet meer. De kok heeft namelijk een kans berekend voor de stukjes, niet voor het hele woord. Normaal gesproken zou je de kok moeten laten stoppen, alles weggooien en opnieuw trainen op de nieuwe manier van eten. Dat is duur, tijdrovend en zonde van de kennis die de kok al heeft.

Wat dit papier doet:
De auteurs van dit onderzoek zeggen: "Wacht even, we hoeven de kok niet opnieuw te trainen. We kunnen gewoon een tussenpersoon (een vertaler) tussen de kok en de klant zetten."

De Tussenpersoon: De Transducer

Deze tussenpersoon heet een Transducer. Denk hierbij aan een slimme tolk of een robotarm die precies weet hoe je de stukjes van de kok omzet in de vorm die de klant wil.

Voorbeeld 1 (Subwoorden naar letters): De kok zegt "h" + "ond". De robotarm pakt die twee stukjes en plakt ze direct aan elkaar tot het woord "hond".
Voorbeeld 2 (DNA naar Eiwitten): De kok kijkt naar een reeks DNA-basen (A, C, G, T). De robotarm kijkt naar elke drie letters en zegt: "Ah, deze drie letters betekenen 'Cysteïne'." Zo zet hij het DNA om in een eiwitketen.

Het Magische Trucje: De "Kans-Berekening"

Het echte probleem is niet het omzetten van de tekst (dat is makkelijk), maar het berekenen van de kans.

Stel, de klant vraagt om het woord "hello". De kok heeft misschien 100 verschillende manieren om "hello" te schrijven met zijn stukjes (bijvoorbeeld: "he" + "llo", of "h" + "e" + "ll" + "o", of "hel" + "lo").

Als je gewoon de stukjes van de kok optelt, krijg je een rommeltje.
De auteurs hebben een wiskundige formule bedacht die al die 100 manieren snel en precies bij elkaar optelt. Ze noemen dit het "marginaliseren" (het samenvoegen van alle mogelijke wegen).

Het is alsof je een enorme berg met verschillende routes naar een top bekijkt. De meeste routes zijn kort en makkelijk, sommige zijn lang en moeilijk. De nieuwe methode telt snel alle kansen van alle routes bij elkaar op, zonder dat je elke route één voor één hoeft te lopen.

Hoe werkt het in de praktijk?

De auteurs hebben drie tests gedaan om te laten dat dit werkt:

Van Subwoorden naar Letters: Ze namen een model dat in stukjes denkt en maakten er een model van dat in letters denkt. Dit is handig als je wilt weten hoe waarschijnlijk een specifieke letter is in een tekst.
Van Subwoorden naar Woorden: Ze maakten een model dat precies weet hoe een zin in losse woorden is opgedeeld (zoals in een woordenboek), zelfs als de kok dat zelf niet doet.
Van DNA naar Eiwitten: Ze namen een model dat DNA leest en maakten er een model van dat direct eiwitten (de producten van het DNA) voorspelt. Dit is een enorme stap voor biologen.

Waarom is dit belangrijk?

Geen nieuwe training nodig: Je hoeft de dure, slimme modellen niet opnieuw te leren. Je plakt er gewoon een slimme "robotarm" (de transducer) op.
Flexibiliteit: Je kunt hetzelfde model gebruiken voor heel verschillende taken (van tekst naar code, van DNA naar medicijnen) zonder de kern van het model aan te raken.
Snelheid: Ze hebben slimme algoritmes bedacht die dit allemaal in een fractie van de tijd doen die het zou kosten om alles handmatig uit te rekenen.

Kortom:
Dit papier geeft ons een "adapter" voor kunstmatige intelligentie. Het laat ons toe om een model dat in één taal (of eenheid) denkt, te laten spreken in een heel andere taal, zonder dat we de intelligentie van het model verliezen of het opnieuw hoeven op te bouwen. Het is alsof je een bril opzet die de wereld in een andere kleur laat zien, terwijl je ogen (het model) precies hetzelfde blijven.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Transducing Language Models" in het Nederlands.

Titel: Transducing Language Models

Auteurs: Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu, Reda Boumasmoud, Ryan Cotterell, Tim Vieira.
Affiliaties: ETH Zürich, University of Copenhagen, CHI-FRO.

1. Het Probleem: De "String Mismatch"

Moderne taalkundige modellen (Language Models - LMs) definiëren waarschijnlijkheidsverdelingen over reeksen tekens (strings), maar de eenheid waarin ze genereren (bijv. subword-tokens zoals BPE) komt vaak niet overeen met de vereisten van downstream-toepassingen.

Voorbeelden: Een model dat byte-pair encoded (BPE) tokens genereert, produceert niet direct woord-gebaseerde voorspellingen. Een DNA-model genereert nucleobase-sequenties, terwijl toepassingen vaak aminozuur-sequenties vereisen.
Huidige aanpak: Practici gebruiken vaak ad-hoc post-processing om de output te converteren (bijv. tokens naar bytes of woorden omzetten).
De uitdaging: Hoewel het sample van een getransformeerde string eenvoudig is (eerst sample, dan transformeren), worden andere operaties zoals het berekenen van de waarschijnlijkheid van een getransformeerde string of het conditioneren op een getransformeerde output onberekenbaar (intractable). Dit komt omdat er exponentieel veel bron-strings (source strings) zijn die naar dezelfde doel-string (target string) kunnen worden gemapt.

2. Methodologie: Transducerende Taalkundige Modellen

De auteurs introduceren een formeel raamwerk om taalkundige modellen te transformeren via deterministische string-naar-string transformaties, gecodeerd als Finite-State Transducers (FST's).

Kernconcepten

Transducered Language Model ( $p_Y$ ): Een nieuw taalkundig model dat ontstaat door een bronmodel ( $p_X$ ) te combineren met een transducer ( $f$ ). De waarschijnlijkheid van een doelstring $y$ is de som van de waarschijnlijkheden van alle bronstrings $x$ die via $f$ naar $y$ worden gemapt:
$p_Y(y) = \sum_{x \in f^{-1}(y)} p_X(x)$
Prefix Probabilities: Voor autoregeneratieve generatie (het voorspellen van het volgende symbool) is het nodig om de prefix-waarschijnlijkheid $\vec{p}_Y(y)$ te berekenen. Dit vereist het sommeren over de precover $P(y)$ , de verzameling van alle bronstrings $x$ waarvan de transductie begint met $y$ .

Het Algoritme: Decompositie van de Precover

Het berekenen van de som over de precover is lastig omdat deze verzameling oneindig groot kan zijn. De auteurs lossen dit op door de precover te decomponeren in twee disjuncte delen:

Quotient ( $Q(y)$ ): Een verzameling van "cilinders". Als een string $x$ in de quotient zit, betekent dit dat alle uitbreidingen van $x$ ook naar een string beginnen met $y$ leiden. Voor deze elementen volstaat het om de prefix-waarschijnlijkheid van de bronmodel te gebruiken ( $\vec{p}_X(x)$ ).
Remainder ( $R(y)$ ): De verzameling van strings die zelf naar $y$ leiden, maar waarvan niet alle uitbreidingen dat doen. Voor deze elementen moet de volledige string-waarschijnlijkheid van het bronmodel worden gebruikt ( $p_X(x)$ ).

De formule wordt dan:
$\vec{p}_Y(y) = \sum_{x \in Q(y)} \vec{p}_X(x) + \sum_{x \in R(y)} p_X(x)$

Efficiënte Implementatie

Om dit in de praktijk haalbaar te maken, gebruiken de auteurs een breadth-first search (BFS) over de toestanden van de transducer (in plaats van over strings):

Frontier-based Checks: In plaats van strings te enumereren, houden ze een "frontier" bij (een verzameling van (toestand, output-buffer) paren).
Checks: Ze voeren drie checks uit op deze frontier:
- Cylinder: Is de frontier universeel (leidt elke verdere invoer tot acceptatie)? Zo ja, dan is het een quotient-element.
- Member: Is de huidige buffer een geldige uitbreiding van het doel? Zo ja, dan is het een remainder-element.
- Live: Is er nog een mogelijke uitbreiding?
Pruning: Omdat de verzamelingen groot kunnen worden, gebruiken ze een probability-mass pruning strategie. Ze houden alleen de meest waarschijnlijke kandidaten bij en verwerpen de rest, wat een benadering oplevert met een bekende foutmarge.
Shortcuts: Voor specifieke transducers (zoals token-naar-byte) zijn er wiskundige eigenschappen (zoals "IP-universality" van toestanden) die de berekening drastisch versnellen door de BFS te omzeilen.

3. Belangrijkste Bijdragen

Formeel Raamwerk: Een generalisatie van eerdere werk (zoals Vieira et al., 2025a) dat strikt-prefix-monotone transformaties beperkt, naar een algemeen raamwerk voor elke deterministische transductie via FST's.
Exacte en Benaderende Algoritmen: Ontwikkeling van algoritmen die exacte prefix-waarschijnlijkheden kunnen berekenen (wanneer de decompositie eindig is) en efficiënte benaderingen via pruning.
Theoretische Analyse: Voorwaarde voor eindige decompositie geformuleerd (geen $\epsilon$ -output cycli en "veiligheid" van toestanden).
Interoperabiliteit: Het getransformeerde model behoudt de autoregeneratieve interface (volgende-symbool-verdelingen), waardoor het direct kan worden gebruikt in bestaande systemen zonder het onderliggende model opnieuw te hoeven trainen.

4. Experimenten en Resultaten

De auteurs testen het framework op drie verschillende domeinen:

Tokens naar Bytes: Conversie van subword-modellen (GPT-2, LLaMA, Phi-4) naar byte-niveau.
- Resultaat: De methode convergeert snel naar de exacte verdeling. Bij een lage pruning-threshold ( $\tau \le 10^{-3}$ ) is de Jensen-Shannon Divergentie (JSD) verwaarloosbaar klein, terwijl de doorvoer (throughput) nog steeds acceptabel is.
Tokens naar Woorden (Penn Treebank): Conversie naar orthografische woordgrenzen, inclusief contextuele regels (bijv. puntjes bij afkortingen vs. decimale getallen).
- Resultaat: Dit is complexer omdat de transducer niet strikt-monotoon is (er is een "remainder"). Toch levert de methode nauwkeurige resultaten op, zij het met een lagere doorvoer dan bij de byte-conversie.
DNA naar Aminozuren: Conversie van nucleobase-sequenties naar eiwitsequenties (3 bases -> 1 aminozuur).
- Resultaat: Dit vertegenwoordigt een exponentiële groei van kandidaten. De pruning-strategie is hier essentieel om de combinatorische explosie te beheersen. De resultaten tonen aan dat een goede schatting mogelijk is met een fractie van de rekenkosten.

Kernbevindingen:

De methode werkt zonder hertraining van het model.
Een praktische benadering (pruning) is voldoende om nauwkeurige schattingen te krijgen.
De doorvoer varieert van enkele bytes per seconde (voor complexe transducties) tot honderden bytes per seconde (voor eenvoudige transducties zoals tokens-naar-bytes).

5. Betekenis en Toekomstperspectief

Dit paper biedt een fundamentele oplossing voor het probleem van "token mismatch" in NLP en bio-informatica.

Efficiëntie: Het elimineert de noodzaak om modellen te hertrainen voor specifieke output-eenheden (bijv. een model dat direct in woorden of aminozuren denkt).
Flexibiliteit: Het stelt onderzoekers in staat om taalkundige modellen te gebruiken voor psycholinguïstisch onderzoek (waar woordgrenzen cruciaal zijn) of biologische toepassingen zonder de modelarchitectuur aan te passen.
Toekomst: Het raamwerk opent de deur voor het marginaliseren van probabilities over verschillende tokenisaties (bijv. het samenvoegen van waarschijnlijkheid voor "25" en "twenty-five" in wiskundige redenering) en het toepassen van transducties op andere domeinen zoals RNA of code-generatie.

Samenvattend introduceert dit werk een principiële, modulaire en rekenkundig haalbare methode om bestaande taalkundige modellen te "transduceren" naar nieuwe output-formaten, waarbij de waarschijnlijkheidsverdeling exact (of nauwkeurig benaderd) wordt behouden.