Transducing Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen Koch (ein Sprachmodell), der fantastische Gerichte zubereitet. Aber dieser Koch hat eine seltsame Angewohnheit: Er denkt nicht in ganzen Wörtern oder Sätzen, sondern nur in winzigen, zerhackten Buchstaben-Stücken (wie "Dr", "L", "ema", "ître").

Wenn du ihn fragst: "Was ist der beste Weg nach Hause?", antwortet er vielleicht mit einer Liste von Buchstaben-Stücken: Dr L ema ître.

Das Problem: Du willst aber keine Liste von Buchstaben-Stücken. Du willst ein sauberes, lesbares Wort: "Dr. Lemaître". Oder vielleicht willst du sogar wissen, wie die DNA-Sequenz aussieht, die zu einem bestimmten Protein führt, statt nur die DNA-Buchstaben selbst.

Bisher mussten Leute, die diese Kochs nutzten, das Ergebnis manuell "nachbearbeiten". Sie nahmen die Buchstaben-Stücke und klebten sie mühsam zusammen. Das war oft ungenau und kompliziert, weil man nicht genau wusste, wie wahrscheinlich das fertige Wort eigentlich war.

Was diese Forscher jetzt entdeckt haben:

Sie haben eine magische Übersetzungsmaschine (ein sogenannter endlicher Transduktor) erfunden. Stell dir diese Maschine wie einen cleveren Roboter-Arm vor, der direkt hinter dem Koch steht.

Der Koch (Das Modell): Er wirft seine Buchstaben-Stücke in den Roboter.
Der Roboter (Die Maschine): Er fängt die Stücke auf, sortiert sie, fügt sie zusammen, wandelt DNA in Proteine um oder macht alles klein geschrieben – genau so, wie du es brauchst.
Das Ergebnis: Du bekommst sofort das fertige Gericht (das Wort, das Protein, das Byte), und das Wichtigste: Der Roboter weiß genau, wie wahrscheinlich dieses Gericht ist.

Warum ist das so revolutionär?

Stell dir vor, du hast eine riesige Bibliothek mit Büchern, die nur in einer fremden Schrift geschrieben sind. Du willst wissen: "Wie wahrscheinlich ist es, dass das Wort 'Hallo' vorkommt?"

Der alte Weg: Du müsstest alle möglichen Kombinationen der fremden Schrift durchgehen, die zu "Hallo" führen könnten, und jede einzeln zählen. Das wäre wie das Zählen von Sandkörnern am Strand – unmöglich und langsam.
Der neue Weg (diese Arbeit): Der Roboter (die Maschine) hat eine Landkarte. Er weiß: "Wenn der Koch 'H' sagt, dann ist das 'Hallo' schon fast fertig. Wenn er 'e' sagt, dann ist es 'He'." Er rechnet die Wahrscheinlichkeiten aller möglichen Wege, die zu "Hallo" führen, in Echtzeit zusammen, ohne den Koch jemals umschulen zu müssen.

Die drei Haupt-Beispiele aus dem Papier:

Von Buchstaben-Stücken zu Bytes: Der Koch spricht in "Subwords" (wie ##ing), aber du willst die rohen Computer-Bits (Bytes). Der Roboter wandelt das um, ohne dass der Koch etwas davon merkt.
Von Buchstaben-Stücken zu echten Wörtern: Der Koch sagt Dr . L ema ître. Der Roboter fügt die Punkte und Leerzeichen perfekt ein, genau wie ein menschlicher Editor, und berechnet dabei die Wahrscheinlichkeit für das ganze Wort "Dr. Lemaître".
Von DNA zu Proteinen: In der Biologie wird DNA (A, C, G, T) in Proteine (Aminosäuren) übersetzt. Drei DNA-Buchstaben ergeben eine Aminosäure. Der Roboter nimmt die DNA-Sequenz des Kochs und gibt dir direkt die Protein-Sequenz aus, mit der genauen Wahrscheinlichkeit.

Das große Geheimnis: "Quotient" und "Rest"

Wie schafft der Roboter das so schnell? Er nutzt einen cleveren Trick, den die Autoren "Quotient" und "Rest" nennen:

Der Quotient (Die sicheren Kandidaten): Das sind alle Wege, die auf jeden Fall zu deinem Ziel führen, egal was danach kommt. (Beispiel: Wenn der Roboter schon "Hel" sieht und weiß, dass "Hello" immer mit "Hel" beginnt, ist das ein sicherer Weg).
Der Rest (Die Unsicheren): Das sind Wege, die jetzt gerade passen, aber vielleicht später scheitern könnten. (Beispiel: "Hel" könnte auch "Help" werden. Das ist noch nicht sicher "Hello").

Der Roboter rechnet die "sicheren" Wege schnell zusammen und ignoriert die unwahrscheinlichen "Rest"-Wege, wenn es zu viele werden. So bleibt er schnell, aber trotzdem sehr genau.

Fazit

Diese Forscher haben bewiesen, dass man Sprachmodelle nicht neu trainieren muss, um sie für neue Aufgaben zu nutzen. Man kann sie einfach mit einer intelligenten Übersetzungsmaschine verbinden.

Es ist, als würdest du einem alten, erfahrenen Übersetzer eine neue Brille aufsetzen. Plötzlich sieht er nicht mehr nur die einzelnen Buchstaben, sondern versteht sofort die ganze Bedeutung – und das, ohne dass er eine einzige neue Lektion braucht. Das spart Zeit, Geld und macht KI viel flexibler für echte Anwendungen, sei es in der Medizin (DNA), im Alltag (Wörterbuch) oder in der Programmierung.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Transducing Language Models" auf Deutsch:

Titel: Transducing Language Models

Autoren: Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu, Reda Boumasmoud, Ryan Cotterell, Tim Vieira (ETH Zürich, Universität Kopenhagen, CHI-FRO)

1. Das Problem: Das „String-Mismatch"-Problem

Moderne Sprachmodelle (LMs) definieren Wahrscheinlichkeitsverteilungen über Zeichenketten (Strings). Oft entsprechen die von diesen Modellen generierten Einheiten jedoch nicht den Anforderungen nachgelagerter Aufgaben.

Beispiele:
- Ein Modell generiert Byte-Pair-Encoding (BPE)-Tokens, aber die Anwendung benötigt Wort- oder Zeichen-Einheiten.
- Ein DNA-Modell generiert Nukleotid-Sequenzen, aber die Anwendung benötigt Aminosäure-Sequenzen.
Herausforderung: Während das reine Sampling (Generieren) durch einfaches Anwenden einer Transformation auf die Ausgabe des Modells trivial ist, werden andere Operationen wie die Berechnung der Wahrscheinlichkeit einer transformierten Zeichenkette oder das Konditionieren auf transformierte Ausgaben rechnerisch unlösbar (intractable).
Bestehende Lösungen: Bisherige Ansätze nutzen oft ad-hoc-Nachverarbeitung oder spezielle Algorithmen für sehr eingeschränkte Fälle (z. B. strikte Präfix-Monotonie). Es fehlte ein allgemeiner Rahmen, der deterministische String-zu-String-Transformationen als integralen Bestandteil des Sprachmodellierungsprozesses behandelt, ohne das Modell neu zu trainieren.

2. Methodik: Transduzierte Sprachmodelle

Die Autoren führen das Konzept des transduzierten Sprachmodells ( $p_Y$ ) ein, das durch die Komposition eines Quell-Sprachmodells ( $p_X$ ) mit einer deterministischen Transformation ( $f$ ) entsteht, die als Endlicher Zustands-Transducer (FST) kodiert ist.

Theoretischer Rahmen

Definition: Wenn $X \sim p_X$ und $f$ eine durch einen FST definierte Funktion ist, dann ist die Verteilung der transformierten Zeichenkette $Y = f(X)$ gegeben durch:
$p_Y(y) = \sum_{x \in f^{-1}(y)} p_X(x)$
Das bedeutet, die Wahrscheinlichkeit einer Zielzeichenkette $y$ ist die Summe der Wahrscheinlichkeiten aller Quellzeichenketten $x$ , die auf $y$ abbilden.
Herausforderung: Die Menge $f^{-1}(y)$ (das Urbild) kann exponentiell groß oder sogar unendlich sein. Eine direkte Summierung ist oft unmöglich.

Der Algorithmus: Zerlegung des „Precovers"

Um die Wahrscheinlichkeiten effizient zu berechnen, ohne die Parameter des LMs zu ändern, entwickeln die Autoren einen Algorithmus zur Zerlegung des Precovers $P(y)$ (die Menge aller Quell-Strings, deren Transformation $y$ als Präfix hat).

Quotient und Rest (Quotient & Remainder): Der Precover wird in zwei disjunkte Mengen zerlegt:
- Quotient $Q(y)$ : Eine Menge von Quell-Präfixen, deren jeder möglicher Fortsetzung (Cylinder) ebenfalls auf ein Präfix von $y$ abbildet. Für diese Elemente reicht die Berechnung der Präfix-Wahrscheinlichkeit des Quellmodells ( $\vec{p}_X(x)$ ).
- Rest $R(y)$ : Eine Menge von Quell-Strings, die genau auf $y$ abbilden, aber deren Fortsetzungen nicht notwendigerweise auf $y$ abbilden. Hier muss die vollständige String-Wahrscheinlichkeit ( $p_X(x)$ ) berechnet werden.
Berechnung: Die Formel für die Ziel-Präfixwahrscheinlichkeit lautet:
$\vec{p}_Y(y) = \sum_{x \in Q(y)} \vec{p}_X(x) + \sum_{x \in R(y)} p_X(x)$
Effizienz-Optimierungen:
- Lazy Determinization: Statt den Transducer explizit zu determinisieren (was exponentiell teuer sein kann), wird ein „Frontier"-Ansatz verwendet, der Zustandsmengen und Ausgaben inkrementell verfolgt.
- Pruning (Beschneiden): Da die Mengen $Q$ und $R$ groß sein können, werden Kandidaten basierend auf ihrer Wahrscheinlichkeit sortiert und nur die mit der höchsten Wahrscheinlichkeitsmasse behalten (basierend auf einem Schwellenwert $\tau$ ).
- IP-Universalität: Ein wichtiger Shortcut: Wenn ein Transducer-Zustand „input-projection universal" ist (d.h. für jeden Eingabe-Input kann er weiter ausgeben), kann der Rest $R(y)$ leer sein und die Berechnung wird stark beschleunigt.

3. Wichtige Beiträge

Allgemeiner Rahmen: Der erste allgemeine Rahmen, der deterministische String-zu-String-Transformationen (kodiert durch FSTs) verwendet, um existierende Sprachmodelle in Modelle über beliebige Einheiten (Bytes, Wörter, Aminosäuren) zu transformieren.
Exakte und Approximative Algorithmen: Entwicklung von Algorithmen für die exakte Berechnung (unter bestimmten Bedingungen) und effiziente Approximationen durch Pruning.
Theoretische Analyse: Identifikation notwendiger und hinreichender Bedingungen für die Endlichkeit der Zerlegung (z.B. keine $\epsilon$ -Ausgabe-Zyklen, Sicherheit der Zustände).
Autoregressive Schnittstelle: Die Methode ermöglicht es, transformierte Modelle mit der gleichen autoregressiven Schnittstelle (nächste-Symbol-Verteilung, Präfix-Wahrscheinlichkeiten) zu nutzen wie Standard-LLMs, was sie mit bestehenden Systemen kompatibel macht.

4. Ergebnisse und Experimente

Die Autoren validierten ihren Ansatz in drei Domänen:

Tokens zu Bytes: Umwandlung von BPE-Token-Modellen (z.B. GPT-2, LLaMA, Phi-4) in Byte-Level-Modelle.
- Ergebnis: Die Approximation mit moderatem Pruning ( $\tau \le 10^{-3}$ ) liefert Ergebnisse, die fast identisch mit exakten Methoden sind, bei deutlich höherer Durchsatzrate.
Tokens zu orthographischen Wörtern (Penn Treebank): Umwandlung in Wort-Einheiten unter Berücksichtigung kontextsensitiver Regeln (z.B. Behandlung von Kommas und Abkürzungen).
- Ergebnis: Auch bei komplexen, nicht-monotonen Transformationen funktioniert der Ansatz, wobei die Rechenkosten aufgrund des Rests $R(y)$ höher sind.
DNA zu Aminosäuren: Umwandlung von Nukleotid-Sequenzen in Proteinsequenzen.
- Ergebnis: Demonstriert die Anwendbarkeit in der Biologie. Die kombinatorische Explosion wird durch Kandidaten-Begrenzung ( $n_{max}$ ) und Pruning beherrscht.

Messgrößen:

Jensen-Shannon-Divergenz (JSD): Zeigt, dass die approximierten Verteilungen sehr nah an den Referenzverteilungen liegen (JSD-Werte im Bereich von $10^{-5} $bis$ 10^{-3}$).
Durchsatz: Die Geschwindigkeit liegt je nach Schwellenwert und Komplexität zwischen 0,2 und 80 Bytes/Sekunde.

5. Bedeutung und Fazit

Kein Neu-Training: Der größte Vorteil ist, dass keine teure Neu-Trainierung von Modellen erforderlich ist, um sie an neue Ausgabeformate anzupassen. Bestehende, vortrainierte Modelle können sofort wiederverwendet werden.
Prinzipieller Ansatz: Statt ad-hoc-Nachverarbeitung wird die Transformation mathematisch rigoros in die Wahrscheinlichkeitsberechnung integriert.
Anwendbarkeit: Die Methode ist besonders wertvoll für Anwendungen, die spezifische Einheiten benötigen (z.B. Psycholinguistik, die Wortgrenzen benötigt, oder Bioinformatik, die Proteinsequenzen benötigt), ohne dass die Modelle für diese Einheiten trainiert wurden.
Zukunft: Der Rahmen öffnet die Tür für die Nutzung von Fortschritten in der Theorie endlicher Automaten, um Sprachmodelle flexibler und anwendungsspezifischer zu machen.

Zusammenfassend bietet das Paper eine elegante und effiziente Lösung für das Problem der Diskrepanz zwischen den internen Token-Einheiten von LLMs und den Anforderungen externer Anwendungen, indem es die Kraft der endlichen Zustands-Transducer nutzt, um Wahrscheinlichkeiten korrekt zu marginalisieren.

Transducing Language Models

Warum ist das so revolutionär?

Die drei Haupt-Beispiele aus dem Papier:

Das große Geheimnis: "Quotient" und "Rest"

Fazit

Titel: Transducing Language Models

1. Das Problem: Das „String-Mismatch"-Problem

2. Methodik: Transduzierte Sprachmodelle

Theoretischer Rahmen

Der Algorithmus: Zerlegung des „Precovers"

3. Wichtige Beiträge

4. Ergebnisse und Experimente

5. Bedeutung und Fazit

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models