Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen genialen Chef-Architekten (den Lehrer-Modell), der Pläne für riesige Gebäude entwirft. Aber er spricht nur eine sehr spezielle Sprache: Er benutzt einen Wortschatz, bei dem jedes Wort eine ganze Wand oder ein ganzer Raum bedeutet (das sind die Tokens in großen KI-Modellen).

Du hast aber einen jungen, talentierten Lehrling (das Schüler-Modell), der viel schneller und günstiger arbeitet, aber eine ganz andere Sprache spricht. Für ihn ist eine "Wand" kein einzelnes Wort, sondern eine Ansammlung von kleinen Ziegelsteinen (das sind Bytes).

Das Problem: Wenn der Chef dem Lehrling sagt: "Baue eine Wand!", versteht der Lehrling das nicht, weil sein Wörterbuch keine "Wand" kennt. Er kennt nur "Ziegel", "Mörtel" und "Kelle".

Bisher war es fast unmöglich, dem Lehrling die Weisheit des Chefs zu vermitteln, ohne dass beide die exakt gleiche Sprache sprechen. Die bisherigen Lösungen waren wie komplizierte Dolmetscher, die ständig raten mussten, was gemeint ist – oft mit viel Aufwand und vielen Missverständnissen.

Die neue Lösung: Die "Ziegelstein-Ebene" (Byte-Level Distillation)

Die Autoren dieses Papers haben eine geniale, einfache Idee: Warum nicht auf die Ebene gehen, die beide verstehen?

Obwohl der Chef "Wand" sagt und der Lehrling "Ziegel" sagt, bestehen beide Gebäude aus denselben Ziegelsteinen (Bytes). Ein Ziegelstein ist für beide gleich.

Die Methode, die sie Byte-Level Distillation (BLD) nennen, funktioniert so:

Der Chef übersetzt für sich selbst: Statt dem Lehrling zu sagen "Baue eine Wand", rechnet der Chef im Hintergrund aus: "Okay, eine Wand besteht aus 50 Ziegelsteinen. Die Wahrscheinlichkeit, dass der erste Ziegel rot ist, liegt bei 90%, der zweite bei 10%..." Er wandelt seine hochkomplexen Anweisungen in eine Liste von Ziegelstein-Wahrscheinlichkeiten um.
Der Lehrling bekommt einen neuen Hut: Dem Lehrling wird ein kleines, leichtes Zusatzmodul (ein "Byte-Level-Decoder") angehängt. Dieser Hut kann genau diese Ziegelstein-Wahrscheinlichkeiten lesen.
Das Training: Der Lehrling versucht nun nicht, das Wort "Wand" zu erraten, sondern lernt, die Ziegelsteine in der richtigen Reihenfolge und mit den richtigen Farben zu setzen, genau wie es der Chef im Hintergrund berechnet hat.
Der Hut wird abgenommen: Sobald der Lehrling gelernt hat, wie man die Ziegelsteine richtig setzt, wird der Zusatz-Hut wieder abgenommen. Der Lehrling kann nun wieder in seiner eigenen Sprache ("Wand") denken, aber er hat die Intelligenz des Chefs verinnerlicht.

Warum ist das so cool?

Kein komplizierter Dolmetscher: Man muss keine künstlichen Brücken zwischen den Wortschätzen bauen. Die "Ziegelsteine" (Bytes) sind die gemeinsame Sprache aller Computer.
Einfach und effektiv: Es ist überraschend, wie gut diese einfache Methode funktioniert. In Tests hat sie oft besser abgeschnitten als viel komplexere, ausgefeiltere Methoden.
Flexibilität: Man kann einen Chef aus dem Bereich "Medizin" (der medizinische Fachbegriffe nutzt) in einen Lehrling für "Recht" (der juristische Begriffe nutzt) verwandeln, solange beide am Ende aus denselben Buchstaben und Zeichen bestehen.

Die traurige Wahrheit (Die Grenzen)

Trotz des Erfolgs gibt es einen Haken. Die Autoren sagen ganz ehrlich: Es ist noch nicht perfekt.

Manchmal ist der Lehrling in Mathe super, aber bei Textaufgaben etwas schlampig. Manchmal ist er bei einer Aufgabe besser als der Chef, bei einer anderen schlechter. Es gibt keine "Zauberformel", die bei jedem Test immer gewinnt.

Das bedeutet: Die Forschung, wie man KI-Modelle mit unterschiedlichen Sprachen am besten zusammenbringt, ist noch lange nicht fertig. Aber mit dieser "Ziegelstein-Methode" haben sie einen sehr starken, einfachen Startschuss gegeben, der zeigt, dass wir den Weg richtig eingeschlagen haben.

Zusammengefasst: Statt zu versuchen, zwei verschiedene Sprachen perfekt zu übersetzen, haben die Forscher einfach auf die Ebene der Buchstaben (Bytes) zurückgegangen, die beide verstehen. So lernen die kleinen Modelle von den großen, ohne dass sie sich erst mühsam auf ein gemeinsames Wörterbuch einigen müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das zentrale Problem der Arbeit ist die Cross-Tokenizer-Distillation (CTD). Beim klassischen Knowledge Distillation wird ein kleines „Student"-Modell trainiert, um das Verhalten eines größeren „Teacher"-Modells nachzuahmen. Dies funktioniert jedoch nur effizient, wenn beide Modelle denselben Tokenizer und dasselbe Vokabular teilen.

In der Praxis verwenden verschiedene Modelle oft unterschiedliche Tokenizer (z. B. BPE vs. Byte-Level oder unterschiedliche Vokabulargrößen). Da die Ausgabe des Teachers ein Wahrscheinlichkeitsvektor über seinem Vokabular ist und die des Students über einem anderen, können diese Vektoren nicht direkt verglichen werden (z. B. 50.000 vs. 32.000 Dimensionen).
Bestehende Lösungsansätze greifen auf heuristische Strategien zurück, wie:

Das Erstellen ad-hoc-Mappings zwischen Vokabularen.
Das Abgleichen von Hidden States.
Das Verwenden von generierten Textproben statt direkter Logits.

Diese Methoden sind oft rechenintensiv, führen zu Informationsverlusten oder fehlen einer fundierten theoretischen Basis.

2. Methodik: Byte-Level Distillation (BLD)

Die Autoren schlagen eine einfache, aber effektive Baseline namens Byte-Level Distillation (BLD) vor. Der Kerngedanke ist, dass alle Tokenizer auf einer gemeinsamen Ebene operieren: der Byte-Ebene. Da Bytes die atomare Einheit aller Textdarstellungen sind, bietet sie eine universelle Schnittstelle, die keine Vokabular-Alignment erfordert.

Der Prozess gliedert sich in zwei Hauptschritte:

Schritt 1: Byte-Level-Schnittstelle beim Student-Modell

Dem Student-Modell wird parallel zum bestehenden token-basierten Ausgabekopf (Output Head) ein neuer, leichter Byte-Level-Decoder ( $O_b$ ) hinzugefügt.
Dieser Decoder projiziert die versteckten Repräsentationen des Transformers direkt auf die Byte-Vokabular-Größe (256 Bytes + Sonder-Token).
Nach dem Training wird dieser Kopf wieder entfernt, sodass das finale Modell ein Standard-Token-Modell bleibt.

Schritt 2: Distillation über die Byte-Schnittstelle

Teacher-Seite: Die token-basierte Ausgabe des Teachers wird unter Verwendung eines schnellen Approximationsalgorithmus (basierend auf Vieira et al., 2025) in eine Wahrscheinlichkeitsverteilung auf Byte-Ebene umgewandelt. Dies geschieht, indem die Wahrscheinlichkeiten aller Token-Kombinationen, die eine bestimmte Byte-Sequenz ergeben, summiert werden.
Student-Seite: Der Student lernt, diese Byte-Wahrscheinlichkeiten vorherzusagen.
Verlustfunktion: Der Gesamtverlust ( $L$ $L$ ) setzt sich aus drei Komponenten zusammen:
1. Cross-Entropy (Next-Token): Standard-Loss für die Vorhersage des nächsten Tokens (um die Token-Logik zu erhalten).
2. Cross-Entropy (Next-Byte): Loss für die Vorhersage des nächsten Bytes durch den neuen Kopf.
3. KL-Divergenz (Byte-Level): Der eigentliche Distillation-Loss, der die Byte-Wahrscheinlichkeitsverteilung des Students an die des Teachers anpasst.

3. Wichtige Beiträge

Einfache, alignment-freie Baseline: BLD umgeht das komplexe Problem der Vokabular-Abgleichung, indem es auf der universellen Byte-Ebene operiert.
Leistungsfähigkeit: Trotz der Einfachheit konkurriert BLD mit deutlich komplexeren State-of-the-Art-Methoden (wie Universal Logit Distillation oder Dual-Space Distillation) und übertrifft diese in einigen Benchmarks.
Empirische Erkenntnis: Die Arbeit zeigt, dass keine einzelne Methode (einschließlich BLD) konsistent über allen Benchmarks und Aufgaben dominiert. Dies unterstreicht, dass CTD weiterhin ein offenes Forschungsproblem ist.

4. Experimente und Ergebnisse

Die Autoren evaluierten BLD in drei Szenarien mit Modellen im Bereich von 1 bis 8 Milliarden Parametern:

BPE-zu-BPE Transfer (Llama 3.2 3B $\to$ Qwen2 Tokenizer):
- BLD erzielte die besten Ergebnisse bei PiQA und AGI-ZH und konnte die Leistung des Originalmodells bei mehreren Aufgaben fast vollständig wiederherstellen.
- Schwäche: Bei der Befolgung von Anweisungen (IFEval) lag BLD hinter spezialisierten Methoden wie MinED und ALM + SFT zurück.
BPE-zu-Byte Transfer (Llama 3.2 3B $\to$ Byte-Level):
- Dies erwies sich als deutlich schwieriger als der BPE-zu-BPE Transfer, wobei alle Methoden starke Leistungseinbußen zeigten.
- BLD lag bei PiQA knapp an der Spitze, aber die Unterschiede zwischen den Methoden waren minimal. Dies zeigt, dass die Anpassung an eine feinere Granularität (Bytes) nach wie vor eine große Herausforderung darstellt.
Cross-Tokenizer Distillation (OpenMath2-Llama3.1-8B $\to$ Gemma2 2B):
- Beim Transfer mathematischen Wissens von einem 8B-Modell auf ein 2B-Modell mit unterschiedlichem Tokenizer erreichte BLD den höchsten Score auf GSM8K (62,55).
- Auf dem MATH-Datensatz lag jedoch reines Fine-Tuning (SFT) vorne.
- Die Lücke zum Teacher-Modell blieb groß, was die Schwierigkeit des Wissens-Transfers zwischen heterogenen Modellen verdeutlicht.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass die Byte-Ebene ein natürlicher gemeinsamer Nenner für den Wissenstransfer zwischen Modellen mit unterschiedlichen Tokenizern ist. BLD bietet einen praktikablen Weg, um komplexe Alignment-Probleme zu umgehen, ohne die Architektur des Student-Modells dauerhaft zu verändern.

Trotz der Erfolge zeigt die Studie jedoch eine wichtige Limitation auf: Es gibt derzeit keine „Allzweck-Lösung" für Cross-Tokenizer-Distillation. Die Leistung hängt stark vom spezifischen Benchmark, dem Transferziel und dem Modellpaar ab. Die Autoren betonen, dass CTD weiterhin ein offenes und herausforderndes Problem ist, das weitere Forschung erfordert, insbesondere bei größeren Modellen und für Aufgaben, die stark strukturierte Ausgaben erfordern.

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Die neue Lösung: Die "Ziegelstein-Ebene" (Byte-Level Distillation)

Warum ist das so cool?

Die traurige Wahrheit (Die Grenzen)

1. Problemstellung

2. Methodik: Byte-Level Distillation (BLD)

3. Wichtige Beiträge

4. Experimente und Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs