UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest ein riesiges, komplexes Buch über die Welt schreiben, aber du darfst nur mit winzigen, einfachen Bausteinen (wie Lego-Steinen) arbeiten. Das ist im Grunde das Problem, mit dem sich moderne Künstliche Intelligenz (KI) konfrontiert sieht, wenn sie Bilder verstehen und gleichzeitig neue Bilder erschaffen soll.

Das Papier stellt UniWeTok vor – ein neues, revolutionäres Werkzeug, das dieses Problem löst. Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

1. Das Problem: Der "Zu-dick" und "Zu-dünn" Konflikt

Bisher gab es zwei Arten, Bilder für KI zu "übersetzen":

Die "Zu-dicken" Übersetzer: Sie behalten jedes Detail des Bildes bei (wie ein Foto). Das ist toll, um das Bild später wiederherzustellen, aber für die KI ist es wie ein riesiger, schwerer Rucksack. Sie kann damit nicht gut rechnen oder neue Bilder erfinden.
Die "Zu-dünnen" Übersetzer: Sie fassen Bilder in wenigen, groben Wörtern zusammen. Das ist leicht für die KI, aber das Bild sieht danach oft aus wie ein verpixeltes Gemälde. Die Details sind weg.

Die KI-Modelle brauchten bisher entweder das eine oder das andere. Sie konnten nicht beides gleichzeitig: ein Bild perfekt verstehen, es wiederherstellen und daraus neue Kunst erschaffen.

2. Die Lösung: UniWeTok – Der "Meister-Übersetzer"

UniWeTok ist wie ein genialer Dolmetscher, der ein Bild in eine geheime, ultra-kompakte Sprache aus nur 0en und 1en (Binärcode) verwandelt.

Der riesige Wortschatz (Codebook): Stell dir vor, ein normales Wörterbuch hat 1.000 Wörter. UniWeTok hat einen Wortschatz von 4 Billionen Wörtern (das ist $2^{128}$).
- Der Vergleich: Wenn ein normales KI-Modell ein Bild wie ein grobes Skizzenbuch beschreibt, beschreibt UniWeTok es wie ein fotorealistisches 3D-Modell, aber in nur wenigen Sätzen. Jeder "Baustein" (Token) enthält so viel Information, dass er winzig klein sein kann, aber trotzdem alles Wichtige trägt.
Die Verdichtung: UniWeTok nimmt ein Bild und komprimiert es um das 32-fache. Ein riesiges Bild wird zu einem winzigen Haufen von nur 64 "Wörtern". Das ist, als würde man einen ganzen Film auf einen einzigen USB-Stick packen, ohne dass die Qualität leidet.

3. Wie lernt UniWeTok? (Die drei Geheimnisse)

Damit dieser Übersetzer so gut wird, hat die Forschung drei spezielle Trainingsmethoden entwickelt:

Der "Vorher-Nachher"-Trainer (Pre-Post Distillation):
Stell dir vor, UniWeTok lernt von einem erfahrenen Professor (einem anderen, starken KI-Modell).
- Vorher: Der Professor erklärt dem Bild, worum es geht (z. B. "Das ist eine Katze").
- Nachher: UniWeTok versucht, das Bild aus seinen winzigen Bausteinen wiederherzustellen und vergleicht es mit dem Original.
- Das Ergebnis: UniWeTok lernt nicht nur, das Bild zu speichern, sondern auch zu verstehen, was darauf zu sehen ist.
Der "Zukunfts-Instinkt" (Generative-Aware Prior):
Normalerweise lernen Übersetzer nur, Bilder zu speichern. UniWeTok wird aber auch trainiert, wie ein Künstler, der ein neues Bild malt. Es lernt während des Trainings: "Wenn ich diesen Baustein hier habe, was kommt als Nächstes?"
- Der Vergleich: Es ist wie ein Musiker, der nicht nur Noten liest, sondern auch lernt, wie man eine Melodie improvisiert. So kann UniWeTok später nicht nur Bilder speichern, sondern auch neue Bilder erschaffen.
Der "Stabilisator" (SigLu Aktivierung):
Beim Lernen gab es ein Problem: Die KI wurde verwirrt, weil sie versuchte, zu viele Dinge gleichzeitig perfekt zu machen. Die Forscher haben eine spezielle mathematische "Bremsfunktion" (SigLu) eingebaut.
- Der Vergleich: Stell dir vor, du fährst ein Auto auf einer kurvigen Straße. Ohne Bremsen würdest du ins Schleudern geraten. SigLu hält die KI ruhig und stabil, damit sie lernt, ohne verrückt zu werden.

4. Der dreistufige Trainingsplan

Die Forscher haben UniWeTok nicht einfach nur "laufen lassen". Sie haben es in drei Stufen geschult, wie einen Sportler:

Grundlagen: Erst auf kleinen, einfachen Bildern (256x256 Pixel), um die Basics zu lernen.
Vielfalt: Dann auf verschiedenen Größen und Formen, damit es flexibel bleibt.
Meisterklasse: Zum Schluss auf schwierigen Dingen wie Gesichter und Text, damit es auch bei Details keine Fehler macht.

5. Warum ist das ein Durchbruch?

Schneller & Günstiger: Um ein Bild zu generieren, braucht UniWeTok viel weniger Rechenleistung als die Konkurrenz. Es ist wie der Unterschied zwischen einem riesigen, ineffizienten Lastwagen und einem schnellen, sparsamen Sportwagen.
Alles in einem: Mit UniWeTok kann eine einzige KI jetzt:
- Bilder verstehen (z. B. "Was ist auf diesem Foto?").
- Bilder generieren (z. B. "Mach ein Bild von einer Katze im Weltraum").
- Bilder bearbeiten (z. B. "Ändere die Farbe des Autos").
- Und das alles mit einer Qualität, die bisher nur getrennte Modelle schafften.

Fazit:
UniWeTok ist wie der "Schweizer Taschenmesser" unter den Bild-Übersetzern für KI. Es ist klein, extrem effizient, versteht die Welt perfekt und kann gleichzeitig neue Welten erschaffen. Es macht den Weg frei für die nächste Generation von KI-Assistenten, die sehen, verstehen und kreativ sein können – alles mit nur einem einzigen, schlanken Gehirn.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^128 for Unified Multimodal Large Language Model" auf Deutsch:

1. Problemstellung

Unified Multimodal Large Language Models (MLLMs) benötigen eine visuelle Repräsentation, die gleichzeitig drei oft widersprüchliche Ziele erfüllt:

Hohe Rekonstruktionsqualität: Treue Wiederherstellung von Bilddetails.
Komplexe semantische Extraktion: Fähigkeit, Bedeutungen und Konzepte für Verständnisaufgaben zu erfassen.
Generative Eignung: Stabilität und Effizienz bei der autoregressiven Generierung neuer Bilder.

Bestehende visuelle Tokenizer scheitern meist daran, alle drei Ziele in einem einzigen Framework zu vereinen. Diskrete Tokenizer (z. B. basierend auf VQ-VAE) leiden oft unter Informationsverlust und schlechter Rekonstruktionsqualität, während kontinuierliche Tokenizer bei der autoregressiven Generierung zu Fehlerakkumulation und Mode-Collapse neigen. Zudem sind existierende Ansätze mit riesigen Codebooks (z. B. > $2^{128}$) oft nicht für das Verständnis optimiert oder auf Text-zu-Bild-Modelle beschränkt, ohne Unified MLLMs zu unterstützen.

2. Methodik: UniWeTok

Die Autoren stellen UniWeTok vor, einen einheitlichen diskreten Tokenizer, der diese Lücke schließt. Das Kernkonzept basiert auf einem massiven binären Codebook der Größe $2^{128}$.

A. Trainingsframework

Um die Lücken zwischen Verständnis und Generierung zu schließen, wurden zwei neue Verlustfunktionen eingeführt:

Pre-Post Distillation (PPD): Ein vortrainierter semantischer Encoder (Teacher) dient als Referenz. Der Tokenizer wird sowohl auf den Encoder-Ausgaben (Pre) als auch auf den rekonstruierten latenten Vektoren (Post) durch Kosinus-Ähnlichkeitsverluste distilliert. Dies stärkt die semantische Extraktionsfähigkeit.
Generative-Aware Prior (GAP): Um die Diskrepanz zwischen diskreten Token und Generationsaufgaben zu überbrücken, wird während des Trainings ein leichtgewichtiges generatives Modell (basierend auf BitDance) verwendet. Es führt eine Next-Token-Diffusion auf den diskreten Tokens durch. Dieser Verlust (MSE) zwingt den Tokenizer, eine Verteilung zu lernen, die für die Generierung geeignet ist.

B. Modellarchitektur

Hybrid-Architektur: Der Encoder und Decoder kombinieren Convolutional Neural Networks (CNNs) für lokale induktive Verzerrungen (Texturen) mit Transformer-Blöcken für den globalen Kontext.
SigLu-Aktivierung: Ein zentraler Innovationsschritt ist die Einführung der SigLu-Aktivierungsfunktion ($1 - \frac{e^x}{1+e^x}$) als letzte Schicht des Encoders.
- Problem: Bei binärer Quantisierung führt der Commitment-Loss dazu, dass die Ausgaben auf -1 oder 1 gezwungen werden, was semantische Feinheiten unterdrückt und im Konflikt mit dem Entropie-Loss steht.
- Lösung: SigLu begrenzt die Ausgabe automatisch auf das Intervall $[-1, 1]$ . Dadurch wird der Commitment-Loss redundant und kann durch den Token-Entropie-Loss ersetzt werden, was eine stabile semantische Distillation ermöglicht.
Binäre Quantisierung: Es wird eine „Group-Wise Lookup-Free Quantization" (GQ) verwendet, bei der Latent-Features in Gruppen aufgeteilt und durch Vorzeichen-Funktionen ( $sign$ ) quantisiert werden, was den Suchaufwand für Codebooks eliminiert.

C. Drei-Stufen-Trainingspipeline

Ein Curriculum-Learning-Ansatz sorgt für Robustheit:

Stage 1: Großes Pre-Training auf einem allgemeinen Datensatz (DataComp-1B) bei fester Auflösung (256x256).
Stage 2: Multi-Resolution-Training, um Anpassungsfähigkeit an verschiedene Bildgrößen zu gewährleisten.
Stage 3: „Annealing" auf sensiblen Domänen (Gesichter, Text), um Details in diesen kritischen Bereichen zu verfeinern.

3. Wichtige Beiträge

Einheitlicher Tokenizer: Erstmals wird ein diskreter Tokenizer mit einer Codebook-Größe von $2^{128}$ vorgestellt, der gleichzeitig für hochqualitative Rekonstruktion, semantisches Verständnis und Bildgenerierung in einem einzigen MLLM-Framework funktioniert.
Effizienz: Durch eine räumliche Downsampling-Rate von 32x werden die visuellen Token um 75% reduziert (z. B. 64 Tokens für ein 256x256 Bild), was die Trainings- und Inferenzkosten für nachgelagerte MLLMs drastisch senkt.
SigLu-Aktivierung: Eine neue Aktivierungsfunktion, die den Optimierungs-Konflikt zwischen Entropie- und Commitment-Loss löst und stabile semantische Distillation bei binären Token ermöglicht.
Skalierbarkeit: Das Modell erreicht State-of-the-Art-Ergebnisse mit deutlich weniger Trainings-Token (33B) im Vergleich zu vergleichbaren Methoden (z. B. REPA mit 262B).

4. Ergebnisse

Die Evaluation zeigt überlegene Leistung in drei Bereichen:

Bildgenerierung (ImageNet):
- UniWeTok erreicht einen FID von 1.38 (vs. 1.42 bei REPA) bei der Klassen-zu-Bild-Generierung.
- Es benötigt nur 33B Trainings-Token im Vergleich zu 262B bei REPA, was eine enorme Effizienzsteigerung darstellt.
Multimodales Verständnis:
- Das darauf aufbauende Unified MLLM (UniWeTok-Chat) erzielt konkurrenzfähige Ergebnisse auf Benchmarks wie SEEDB, POPE, VQAv2 und MMMU, oft besser als reine Verständnis-Modelle.
Text-zu-Bild und Bearbeitung:
- Generierung: Auf dem DPG-Bench erreicht UniWeTok-Gen einen Score von 86.63 (vs. 83.84 bei FLUX.1 [Dev]).
- Bearbeitung: Auf dem GEdit-Bench erzielt UniWeTok-Edit einen Gesamtscore von 5.09 (vs. 5.06 bei OmniGen), was es zum ersten autoregressiven Modell macht, das Diffusionsmodelle in diesem Bereich bei ähnlicher Parametergröße schlägt.

5. Bedeutung

UniWeTok beweist, dass ein einziger, gut optimierter diskreter Tokenizer ausreicht, um die komplexen Anforderungen an Unified MLLMs zu erfüllen. Es löst das historische Dilemma, dass diskrete Tokenizer oft schlecht rekonstruieren oder semantisch arm sind, während kontinuierliche Tokenizer schwer zu generieren sind.

Durch die Kombination aus massivem binärem Codebook, der innovativen SigLu-Aktivierung und dem hybriden Trainingsansatz legt UniWeTok einen robusten und effizienten Grundstein für die nächste Generation von Multimodalen Modellen, die Verstehen, Erstellen und Bearbeiten von Bildern in einer einzigen Architektur vereinen. Die Veröffentlichung von Code und Modellen fördert zudem die weitere Forschung in diesem Bereich.

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}}2128 for Unified Multimodal Large Language Model