UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

Each language version is independently generated for its own context, not a direct translation.

🎨 De "Super-Druk" voor Beelden: Wat is UniWeTok?

Stel je voor dat je een enorme foto van een drukke stad wilt versturen via WhatsApp. Als je de originele, onbeperkte kwaliteit stuurt, is het bestand zo groot dat het nooit aankomt. Als je het te veel comprimeert (verkleint), wordt het een wazige vlek waar je niets meer van kunt zien.

UniWeTok is een nieuwe, slimme "drukker" die dit probleem oplost. Het is een systeem dat beelden omzet in een heel compacte code (zoals een digitale stempel), maar dan op zo'n manier dat je het later weer perfect kunt terugzetten én er slimme conclusies uit kunt trekken.

Hier zijn de drie belangrijkste dingen die UniWeTok doet, uitgelegd met simpele metaforen:

1. De "Super-Compacte" Code (De 2¹²8 Bibliotheek)

Vroeger waren digitale "woorden" voor beelden (tokens) als kleine post-it briefjes. Je had er duizenden nodig om een foto te beschrijven.
UniWeTok gebruikt een enorme bibliotheek met $2^{128}$ unieke "woorden". Dat is een getal met zoveel nullen dat het onvoorstelbaar groot is (meer dan het aantal zandkorrels op aarde).

De vergelijking: Stel je voor dat je een hele roman moet samenvatten. Oude methoden gebruikten duizenden losse zinnen. UniWeTok gebruikt één enkel, extreem krachtig woord dat de gehele sfeer, de details en het verhaal in één keer vastlegt. Hierdoor heeft het systeem 75% minder "woorden" nodig om dezelfde foto te beschrijven als andere systemen.

2. De "Drie-in-Één" Superkracht

De meeste systemen zijn gespecialiseerd: één is goed in het reconstrueren van een foto (zoals een fotograaf), en een ander is goed in het begrijpen van wat er op de foto staat (zoals een detective). Ze werken vaak niet samen.
UniWeTok is de drie-in-één superheld:

De Fotograaf: Het kan de foto zo nauwkeurig mogelijk terugbouwen (hoge kwaliteit).
De Detective: Het begrijpt de betekenis (bijv. "dit is een kat die slaapt" en niet alleen "een oranje vlek").
De Kunstenaar: Het kan nieuwe beelden bedenken op basis van die code (generatie).
De vergelijking: Het is alsof je één persoon hebt die tegelijkertijd een schilderij kan restaureren, een boek kan schrijven over het schilderij, en een nieuw schilderij kan bedenken dat erop lijkt, allemaal zonder dat ze moe worden.

3. De Slimme Training (De "Leraar" en de "Oefening")

Om dit te bereiken, hebben de makers een slimme trainingsmethode bedacht:

Pre-Post Distillatie (De Leraar): Ze gebruiken een "slimme leraar" (een ander AI-model) die de student (UniWeTok) leert om niet alleen naar de pixels te kijken, maar ook naar de betekenis. Het is alsof je een student niet alleen laat oefenen met het kopiëren van een tekening, maar ook vraagt: "Wat probeert deze tekening uit te drukken?"
SigLu Activering (De Rem en Gasmotor): Tijdens het leren botsten twee doelen vaak: "Hou de details vast" vs. "Maak het compact". Dit is als een auto die tegelijkertijd gas geeft en remt. UniWeTok gebruikt een nieuwe techniek genaamd SigLu die dit probleem oplost. Het zorgt ervoor dat de "gas" en "rem" perfect op elkaar afgestemd zijn, zodat het model stabiel leert zonder te crashen.
Generative-Aware Prior (De Oefening): Het model krijgt tijdens het trainen ook een kleine "toekomst-oefening". Het moet proberen te voorspellen wat er als volgende komt in een reeks beelden. Hierdoor leert het niet alleen te kijken, maar ook te dromen van nieuwe beelden.

🚀 Waarom is dit een doorbraak?

In het verleden moest je kiezen: of je had een systeem dat beelden heel goed kon begrijpen, of een systeem dat beelden heel goed kon maken. Je kon ze niet goed combineren in één groot "Universeel Model" (een MLLM).

UniWeTok bewijst dat je één enkel, perfect afgestemd systeem kunt bouwen dat alles doet:

Minder rekenkracht nodig: Het heeft veel minder "training tokens" nodig dan concurrenten (33 miljard vs 262 miljard). Dat is als het verschil tussen een kleine elektrische auto en een zware vrachtwagen die dezelfde afstand aflegt.
Beter resultaat: Het maakt betere foto's en begrijpt beelden beter dan de beste bestaande systemen.
Flexibel: Het werkt goed op kleine foto's (256x256) én grote, complexe foto's met gezichten en tekst.

🏁 Conclusie

UniWeTok is als het vinden van de ultieme "vertaler" tussen de visuele wereld en de digitale wereld. Het vertaalt beelden naar een taal die zo compact en rijk is, dat een AI er niet alleen naar kan kijken, maar er ook over kan nadenken en er nieuwe kunst mee kan maken. Het maakt de weg vrij voor één enkel, krachtig AI-model dat zowel kan zien, begrijpen als creëren, zonder dat we enorme hoeveelheden rekenkracht hoeven te verbranden.

Kortom: Het is de Super-Druk die de toekomst van beeld-AI gaat sturen. 🖼️🤖✨

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^128 for Unified Multimodal Large Language Model" in het Nederlands.

Probleemstelling

Unified Multimodal Large Language Models (MLLM's) vereisen een visuele representatie die drie vaak tegenstrijdige doelen gelijktijdig moet ondersteunen:

Hoge-fideliteit reconstructie: Het vermogen om beelden nauwkeurig te reconstrueren.
Complexe semantische extractie: Het begrijpen van de inhoud en betekenis van het beeld.
Generatieve geschiktheid: Het geschikt zijn voor autoregressieve generatie van nieuwe beelden.

Bestaande visuele tokenizers hebben moeite om deze doelen binnen één framework te verenigen. Continue tokenizers lijden vaak onder foutaccumulatie en "mode collapse" tijdens autoregressieve generatie. Discrete tokenizers (zoals VQ-VAE) zijn robuuster voor generatie, maar hebben historisch gezien te kampen met beperkte reconstructiekwaliteit en informatieverlies. Bovendien zijn bestaande oplossingen met enorme codeboeken (zoals BitDance of Infinity) vaak beperkt tot tekst-naar-beeld generatie en niet ontworpen voor multimodale begrip (understanding) of voor de bouw van een Unified MLLM.

Methodologie

De auteurs stellen UniWeTok voor, een unificerend discrete tokenizer die een enorme binair codebook-grootte van $2^{128}$ gebruikt om de bovenstaande conflicten op te lossen. De methode omvat drie kerncomponenten:

1. Trainingsframework

Om de tokenizer zowel semantisch rijk als generatief bruikbaar te maken, introduceren de auteurs twee nieuwe verliesfuncties:

Pre-Post Distillatie (PPD): Er wordt gebruik gemaakt van een voorgeöpleide semantische encoder (teacher) om de encoder van UniWeTok te distilleren. Dit gebeurt zowel op de input van de kwantisatie (Pre) als op de output (Post). Dit zorgt ervoor dat de discrete tokens sterke semantische informatie bevatten, essentieel voor begrijpingsopgaven.
Generative-Aware Prior (GAP): Om de uitdagingen van downstream generatie te mitigeren, wordt een lichtgewicht generatief model (gebaseerd op BitDance) gebruikt als "prior". Dit model voert een next-token diffusietaak uit op de discrete tokens tijdens het trainen. Dit dwingt de tokenizer om een latentere ruimte te leren die niet alleen reconstrueert, maar ook een goede verdeling heeft voor generatie.

2. Model Architectuur

Hybride Backbones: De encoder en decoder gebruiken een hybride architectuur die convolutielagen (voor lokale inductieve bias en textuur) combineert met transformer-blokken (voor globale context). Dit optimaliseert zowel reconstructie als semantisch begrip.
SigLu Activeringsfunctie: Een cruciale innovatie is de introductie van de SigLu activatiefunctie ( $SigLu(x) = \frac{1-e^x}{1+e^x}$ $S i g Lu (x) = \frac{1 - e ^{x}}{1 + e ^{x}}$ ) als laatste laag van de encoder.
- Probleem: De traditionele "commitment loss" in VQ-modellen dwingt outputs naar waarden dicht bij -1 of 1, wat conflicteert met de entropieverliesfunctie die de outputs naar oneindigheid duwt. Dit maakt semantische distillatie instabiel.
- Oplossing: SigLu beperkt de encoder-outputs inherent tot het interval $[-1, 1]$ . Hierdoor wordt het token-entropieverlies equivalent aan de commitment loss, waardoor de optimalisatieconflicten worden opgelost en stabiele semantische distillatie mogelijk wordt.

3. Trainingspipeline (Curriculum Learning)

Om de tokenizer robuust te maken voor verschillende resoluties en gevoelige scenario's (zoals gezichten en tekst), wordt een drie-traps trainingsstrategie gebruikt:

Fase 1: Grootschalige pre-training op een vaste resolutie (256x256) voor algemene efficiëntie.
Fase 2: Continue pre-training op meerdere resoluties tegelijkertijd.
Fase 3: "Annealing" training gefocust op perceptueel gevoelige domeinen (gezichten en tekst) om details te verfijnen.

Belangrijkste Bijdragen

Unificatie van Doelen: Het eerste framework dat een enorme binair codebook ($2^{128}$) succesvol toepast voor zowel hoge-fideliteit reconstructie, semantisch begrip als autoregressieve generatie binnen één enkel MLLM.
SigLu Activering: Een nieuwe activatiefunctie die de optimalisatieconflicten in discrete tokenizers oplost en stabiele semantische distillatie mogelijk maakt.
Efficiëntie: Het model bereikt state-of-the-art prestaties met aanzienlijk minder trainingskosten dan bestaande methoden.
Open Source: De code en modellen zijn vrijgegeven om de gemeenschap te faciliteren in het onderzoek naar Unified Tokenizers.

Resultaten

UniWeTok presteert uitstekend op diverse benchmarks:

ImageNet Generatie: Bereikt een State-of-the-Art FID van 1.38 (vs. REPA 1.42), maar vereist slechts 33B trainings tokens in plaats van 262B (REPA).
Reconstructie: Met een downsampling factor van 32x en slechts 64 tokens per afbeelding (een reductie van 75% ten opzichte van andere tokenizers), behaalt het een rFID van 0.79.
Multimodale Generatie (Text-to-Image): De op UniWeTok gebaseerde Unified MLLM behaalt een DPG Score van 86.63, wat beter is dan FLUX.1 [Dev] (83.84).
Beeldbewerking (Editing): Op de GEdit-benchmark behaalt het een Overall Score van 5.09, wat het prestaties van OmniGen (5.06) overtreft.
Begrip: De Unified MLLM toont concurrerende prestaties op een breed scala aan begripsbenchmarks (SEEDB, POPE, VQAv2, etc.).

Betekenis

UniWeTok bewijst dat het mogelijk is om een enkel, goed geoptimaliseerd discrete tokenizer te bouwen dat de complexe uitdagingen van Unified MLLM's aan kan. Door de integratie van een enorme codebook-grootte met een slim trainingsframework (PPD en GAP) en een nieuwe architecturale component (SigLu), overwint het de traditionele trade-off tussen reconstructiekwaliteit en generatieve capaciteit. Dit opent de weg voor efficiëntere, krachtigere en meer geïntegreerde multimodale systemen die zowel kunnen "zien", "begrijpen" als "creëren" binnen één autoregressief paradigma.

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}}2128 for Unified Multimodal Large Language Model