UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}} for Unified Multimodal Large Language Model

UniWeTok is een geünificeerde binaire tokenizer met een codebook van $2^{128}$ die door middel van een hybride architectuur en een driestaps trainingsframework state-of-the-art prestaties bereikt in zowel beeldherstel als generatie, terwijl het aanzienlijk minder rekenkracht vereist dan bestaande methoden.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🎨 De "Super-Druk" voor Beelden: Wat is UniWeTok?

Stel je voor dat je een enorme foto van een drukke stad wilt versturen via WhatsApp. Als je de originele, onbeperkte kwaliteit stuurt, is het bestand zo groot dat het nooit aankomt. Als je het te veel comprimeert (verkleint), wordt het een wazige vlek waar je niets meer van kunt zien.

UniWeTok is een nieuwe, slimme "drukker" die dit probleem oplost. Het is een systeem dat beelden omzet in een heel compacte code (zoals een digitale stempel), maar dan op zo'n manier dat je het later weer perfect kunt terugzetten én er slimme conclusies uit kunt trekken.

Hier zijn de drie belangrijkste dingen die UniWeTok doet, uitgelegd met simpele metaforen:

1. De "Super-Compacte" Code (De 2¹²8 Bibliotheek)

Vroeger waren digitale "woorden" voor beelden (tokens) als kleine post-it briefjes. Je had er duizenden nodig om een foto te beschrijven.
UniWeTok gebruikt een enorme bibliotheek met $2^{128}$ unieke "woorden". Dat is een getal met zoveel nullen dat het onvoorstelbaar groot is (meer dan het aantal zandkorrels op aarde).

  • De vergelijking: Stel je voor dat je een hele roman moet samenvatten. Oude methoden gebruikten duizenden losse zinnen. UniWeTok gebruikt één enkel, extreem krachtig woord dat de gehele sfeer, de details en het verhaal in één keer vastlegt. Hierdoor heeft het systeem 75% minder "woorden" nodig om dezelfde foto te beschrijven als andere systemen.

2. De "Drie-in-Één" Superkracht

De meeste systemen zijn gespecialiseerd: één is goed in het reconstrueren van een foto (zoals een fotograaf), en een ander is goed in het begrijpen van wat er op de foto staat (zoals een detective). Ze werken vaak niet samen.
UniWeTok is de drie-in-één superheld:

  • De Fotograaf: Het kan de foto zo nauwkeurig mogelijk terugbouwen (hoge kwaliteit).
  • De Detective: Het begrijpt de betekenis (bijv. "dit is een kat die slaapt" en niet alleen "een oranje vlek").
  • De Kunstenaar: Het kan nieuwe beelden bedenken op basis van die code (generatie).
  • De vergelijking: Het is alsof je één persoon hebt die tegelijkertijd een schilderij kan restaureren, een boek kan schrijven over het schilderij, en een nieuw schilderij kan bedenken dat erop lijkt, allemaal zonder dat ze moe worden.

3. De Slimme Training (De "Leraar" en de "Oefening")

Om dit te bereiken, hebben de makers een slimme trainingsmethode bedacht:

  • Pre-Post Distillatie (De Leraar): Ze gebruiken een "slimme leraar" (een ander AI-model) die de student (UniWeTok) leert om niet alleen naar de pixels te kijken, maar ook naar de betekenis. Het is alsof je een student niet alleen laat oefenen met het kopiëren van een tekening, maar ook vraagt: "Wat probeert deze tekening uit te drukken?"
  • SigLu Activering (De Rem en Gasmotor): Tijdens het leren botsten twee doelen vaak: "Hou de details vast" vs. "Maak het compact". Dit is als een auto die tegelijkertijd gas geeft en remt. UniWeTok gebruikt een nieuwe techniek genaamd SigLu die dit probleem oplost. Het zorgt ervoor dat de "gas" en "rem" perfect op elkaar afgestemd zijn, zodat het model stabiel leert zonder te crashen.
  • Generative-Aware Prior (De Oefening): Het model krijgt tijdens het trainen ook een kleine "toekomst-oefening". Het moet proberen te voorspellen wat er als volgende komt in een reeks beelden. Hierdoor leert het niet alleen te kijken, maar ook te dromen van nieuwe beelden.

🚀 Waarom is dit een doorbraak?

In het verleden moest je kiezen: of je had een systeem dat beelden heel goed kon begrijpen, of een systeem dat beelden heel goed kon maken. Je kon ze niet goed combineren in één groot "Universeel Model" (een MLLM).

UniWeTok bewijst dat je één enkel, perfect afgestemd systeem kunt bouwen dat alles doet:

  1. Minder rekenkracht nodig: Het heeft veel minder "training tokens" nodig dan concurrenten (33 miljard vs 262 miljard). Dat is als het verschil tussen een kleine elektrische auto en een zware vrachtwagen die dezelfde afstand aflegt.
  2. Beter resultaat: Het maakt betere foto's en begrijpt beelden beter dan de beste bestaande systemen.
  3. Flexibel: Het werkt goed op kleine foto's (256x256) én grote, complexe foto's met gezichten en tekst.

🏁 Conclusie

UniWeTok is als het vinden van de ultieme "vertaler" tussen de visuele wereld en de digitale wereld. Het vertaalt beelden naar een taal die zo compact en rijk is, dat een AI er niet alleen naar kan kijken, maar er ook over kan nadenken en er nieuwe kunst mee kan maken. Het maakt de weg vrij voor één enkel, krachtig AI-model dat zowel kan zien, begrijpen als creëren, zonder dat we enorme hoeveelheden rekenkracht hoeven te verbranden.

Kortom: Het is de Super-Druk die de toekomst van beeld-AI gaat sturen. 🖼️🤖✨