Latent Denoising Makes Good Tokenizers

Each language version is independently generated for its own context, not a direct translation.

De "De-noising" Revolutie: Hoe je een betere taal voor AI-beelden creëert

Stel je voor dat een kunstenaar (de AI) een prachtig schilderij moet maken. Maar er is een probleem: de kunstenaar spreekt geen menselijke taal en kan ook geen pixels direct begrijpen. Daarom hebben we een vertaler nodig. In de wereld van AI noemen we deze vertaler een tokenizer.

Deze tokenizer neemt een foto, knipt deze in duizenden kleine stukjes (tokens), en vertaalt ze naar een compacte, cryptische code die de kunstenaar wel begrijpt. Vroeger was het doel van deze vertaler simpel: "Zorg dat de vertaling zo precies mogelijk is, zodat je de originele foto later weer perfect kunt reconstrueren."

Maar de onderzoekers van dit paper (gepubliceerd bij ICLR 2026) ontdekten iets verrassends: die oude aanpak was niet de beste manier om een kunstenaar te trainen.

Hier is de simpele uitleg van hun nieuwe idee, l-DeTok, met een paar handige analogieën:

1. Het Probleem: De "Perfecte Vertaler" is geen "Goede Oefening"

Stel je voor dat je een student wilt trainen om een moeilijk examen te halen.

De oude manier: Je laat de student een boek lezen en vraagt hem om de tekst woord voor woord na te schrijven. Als hij dat perfect doet, is hij geslaagd. Maar als je hem later een boek geeft met bladzijden die eruit zijn gescheurd of met vlekken, kan hij de tekst niet meer reconstrueren. Hij is te afhankelijk van de perfecte staat van het boek.
De nieuwe manier (l-DeTok): Je geeft de student een boek, maar je smeert er inkt op, scheurt er bladzijden uit of versteekt er stukken van. Vervolgens vraag je de student: "Kun je het originele verhaal nog steeds reconstrueren?"

De onderzoekers merkten op dat alle moderne AI-modellen (die nieuwe schilderijen maken) eigenlijk op dezelfde manier werken: ze proberen een "smerig" of "onvolledig" signaal weer schoon te maken. Ze zijn dus ontsmettingsmachines.

2. De Oplossing: Train de Vertaler alsof hij een "Ontsmettingsmachine" is

In plaats van de tokenizer alleen te trainen op perfecte reconstructie, trainen ze hem nu om schoon te maken.

De Analogie van de "Verkeerde Weg":
Stel je voor dat de AI een auto is die door een modderig landschap rijdt.
- De oude tokenizer gaf de auto een perfecte, droge kaart. Maar als de auto in de modder (ruis) belandde, raakte hij de weg kwijt.
- De nieuwe tokenizer (l-DeTok) geeft de auto een kaart die al met modder besmeurd is. De AI moet leren hoe hij door die modder heen kan navigeren om toch op de juiste bestemming uit te komen.

Omdat de AI-modellen die uiteindelijk de plaatjes maken, ook moeten werken met "modderige" data (ruis), past deze nieuwe tokenizer perfect bij hen. Ze spreken dezelfde "taal" van het opruimen van rommel.

3. Hoe werkt het precies? (De "Smoel" en de "Verwarring")

De onderzoekers gebruiken twee trucs om de tokenizer te "verwarren" tijdens de training:

Gooi er ruis op: Ze nemen de digitale code van een foto en mengen er willekeurige ruis (zoals statisch geluid op een TV) doorheen.
Verberg stukken: Ze laten delen van de foto verdwijnen (alsof je een raam dichtdoet met een gordijn).

De tokenizer moet dan proberen de originele foto te maken, zelfs als de input compleet kapot is. Dit zorgt ervoor dat de "taal" die de tokenizer leert, sterk en robuust is. Het is alsof je een spreekwoord leert in een lawaaiige fabriek; als je dat kunt, kun je het overal begrijpen.

4. Het Resultaat: Beter dan ooit tevoren

Toen ze deze nieuwe, "verwarde" tokenizer gebruikten in verschillende AI-modellen, gebeurde er iets magisch:

De AI maakte veel mooiere en realistischere plaatjes.
Het werkte voor elk type AI-model, of het nu een model was dat plaatjes één voor één maakt (zoals een schrijver) of één grote stap (zoals een schilder).
Ze deden dit zonder hulp van andere, enorme AI-modellen die ze al bestaande "kennis" moesten kopiëren. Ze leerden het zelfstandig.

Samenvattend in één zin:

De onderzoekers ontdekten dat je een AI-vertaler niet moet trainen op perfectie, maar op het oplossen van rommel. Door de vertaler te leren hoe hij een beschadigde foto kan repareren, wordt hij de perfecte partner voor AI-modellen die nieuwe plaatjes maken, omdat die modellen zelf ook rommel moeten opruimen om te kunnen werken.

Het is alsof je een muzikant traint door hem te laten spelen in een stormwind: als hij dat kan, klinkt hij perfect in elke zaal.

Each language version is independently generated for its own context, not a direct translation.

Titel: Latent Denoising Makes Good Tokenizers

Auteurs: Jiawei Yang, Tianhong Li, Lijie Fan, Yonglong Tian, Yue Wang.
Affiliaties: USC, MIT CSAIL, Google DeepMind, OpenAI.

1. Het Probleem

Moderne generatieve visuele modellen (zoals Diffusion-modellen en Autoregressive modellen) werken vaak met compacte latent embeddings die worden gegenereerd door tokenizers. Deze tokenizers vervangen pixel-level modellering om de rekencomplexiteit te verminderen.

Huidige status: Bestaande tokenizers worden doorgaans getraind als standaard Variational Autoencoders (VAE's) met als hoofddoel het minimaliseren van pixel-level reconstructiefouten (bijv. MSE).
De beperking: Ondanks hun cruciale rol is het onduidelijk welke eigenschappen een tokenizer effectiever maken voor generatieve taken. De ontwikkeling van tokenizers loopt achter op de snelle vooruitgang in generatieve model-architecturen.
De observatie: Moderne generatieve modellen (zowel diffusion als autoregressief) delen een conceptueel vergelijkbaar trainingsdoel: het reconstrueren van schone signalen uit vervuilde of gedisintegreerde inputs (het "denoising" proces). Bestaande tokenizers zijn echter niet specifiek getraind om robuust te zijn tegen dergelijke vervuilingen in de latent ruimte.

2. Methodologie: l-DeTok

De auteurs stellen l-DeTok (Latent Denoising Tokenizer) voor. Dit is een tokenizer die expliciet wordt getraind om schone afbeeldingen te reconstrueren uit latent embeddings die bewust zijn "verstoord" (deconstructed). Dit aligneert de tokenizer direct met het downstream doel van generatieve modellen.

Kerncomponenten van de methode:

Architectuur: Gebaseerd op Vision Transformers (ViT) voor zowel encoder als decoder, met moderne architecturale verbeteringen (RoPE, RMSNorm, SwiGLU-FFN).
Deconstructie-strategieën (Training): Tijdens het trainen worden de latent embeddings op twee manieren verstoord:
- Interpolatieve Latent Noise: In plaats van additieve ruis (zoals in standaard VAE's), interpoleren de auteurs de latente embedding $x$ met Gaussische ruis $\epsilon$ via een factor $\tau$ :
  $x' = (1 - \tau)x + \tau \epsilon$
  Waarbij $\tau \sim U(0, 1)$ . Deze strategie zorgt ervoor dat de latente embedding bij hoge $\tau$ volledig kan worden vervuild, wat een uitdagender denoising-taak creëert dan additieve ruis.
- Random Masking: Een subset van image patches wordt willekeurig gemaskeerd (vergelijkbaar met MAE), waarbij het maskeringspercentage $m$ willekeurig wordt bemonsterd.
Trainingsdoel: De decoder moet de originele afbeelding reconstrueren vanuit deze zwaar vervuilde latent embeddings. De totale loss functie combineert:
- Pixel-wise Mean Squared Error (MSE).
- KL-regularisatie in de latent ruimte.
- Perceptuele losses (VGG/ConvNeXt).
- Adversariële GAN loss (om scherpe details te garanderen).
Inferentie: Tijdens het gebruik als tokenizer voor generatieve modellen worden de ruis- en masking-mechanismen uitgeschakeld ( $\tau=0$ , geen masking). De encoder produceert "schone" embeddings die echter robuust zijn vanwege het trainingsregime.

3. Belangrijkste Bijdragen

Unificatie van Doelen: Het paper introduceert het inzicht dat tokenizers effectiever zijn voor generatie als ze worden getraind als "latent denoising autoencoders", in plaats van puur voor pixel-reconstructie.
l-DeTok Framework: Een eenvoudige maar krachtige implementatie die zowel interpolatieve ruis als masking gebruikt om robuuste latent embeddings te leren.
Onafhankelijkheid van Semantische Distillatie: In tegenstelling tot recente methoden die afhankelijk zijn van grote, vooraf getrainde visuele encoders (zoals DINOv2 of CLIP) voor semantische distillatie, leert l-DeTok goede tokenizers zonder deze externe afhankelijkheden. Dit maakt de methode toepasbaar op domeinen waar dergelijke teachers ontbreken (bijv. video, audio, 3D).
Generalisatie: De methode werkt consistent over verschillende generatieve paradigma's (Autoregressief en Non-Autoregressief/Diffusion) en verschillende tokeniseringsstrategieën (2D, 1D, en Vector-Quantized).

4. Resultaten

De auteurs evalueren l-DeTok op zes representatieve generatieve modellen (DiT, SiT, LightningDiT, MAR, RandomAR, RasterAR) op ImageNet (256x256 en 512x512) en MS-COCO.

Kwaliteitsverbetering:
- Voor MAR-B (Autoregressief) daalt de FID van 2.31 naar 1.55 (een verbetering van ~34%), wat presteert op het niveau van het oorspronkelijke enorme MAR-H model (1.55), maar dan met een veel kleiner model.
- Voor MAR-L daalt de FID van 1.78 naar 1.35.
- Voor SiT (Non-Autoregressief) wordt de FID verbeterd van 6.97 naar 5.50.
Vergelijking met State-of-the-Art:
- l-DeTok overtreft bestaande tokenizers zoals MAR-VAE, SD-VAE, en zelfs tokenizers met semantische distillatie (VA-VAE, MAETok) in veel gevallen, vooral voor autoregressieve modellen.
- Het bereikt state-of-the-art resultaten voor non-autoregressieve modellen zonder distillatie, en zelfs betere resultaten dan bestaande distillatie-methoden als distillatie wordt toegevoegd.
Robuustheid: De verbeteringen zijn consistent over verschillende modelgroottes (B, L, XL) en verschillende tokeniseringsformaten (1D, VQ).
Tekst-naar-Afbeelding: Op MS-COCO verbetert l-DeTok zowel de beeldkwaliteit (FID) als de tekst-beeld alignering (CLIP score) en elimineert "spot artifacts" die bij andere tokenizers voorkomen.

5. Betekenis en Conclusie

Dit werk biedt een fundamenteel nieuw perspectief op het ontwerp van tokenizers voor generatieve AI:

Task-Aligned Design: Het trainen van tokenizers met het specifieke doel van het downstream generatieve proces (denoising) is effectiever dan het trainen voor algemene reconstructie.
Schaalbaarheid en Flexibiliteit: De methode vereist geen enorme vooraf getrainde "teachers" en werkt goed op schaal, wat het een veelbelovende richting maakt voor toekomstige generatieve modellen in diverse domeinen.
Eenvoud: De kerninzicht is eenvoudig (denoising in de latent ruimte), maar levert aanzienlijke prestatieverbeteringen op zonder de complexiteit van de generatieve model-architectuur zelf te hoeven wijzigen.

De auteurs concluderen dat het expliciet incorporeren van denoising-objectieven in de tokenizer-training een cruciale stap is om de grenzen van generatieve beeldkwaliteit te verleggen.

Latent Denoising Makes Good Tokenizers

1. Het Probleem: De "Perfecte Vertaler" is geen "Goede Oefening"

2. De Oplossing: Train de Vertaler alsof hij een "Ontsmettingsmachine" is

3. Hoe werkt het precies? (De "Smoel" en de "Verwarring")

4. Het Resultaat: Beter dan ooit tevoren

Samenvattend in één zin:

Titel: Latent Denoising Makes Good Tokenizers

1. Het Probleem

2. Methodologie: l-DeTok

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Self-Sovereign Agent

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

GAN-Enhanced Deep Reinforcement Learning for Semantic-Aware Resource Allocation in 6G Network Slicing