Latent Denoising Makes Good Tokenizers

Dit paper introduceert de Latent Denoising Tokenizer (l-DeTok), een effectieve tokenizer die door het direct afstemmen van de trainingsdoelstelling op het denoisen van latenten de generatiekwaliteit van diverse beeldmodellen significant verbetert.

Jiawei Yang, Tianhong Li, Lijie Fan, Yonglong Tian, Yue Wang

Gepubliceerd 2026-02-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "De-noising" Revolutie: Hoe je een betere taal voor AI-beelden creëert

Stel je voor dat een kunstenaar (de AI) een prachtig schilderij moet maken. Maar er is een probleem: de kunstenaar spreekt geen menselijke taal en kan ook geen pixels direct begrijpen. Daarom hebben we een vertaler nodig. In de wereld van AI noemen we deze vertaler een tokenizer.

Deze tokenizer neemt een foto, knipt deze in duizenden kleine stukjes (tokens), en vertaalt ze naar een compacte, cryptische code die de kunstenaar wel begrijpt. Vroeger was het doel van deze vertaler simpel: "Zorg dat de vertaling zo precies mogelijk is, zodat je de originele foto later weer perfect kunt reconstrueren."

Maar de onderzoekers van dit paper (gepubliceerd bij ICLR 2026) ontdekten iets verrassends: die oude aanpak was niet de beste manier om een kunstenaar te trainen.

Hier is de simpele uitleg van hun nieuwe idee, l-DeTok, met een paar handige analogieën:

1. Het Probleem: De "Perfecte Vertaler" is geen "Goede Oefening"

Stel je voor dat je een student wilt trainen om een moeilijk examen te halen.

  • De oude manier: Je laat de student een boek lezen en vraagt hem om de tekst woord voor woord na te schrijven. Als hij dat perfect doet, is hij geslaagd. Maar als je hem later een boek geeft met bladzijden die eruit zijn gescheurd of met vlekken, kan hij de tekst niet meer reconstrueren. Hij is te afhankelijk van de perfecte staat van het boek.
  • De nieuwe manier (l-DeTok): Je geeft de student een boek, maar je smeert er inkt op, scheurt er bladzijden uit of versteekt er stukken van. Vervolgens vraag je de student: "Kun je het originele verhaal nog steeds reconstrueren?"

De onderzoekers merkten op dat alle moderne AI-modellen (die nieuwe schilderijen maken) eigenlijk op dezelfde manier werken: ze proberen een "smerig" of "onvolledig" signaal weer schoon te maken. Ze zijn dus ontsmettingsmachines.

2. De Oplossing: Train de Vertaler alsof hij een "Ontsmettingsmachine" is

In plaats van de tokenizer alleen te trainen op perfecte reconstructie, trainen ze hem nu om schoon te maken.

  • De Analogie van de "Verkeerde Weg":
    Stel je voor dat de AI een auto is die door een modderig landschap rijdt.
    • De oude tokenizer gaf de auto een perfecte, droge kaart. Maar als de auto in de modder (ruis) belandde, raakte hij de weg kwijt.
    • De nieuwe tokenizer (l-DeTok) geeft de auto een kaart die al met modder besmeurd is. De AI moet leren hoe hij door die modder heen kan navigeren om toch op de juiste bestemming uit te komen.

Omdat de AI-modellen die uiteindelijk de plaatjes maken, ook moeten werken met "modderige" data (ruis), past deze nieuwe tokenizer perfect bij hen. Ze spreken dezelfde "taal" van het opruimen van rommel.

3. Hoe werkt het precies? (De "Smoel" en de "Verwarring")

De onderzoekers gebruiken twee trucs om de tokenizer te "verwarren" tijdens de training:

  1. Gooi er ruis op: Ze nemen de digitale code van een foto en mengen er willekeurige ruis (zoals statisch geluid op een TV) doorheen.
  2. Verberg stukken: Ze laten delen van de foto verdwijnen (alsof je een raam dichtdoet met een gordijn).

De tokenizer moet dan proberen de originele foto te maken, zelfs als de input compleet kapot is. Dit zorgt ervoor dat de "taal" die de tokenizer leert, sterk en robuust is. Het is alsof je een spreekwoord leert in een lawaaiige fabriek; als je dat kunt, kun je het overal begrijpen.

4. Het Resultaat: Beter dan ooit tevoren

Toen ze deze nieuwe, "verwarde" tokenizer gebruikten in verschillende AI-modellen, gebeurde er iets magisch:

  • De AI maakte veel mooiere en realistischere plaatjes.
  • Het werkte voor elk type AI-model, of het nu een model was dat plaatjes één voor één maakt (zoals een schrijver) of één grote stap (zoals een schilder).
  • Ze deden dit zonder hulp van andere, enorme AI-modellen die ze al bestaande "kennis" moesten kopiëren. Ze leerden het zelfstandig.

Samenvattend in één zin:

De onderzoekers ontdekten dat je een AI-vertaler niet moet trainen op perfectie, maar op het oplossen van rommel. Door de vertaler te leren hoe hij een beschadigde foto kan repareren, wordt hij de perfecte partner voor AI-modellen die nieuwe plaatjes maken, omdat die modellen zelf ook rommel moeten opruimen om te kunnen werken.

Het is alsof je een muzikant traint door hem te laten spelen in een stormwind: als hij dat kan, klinkt hij perfect in elke zaal.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →