Towards Scalable Pre-training of Visual Tokenizers for Generation

Dit paper introduceert VTP, een uniek voortrainingsframework voor visuele tokenizers dat door het gezamenlijk optimaliseren van contrastieve, zelftoezicht- en reconstructieverliezen de schaalbaarheid van generatieve modellen verbetert door een latente ruimte te creëren die hoogwaardige semantiek effectief vastlegt in plaats van alleen lage-niveau pixelinformatie.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die prachtige schilderijen wil maken met een kunstmatige intelligentie (AI). Om dit te doen, moet de AI eerst begrijpen wat ze ziet. In de wereld van AI noemen we dit een "visuele tokenizer". Het is als een vertaler die een foto omzet in een soort geheime code (een "latent space") die de AI kan begrijpen en later weer kan omzetten in een nieuw schilderij.

Tot nu toe was er een groot probleem met deze vertalers. Hier is hoe de auteurs van dit papier (VTP) dat oplossen, uitgelegd in simpele taal:

1. Het oude probleem: "De perfecte fotokopie"

Stel je voor dat je een student vraagt om een foto van een hond te kopiëren.

  • De oude methode: De student krijgt de opdracht: "Maak een kopie die er exact hetzelfde uitziet als het origineel."
  • Het resultaat: De student wordt heel goed in het kopiëren van haren, vlekjes en de kleur van de neus. Maar als je hem vraagt om een nieuwe hond te tekenen, faalt hij. Hij weet niet wat een "hond" is, hij weet alleen hoe hij de pixels moet nabootsen. Hij is een perfecte fotokopie-machine, maar een slechte kunstenaar.

In de AI-wereld betekent dit: hoe beter de tokenizer de foto's reconstrueert (reconstrueert), hoe slechter de AI vaak nieuwe beelden kan maken. Meer rekenkracht voor het kopiëren leidde tot minder creatieve resultaten. Dit noemen de auteurs het "voorschaalingsprobleem".

2. De nieuwe oplossing: VTP (Visual Tokenizer Pre-training)

De auteurs zeggen: "Stop met alleen maar kopiëren. Leer de student ook wat een hond is."

Ze hebben een nieuwe methode bedacht, VTP, die de student op drie manieren tegelijkertijd traint:

  1. Kopiëren: Leer de details nog steeds goed nabootsen (zodat de neus eruitziet als een neus).
  2. Begrijpen (Zelftoets): Leer de student om de foto te beschrijven of te vergelijken met andere foto's. "Is dit een hond of een kat?" "Wat gebeurt er in deze scène?"
  3. Samenhang: Leer de student om te zien hoe een hond past bij het woord "hond" in een tekst.

De metafoor:
Stel je voor dat je een chef-kok traint.

  • De oude methode traint de kok alleen om een bestaand gerecht na te maken. Hij wordt een meester in het nabootsen van de smaak, maar als je hem vraagt om een nieuw gerecht te bedenken, weet hij niet welke ingrediënten goed bij elkaar passen.
  • De VTP-methode traint de kok om het gerecht na te maken, maar ook om de ingrediënten te begrijpen, de smaken te proeven en te weten waarom ze werken. Hierdoor kan hij niet alleen het oude gerecht perfect maken, maar ook fantastische nieuwe gerechten creëren.

3. Waarom werkt dit beter? (De "Schalingswet")

Het meest spannende deel van dit papier is dat ze een nieuwe wet hebben ontdekt: Hoe meer je traint, hoe beter het wordt.

  • Oude methode: Als je de "kopiëer-machine" langer traint, wordt hij alleen maar beter in kopiëren, maar zijn creativiteit blijft steken of wordt zelfs slechter. Het is alsof je een auto hebt die alleen maar rechtuit kan rijden; hoe harder je traint, hoe sneller hij rechtuit gaat, maar hij kan nooit een bocht nemen.
  • Nieuwe methode (VTP): Als je de "begrijpende machine" langer traint met meer data en meer rekenkracht, wordt hij niet alleen beter in kopiëren, maar ook veel beter in het maken van nieuwe beelden.

Het is alsof je een kind traint:

  • Als je alleen maar laat oefenen met het kopiëren van letters, wordt het kind een goede schrijver, maar een slechte schrijver van verhalen.
  • Als je het kind ook laat lezen, begrijpen en verhalen vertellen, wordt het een meester in zowel schrijven als verhalen bedenken. En hoe meer je het traint, hoe slimmer het wordt.

4. De resultaten in het kort

De auteurs hebben hun nieuwe methode getest en het werkt verbluffend goed:

  • Snelheid: De AI leert veel sneller nieuwe beelden te maken. Waar andere methoden uren nodig hebben om goed te worden, is hun model al na een paar uur (80 "rondes" van training) al bijna perfect.
  • Kwaliteit: De gegenereerde beelden zijn scherper, realistischer en hebben meer "zin" (semantiek).
  • Veelzijdigheid: Het werkt niet alleen voor het maken van beelden van honden of auto's, maar ook voor complexe teksten die je in een beeld wilt zien.

Conclusie

Kortom: Dit papier zegt dat we stoppen met AI's te trainen als simpele fotokopie-machines. In plaats daarvan trainen we ze om de wereld écht te begrijpen. Door dit te doen, kunnen we simpelweg meer rekenkracht en data toevoegen, en krijgen we automatisch steeds betere en creatievere kunstmatige intelligenties. Het is een grote stap voorwaarts voor het maken van nieuwe beelden met AI.