CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Dit paper introduceert CaTok, een nieuwe 1D-causale beeldtokenizer met een MeanFlow-decoder en REPA-A-regularisatie die state-of-the-art reconstructie op ImageNet bereikt en autoregressieve generatie voor visuele data mogelijk maakt.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een schilderij moet maken, maar in plaats van met verf en kwasten werkt, gebruik je een reeks instructies. De kunst van het "generatieve AI" (AI die nieuwe beelden maakt) draait al lang om het vinden van de juiste manier om deze instructies te geven.

Deze paper introduceert CaTok, een nieuwe manier om beelden om te zetten in een reeks instructies die voor computers makkelijker te begrijpen zijn. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Verwarde Boodschappenlijst

Vroeger probeerden computers beelden te begrijpen door ze op te delen in een rooster van stukjes (zoals een pixelmat). Ze maakten hier een lange lijst van, maar de volgorde was vaak willekeurig of onlogisch.

  • De analogie: Stel je voor dat je een boek leest, maar de zinnen staan door elkaar heen. Je begint met de laatste zin, dan de eerste, dan de middelste. Dat is heel lastig om een verhaal (of een beeld) te begrijpen of te herscheppen.
  • Het doel: We willen dat de computer beelden leest en schrijft zoals wij boeken lezen: van links naar rechts, van begin tot eind. Dit noemen ze "causaal" (oorzaak en gevolg).

2. De Oplossing: CaTok (De Slimme Boekhouder)

CaTok is een systeem dat beelden omzet in een één-dimensionale lijst (een lange rij) van token's (instructie-blokjes). Maar het slimme deel is hoe het deze lijst maakt.

De auteurs gebruiken een slimme truc genaamd MeanFlow.

  • De analogie: Stel je voor dat je een auto wilt besturen van punt A naar punt B.
    • De oude methoden keken alleen naar de snelheid op dit exacte moment (te onnauwkeurig voor een snelle rit).
    • Andere methoden keken naar de hele rit, maar dat maakte het moeilijk om halverwege te stoppen of te beginnen.
    • CaTok kijkt naar het gemiddelde van de snelheid over een stukje van de rit. Het zegt: "Als we dit stukje van de weg afleggen, wat is dan de gemiddelde richting?"
  • Het resultaat: Hierdoor kan de computer het beeld in één keer "schetsen" (snel) of in stapjes verfijnen (hoogwaardig), afhankelijk van hoe snel je wilt werken.

3. De Twee Slimme Trucs

Om dit systeem te laten werken, gebruiken de auteurs twee belangrijke hulpmiddelen:

A. De "Tijdsinterval"-Truc (Causality)
In plaats van de computer alle informatie tegelijk te geven, geeft CaTok de informatie in blokken, gebaseerd op tijd.

  • De analogie: Stel je voor dat je een film bekijkt. Je ziet eerst de achtergrond (het begin van de film), dan de hoofdpersonages, en dan de details. CaTok leert de computer om de beelden op deze natuurlijke volgorde te "ontleden". Als je alleen de eerste paar instructies geeft, krijg je een vaag silhouet. Geef je meer instructies, dan worden de details scherper. Dit zorgt voor een logische opbouw.

B. De "Onderwijzer"-Truc (REPA-A)
Tijdens het trainen van de AI gebruiken ze een bestaande, zeer slimme AI (een "Vision Foundation Model") als onderwijzer.

  • De analogie: Stel je voor dat een student (CaTok) aan het leren is om te tekenen. In plaats van alleen maar te oefenen, kijkt hij elke dag naar de tekeningen van een meester (de onderwijzer) en zegt: "Kijk, dit is hoe een meester een oog tekent."
  • Dit helpt de student om veel sneller te leren en fouten te voorkomen. In de paper noemen ze dit REPA-A. Het zorgt ervoor dat de AI de beelden sneller en beter leert begrijpen.

4. Waarom is dit belangrijk?

Vroeger moest je kiezen tussen:

  1. Snelheid: Beelden snel maken, maar dan vaak wazig of onvolledig.
  2. Kwaliteit: Prachtige beelden, maar dan duurt het lang om ze te genereren.

CaTok haalt het beste van beide werelden:

  • Het kan beelden in één stap maken (supersnel), wat perfect is voor snelle toepassingen.
  • Het kan ook in veel stappen werken om kristalheldere beelden te maken.
  • Omdat het de beelden in een logische volgorde leert (zoals een verhaal), werkt het perfect in combinatie met de nieuwste generatie taalmodellen (zoals die voor tekst). Dit opent de deur voor AI die tekst en beeld naadloos met elkaar kan verbinden.

Samenvattend

CaTok is als een nieuwe manier om een schilderij te beschrijven. In plaats van een rommelige lijst met losse details, schrijft het een verhaal: "Eerst de lucht, dan de bomen, dan de mensen." Dankzij slimme wiskunde (MeanFlow) en een slimme onderwijzer (REPA-A) kan de computer dit verhaal zowel razendsnel als in hoge kwaliteit vertellen.