Evaluating Generative Models via One-Dimensional Code Distributions

Deze paper introduceert nieuwe, trainingsvrije kwaliteitsmetrieken voor generatieve modellen die werken in de ruimte van discrete visuele tokens in plaats van continue kenmerken, en valideert deze met een uitgebreid benchmarkdataset (VisForm) om een sterkere correlatie met menselijke oordelen te bereiken.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die elke dag prachtige schilderijen maakt. Om te weten of je echt goed wordt, moet je iemand vragen om je werk te beoordelen. Maar wat als die beoordelaar een bril op heeft die alleen kijkt naar de betekenis van het schilderij, en niet naar de schoonheid?

Dat is precies het probleem met de huidige manier waarop we AI-beeldgeneratoren testen. Dit paper, getiteld "Evaluating Generative Models via One-Dimensional Code Distributions", komt met een nieuw, slimmer idee om die AI's te beoordelen.

Hier is de uitleg in simpele taal, met een paar verhelderende vergelijkingen:

1. Het oude probleem: De "Dikke Boek" aanpak

Vroeger (en nu nog vaak) keken we naar AI-schilderijen door ze te vertalen naar een lange lijst met getallen die een computer heeft geleerd om "herkenning" te doen (zoals: "dit is een hond", "dit is een auto").

  • De analogie: Stel je voor dat je een schilderij van een hond wilt beoordelen. De oude methode (zoals FID) kijkt alleen naar de tekst "HOND" in een boek en vergelijkt die met een echte hond. Het kijkt niet naar of de hond een gebroken poot heeft, of of de vacht eruitziet als een washandje.
  • Het nadeel: Omdat deze systemen zijn getraind om herkenning te doen, negeren ze details zoals textuur, scherpte en kleine foutjes. Ze zien een vreselijk getekende hond en een perfecte hond als bijna hetzelfde, zolang ze maar "een hond" zijn.

2. De nieuwe oplossing: De "LEGO-blokjes" methode

De auteurs van dit paper zeggen: "Laten we stoppen met kijken naar de betekenis, en kijken naar de bouwstenen waar het beeld uit bestaat."

Ze gebruiken een systeem dat een afbeelding opbreekt in duizenden kleine, discrete blokjes (noem ze "tokens"). Denk hierbij niet aan pixels, maar aan LEGO-blokjes met een specifiek nummer.

  • Een echte, mooie foto heeft een heel specifiek patroon van LEGO-blokjes.
  • Een AI-foto met rare fouten (zoals een hand met 6 vingers) heeft een patroon van blokjes dat er "anders" uitziet, alsof er verkeerde blokjes in de muur zijn gestopt.

3. De twee nieuwe meetinstrumenten

De auteurs hebben twee nieuwe manieren bedacht om deze "LEGO-patronen" te meten:

A. CHD (Codebook Histogram Distance) – De "Woordenlijst-check"

Stel je voor dat je twee boeken hebt: één geschreven door een mens en één door een AI.

  • CHD-1D: Kijkt gewoon naar welke woorden (blokjes) er in het boek staan. Gebruikt de AI te veel rare woorden?
  • CHD-2D: Kijkt naar de grammatica. Staan de woorden in de juiste volgorde? (Bijvoorbeeld: "De hond" is goed, "Hond de" is raar).
  • Waarom is dit cool? Dit werkt zonder dat de computer eerst moet leren wat "mooi" is. Het is puur wiskunde: "Klopt het patroon van de blokjes met dat van echte foto's?"

B. CMMS (Code Mixture Model Score) – De "Verval-test"

Soms heb je geen echte foto om mee te vergelijken. Hoe weet je dan of een AI-foto goed is?

  • De truc: De auteurs maken duizenden "valse" foto's door opzettelijk fouten in te bouwen (zoals willekeurige blokjes toevoegen of stukken van het beeld verwisselen).
  • Ze trainen een kleine AI om te leren: "Hoe meer rare blokjes, hoe slechter de foto."
  • Het resultaat: Deze AI kan nu naar een willekeurige AI-foto kijken en zeggen: "Dit lijkt op een foto die ik heb zien vervalsen, dus het is waarschijnlijk niet zo goed." Het is alsof je een wijnproever hebt die nooit een echte wijn heeft geproefd, maar wel weet hoe een bedorven fles ruikt.

4. De nieuwe testbaan: VisForm

Om te bewijzen dat hun methode werkt, hebben ze een enorme testbaan gemaakt genaamd VisForm.

  • In plaats van alleen foto's van mensen en landschappen, hebben ze 210.000 afbeeldingen verzameld van alles: van anime en 3D-prints tot medische scans en schilderijen in olieverf.
  • Experts hebben deze afbeeldingen beoordeeld.
  • Het resultaat: Hun nieuwe methode (CHD en CMMS) kwam veel dichter bij de mening van de menselijke experts dan de oude methoden. Ze konden zelfs zien dat een oude methode faalde bij kunst of medische beelden, terwijl hun nieuwe methode daar perfect werkte.

Samenvatting in één zin

In plaats van te kijken of een AI een "herkenbaar" plaatje maakt (wat vaak fouten verbergt), kijken we nu naar de bouwstenen waar het plaatje uit bestaat; als de bouwstenen en hun volgorde kloppen, is het plaatje waarschijnlijk ook echt mooi en foutloos.

Dit maakt het veel makkelijker om AI's te verbeteren, omdat we nu precies kunnen zien waar ze fouten maken, in plaats van alleen te zeggen "dit ziet er raar uit".