Evaluating Generative Models via One-Dimensional Code Distributions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die elke dag prachtige schilderijen maakt. Om te weten of je echt goed wordt, moet je iemand vragen om je werk te beoordelen. Maar wat als die beoordelaar een bril op heeft die alleen kijkt naar de betekenis van het schilderij, en niet naar de schoonheid?

Dat is precies het probleem met de huidige manier waarop we AI-beeldgeneratoren testen. Dit paper, getiteld "Evaluating Generative Models via One-Dimensional Code Distributions", komt met een nieuw, slimmer idee om die AI's te beoordelen.

Hier is de uitleg in simpele taal, met een paar verhelderende vergelijkingen:

1. Het oude probleem: De "Dikke Boek" aanpak

Vroeger (en nu nog vaak) keken we naar AI-schilderijen door ze te vertalen naar een lange lijst met getallen die een computer heeft geleerd om "herkenning" te doen (zoals: "dit is een hond", "dit is een auto").

De analogie: Stel je voor dat je een schilderij van een hond wilt beoordelen. De oude methode (zoals FID) kijkt alleen naar de tekst "HOND" in een boek en vergelijkt die met een echte hond. Het kijkt niet naar of de hond een gebroken poot heeft, of of de vacht eruitziet als een washandje.
Het nadeel: Omdat deze systemen zijn getraind om herkenning te doen, negeren ze details zoals textuur, scherpte en kleine foutjes. Ze zien een vreselijk getekende hond en een perfecte hond als bijna hetzelfde, zolang ze maar "een hond" zijn.

2. De nieuwe oplossing: De "LEGO-blokjes" methode

De auteurs van dit paper zeggen: "Laten we stoppen met kijken naar de betekenis, en kijken naar de bouwstenen waar het beeld uit bestaat."

Ze gebruiken een systeem dat een afbeelding opbreekt in duizenden kleine, discrete blokjes (noem ze "tokens"). Denk hierbij niet aan pixels, maar aan LEGO-blokjes met een specifiek nummer.

Een echte, mooie foto heeft een heel specifiek patroon van LEGO-blokjes.
Een AI-foto met rare fouten (zoals een hand met 6 vingers) heeft een patroon van blokjes dat er "anders" uitziet, alsof er verkeerde blokjes in de muur zijn gestopt.

3. De twee nieuwe meetinstrumenten

De auteurs hebben twee nieuwe manieren bedacht om deze "LEGO-patronen" te meten:

A. CHD (Codebook Histogram Distance) – De "Woordenlijst-check"

Stel je voor dat je twee boeken hebt: één geschreven door een mens en één door een AI.

CHD-1D: Kijkt gewoon naar welke woorden (blokjes) er in het boek staan. Gebruikt de AI te veel rare woorden?
CHD-2D: Kijkt naar de grammatica. Staan de woorden in de juiste volgorde? (Bijvoorbeeld: "De hond" is goed, "Hond de" is raar).
Waarom is dit cool? Dit werkt zonder dat de computer eerst moet leren wat "mooi" is. Het is puur wiskunde: "Klopt het patroon van de blokjes met dat van echte foto's?"

B. CMMS (Code Mixture Model Score) – De "Verval-test"

Soms heb je geen echte foto om mee te vergelijken. Hoe weet je dan of een AI-foto goed is?

De truc: De auteurs maken duizenden "valse" foto's door opzettelijk fouten in te bouwen (zoals willekeurige blokjes toevoegen of stukken van het beeld verwisselen).
Ze trainen een kleine AI om te leren: "Hoe meer rare blokjes, hoe slechter de foto."
Het resultaat: Deze AI kan nu naar een willekeurige AI-foto kijken en zeggen: "Dit lijkt op een foto die ik heb zien vervalsen, dus het is waarschijnlijk niet zo goed." Het is alsof je een wijnproever hebt die nooit een echte wijn heeft geproefd, maar wel weet hoe een bedorven fles ruikt.

4. De nieuwe testbaan: VisForm

Om te bewijzen dat hun methode werkt, hebben ze een enorme testbaan gemaakt genaamd VisForm.

In plaats van alleen foto's van mensen en landschappen, hebben ze 210.000 afbeeldingen verzameld van alles: van anime en 3D-prints tot medische scans en schilderijen in olieverf.
Experts hebben deze afbeeldingen beoordeeld.
Het resultaat: Hun nieuwe methode (CHD en CMMS) kwam veel dichter bij de mening van de menselijke experts dan de oude methoden. Ze konden zelfs zien dat een oude methode faalde bij kunst of medische beelden, terwijl hun nieuwe methode daar perfect werkte.

Samenvatting in één zin

In plaats van te kijken of een AI een "herkenbaar" plaatje maakt (wat vaak fouten verbergt), kijken we nu naar de bouwstenen waar het plaatje uit bestaat; als de bouwstenen en hun volgorde kloppen, is het plaatje waarschijnlijk ook echt mooi en foutloos.

Dit maakt het veel makkelijker om AI's te verbeteren, omdat we nu precies kunnen zien waar ze fouten maken, in plaats van alleen te zeggen "dit ziet er raar uit".

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De huidige evaluatie van generatieve modellen (zoals GANs en diffusion-modellen) leunt zwaar op metrieken die gebaseerd zijn op continuïteitskenmerken (continuous recognition features), zoals de Fréchet Inception Distance (FID). Deze methoden hebben fundamentele beperkingen:

Verlies van perceptuele informatie: De kenmerken worden getraind voor objectherkenning en zijn daarom ontworpen om invariant te zijn tegen visuele variaties zoals textuur, scherpte en lokale coherentie. Hierdoor worden cruciale cues voor perceptuele kwaliteit genegeerd.
Onrealistische aannames: Metrieken zoals FID modelleren beeldverdelingen als Gaussische verdelingen over continue feature-ruimtes. Dit werkt slecht voor niet-Gaussische data (zoals kunst of medische beelden) en is ongevoelig voor lokale artefacten.
Afhankelijkheid van menselijke annotatie: Bestaande leer-metrieken (learned metrics) die beter correleren met menselijke voorkeur, vereisen enorme hoeveelheden duur gelabelde data en vertonen vaak een "domain shift" bij nieuwe stijlen.

De auteurs betogen dat de evaluatie moet verschuiven van continue feature-ruimtes naar de ruimte van discrete visuele tokens.

Methodologie

De kern van de aanpak is het gebruik van moderne 1D-beeldtokenizers (zoals TiTok) die beelden comprimeren tot een compacte sequentie van codeboek-indexen. In plaats van de beelden te analyseren als continue vectoren, worden ze behandeld als discrete symbolen.

De auteurs introduceren twee complementaire metrieken:

1. Codebook Histogram Distance (CHD)

Een trainingsvrije verdelingsmetriek die de overeenkomst tussen de verdeling van echte en gegenereerde beelden meet in token-ruimte.

Unigram Statistieken (CHD-1D): Meet de frequentie van individuele tokens. Dit controleert of het model de juiste "visuele vocabulaire" heeft geleerd.
Ruimtelijke Co-occurrence Statistieken (CHD-2D): Meet de frequentie van paren tokens die naast elkaar voorkomen in het beeld (gebaseerd op 2D-benadering). Dit controleert de lokale "grammatica" en structuur.
Berekening: De metriek gebruikt de Hellinger-afstand tussen de histogrammen van de echte en gegenereerde datasets.
Voordeel: Geen Gaussische aannames, geen feature-learning nodig, en gevoelig voor zowel semantische verschuivingen als stijlveranderingen.

2. Code Mixture Model Score (CMMS)

Een referentievrije (no-reference) kwaliteitsmetriek die de kwaliteit van een enkel beeld voorspelt op basis van zijn token-sequenties.

Synthetische Degradatie: In plaats van menselijke labels te gebruiken, trainen de auteurs het model op synthetisch gegenereerde defecten. Ze introduceren twee soorten corruptie in token-ruimte:
- Uniforme token-injectie: Willekeurige tokens vervangen om lokale ruis en texturen te simuleren.
- Semantische fragment-uitwisseling: Blokken tokens worden verwisseld om structurele fouten (zoals gebroken ledematen) te simuleren.
- Pixel-ruimte augmentatie: Traditionele vervormingen (blur, JPEG-compressie, ruis) worden toegepast vóór tokenisatie.
Lerend Model: Een lichtgewicht regressor (Transformer + MLP) leert om de corruptiegraad te mappen naar een kwaliteitscore. De doelwaarde wordt bepaald door de ernst van de corruptie ( $q(p) = \exp(-20p)$ ), wat de niet-lineaire gevoeligheid van het menselijk zicht nabootst.
Voordeel: Geen menselijke annotaties nodig voor training, maar wel sterk gecorreleerd met menselijke oordelen.

VisForm Benchmark

Om de robuustheid van deze metrieken te testen onder brede verdelingsverschuivingen, stellen de auteurs VisForm voor:

Omvang: 210.000 beelden gegenereerd door 12 verschillende generatieve modellen.
Diversiteit: Dekking van 62 visuele domeinen (fotorealistisch, anime, 3D-rendering, medische beelden, wetenschappelijke diagrammen, etc.).
Annotatie: Elk beeld is beoordeeld door experts op 14 perceptuele dimensies (bijv. compositie, kleurharmonie, artifact-ernst), met een hoge onderlinge overeenstemming (Kendall's W > 0.75).

Resultaten

De experimenten tonen aan dat de token-gebaseerde aanpak state-of-the-art prestaties levert:

Correlatie met Menselijke Oordelen: Op benchmarks zoals AGIQA, HPDv2 en HPDv3 bereikt CMMS een Spearman-correlatie van 0.943 (AGIQA) en 0.872 (HPDv3), wat significant hoger is dan bestaande methoden zoals FID, CLIP-FID, DINO-FID, en andere IQA-modellen (MUSIQ, DEQA).
Paarvoorkeuren: CMMS behaalt de hoogste nauwkeurigheid bij het voorspellen van menselijke voorkeuren tussen twee beelden (bijv. 71.5% op AGIQA).
Robuustheid: Op de VisForm-benchmark behoudt CHD hoge correlaties over diverse domeinen (inclusief kunst en medische beelden), terwijl traditionele pixel-gebaseerde metrieken (zoals FID) sterk in prestatie dalen bij niet-fotorealistische stijlen.
Efficiëntie: CHD convergeert al met ongeveer 1.000 afbeeldingen, terwijl FID vaak meer dan 10.000 nodig heeft voor stabilisatie.

Bijdrage en Betekenis

De belangrijkste bijdragen van dit werk zijn:

Paradigmaverschuiving: Het introduceren van een nieuw evaluatieparadigma dat overgaat van continue herkenning-features naar gestructureerde codeboekstatistieken als primaire evaluatieruimte.
Nieuwe Metrieken: De ontwikkeling van CHD (voor verdelingsmatching) en CMMS (voor kwaliteitsbeoordeling), die beide trainingsvrij of zelf-supervised zijn en geen menselijke labels vereisen.
VisForm: Een uitgebreide, diverse benchmark die de evaluatie van generatieve modellen over een breed spectrum van visuele stijlen mogelijk maakt.

Significantie:
Deze aanpak lost het fundamentele probleem op dat traditionele metrieken "kwaliteitsrelevante" informatie weglaten door ze te trainen voor herkenning. Door te werken in de discrete token-ruimte, behouden de metrieken zowel semantische als perceptuele details. Dit leidt tot een schaalbare, interpreteerbare en robuuste manier om generatieve modellen te evalueren, ongeacht het domein of de architectuur, en faciliteert toekomstig onderzoek door het openbaar maken van code en datasets.