Evaluating Generative Models via One-Dimensional Code Distributions

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Kunstkritiker, der neue Bilder von einer KI bewertet. Bisher haben die Wissenschaftler versucht, diese Bilder zu bewerten, indem sie sie in eine Art „mathematischen Fingerabdruck" verwandelten. Das Problem dabei: Dieser Fingerabdruck war so stark vereinfacht, dass er nur die grobe Idee des Bildes sah (z. B. „das ist ein Hund"), aber die feinen Details ignorierte (z. B. „ist der Hund pelzig oder sieht er aus wie eine schmierige Wurst?").

Diese neue Forschung von Zexi Jia und seinem Team schlägt einen völlig neuen Weg vor. Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

1. Das alte Problem: Der „Grobe" Messlatten

Bisher nutzten Computer wie FID (ein Standard-Test) einen Trick: Sie schauten sich das Bild an und sagten: „Okay, das sieht aus wie ein Hund." Aber sie waren so darauf trainiert, Details zu ignorieren, damit sie verschiedene Hundearten vergleichen konnten.

Die Analogie: Stellen Sie sich vor, Sie bewerten ein Restaurant nur danach, ob es „Essen" serviert. Wenn das Essen aber verbrannt ist, schmeckt es nach Asche, und der Teller ist schmutzig – der grobe Messlatten sagt trotzdem: „Ja, das ist Essen." Er verpasst also die Qualität.

2. Die neue Idee: Das „Wort-Spiel" (Tokens)

Die Autoren sagen: „Lassen Sie uns das Bild nicht als Ganzes betrachten, sondern als eine Kette aus kleinen Bausteinen." Moderne KI-Modelle zerlegen Bilder oft in kleine Einheiten, die sie Tokens nennen. Man kann sich das wie ein riesiges Alphabet vorstellen, bei dem jedes Wort ein kleines Bildfragment ist (z. B. „blauer Himmel", „glänzender Apfel", „verwaschener Rand").

Die Analogie: Statt das ganze Bild zu scannen, lesen wir das Bild wie einen Text. Wenn die KI ein Bild generiert, schreibt sie eine Geschichte mit diesen Bild-Wörtern.
- Eine gute KI schreibt eine Geschichte mit korrekter Grammatik und sinnvollen Wörtern.
- Eine schlechte KI schreibt Unsinn: Sie benutzt Wörter, die nie zusammengehören (z. B. „Himmel aus Schokolade" oder „Hund mit Flügeln aus Glas"), oder sie wiederholt sich ständig.

3. Die zwei neuen Werkzeuge

Das Team hat zwei neue Messinstrumente entwickelt, die auf diesem „Wort-Spiel" basieren:

A. CHD (Der Wörterbuch-Check)

Dieses Tool prüft, ob die KI die richtigen „Wörter" benutzt und ob sie sie in der richtigen Reihenfolge aneinanderreiht.

Wie es funktioniert: Es zählt, wie oft welche Bild-Wörter vorkommen und welche Wörter oft nebeneinander stehen.
Die Analogie: Stellen Sie sich vor, Sie prüfen einen Roman.
- CHD-1D (Wörterbuch): Zählt, ob der Autor die richtigen Wörter benutzt (z. B. benutzt er „Hund" oder „Auto"?).
- CHD-2D (Grammatik): Prüft, ob die Sätze Sinn ergeben. Steht „Der Hund" vor „bellt"? Oder steht dort „Der Hund bellt" und daneben „Der Himmel isst"?
- Wenn die KI Unsinn produziert, stimmt die Statistik nicht mehr mit der echten Welt überein. Das Tool merkt das sofort, ohne dass es je ein menschliches Urteil gesehen hat.

B. CMMS (Der Qualitäts-Test ohne Referenz)

Manchmal haben wir kein „perfektes Originalbild" zum Vergleich. Wie prüfen wir dann, ob ein Bild gut ist?

Wie es funktioniert: Die Forscher haben eine KI trainiert, die absichtlich Bilder „verdorben" hat (wie ein Kind, das Bilder mit Knete verschmiert, Teile austauscht oder Rauschen hinzufügt). Die KI hat gelernt, wie sich die „Wort-Reihenfolge" verändert, wenn das Bild schlecht wird.
Die Analogie: Stellen Sie sich einen erfahrenen Restaurator vor, der gelernt hat, wie ein altes Gemälde aussieht, wenn es verrottet. Wenn er nun ein neues Bild sieht, kann er sofort sagen: „Aha, hier fehlen Wörter, hier sind Wörter durcheinander gewürfelt – das Bild ist kaputt." Er braucht kein Originalbild, um das zu wissen; er kennt einfach die „Sprache" der Fehler.

4. Der große Test: VisForm

Um ihre neuen Werkzeuge zu testen, haben die Forscher einen riesigen Datensatz namens VisForm erstellt.

Die Analogie: Statt nur Fotos von Hunden und Autos zu testen (wie andere), haben sie 210.000 Bilder aus allen möglichen Welten gesammelt: von medizinischen Röntgenbildern über Anime-Zeichnungen bis hin zu wissenschaftlichen Diagrammen.
Das Ergebnis: Ihre neuen Tools (CHD und CMMS) haben mit menschlichen Urteilen viel besser übereingestimmt als alle alten Methoden. Sie funktionierten überall, egal ob das Bild wie ein Foto oder wie ein abstraktes Gemälde aussah.

Zusammenfassung

Die Forscher haben erkannt, dass wir Bilder nicht mehr als „unscharfe Wolken" messen sollten, sondern als Sprache.

Alte Methode: „Das Bild sieht statistisch ähnlich aus wie echte Bilder." (Oft falsch, ignoriert Details).
Neue Methode: „Das Bild benutzt die richtigen Bild-Wörter in der richtigen Grammatik." (Sehr genau, erkennt Fehler sofort).

Durch diesen Wechsel von „Bildern" zu „Wörtern" (Tokens) können Computer jetzt viel besser beurteilen, ob eine KI wirklich schöne Bilder macht oder nur glückliche Zufälle produziert. Und das Beste: Sie brauchen dafür keine Millionen von menschlichen Bewertungen mehr, um zu lernen, was „schön" ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Bewertung generativer Modelle (z. B. GANs, Diffusionsmodelle) stützt sich derzeit stark auf metrikbasierte Ansätze wie den Fréchet Inception Distance (FID). Diese Methoden operieren jedoch im Raum kontinuierlicher Erkennungsmerkmale (z. B. aus Inception-V3, CLIP oder DINO extrahiert).

Hauptmängel: Diese Merkmale sind explizit darauf trainiert, gegenüber visuellen Variationen (Textur, Schärfe, lokale Kohärenz) invariant zu sein, um die semantische Klassifizierung zu verbessern. Dadurch gehen für die wahrgenommene Bildqualität entscheidende Hinweise verloren.
Folgen: Metriken wie FID untergewichten feine Artefakte, lokale Kompositionsfehler und stilistische Nuancen. Sie gehen oft von einer Gauß-Verteilung im Merkmalsraum aus, was bei komplexen, multimodalen Daten (wie Kunst oder medizinischen Bildern) zu ungenauen Ergebnissen führt.
Ziel: Es fehlt eine robuste, domänenunabhängige Metrik, die sowohl die Verteilungstreue als auch die visuelle Qualität ohne menschliche Referenzbilder oder teure Annotationen zuverlässig messen kann.

2. Methodik

Die Autoren schlagen einen Paradigmenwechsel vor: Statt kontinuierlicher Merkmale wird der Raum diskreter visueller Token als primärer Evaluationsraum genutzt.

A. Grundlegende Annahme

Moderne 1D-Image-Tokenizer (wie TiTok) kodieren Bilder in kompakte Sequenzen von Codebook-Indizes. Diese diskreten Codes behalten sowohl semantische Inhalte als auch Wahrnehmungsdetails (Textur, Stil) bei, da sie für die Bildrekonstruktion trainiert sind und nicht für Invarianz. Statistiken über diese Token-Vokabulare spiegeln direkt wider, welche Strukturen ein Modell generiert.

B. Die zwei neuen Metriken

Codebook Histogram Distance (CHD):
- Ziel: Messung der Verteilungstreue zwischen realen und generierten Bildern (Training-frei).
- Mechanismus:
  - CHD-1D: Berechnet die Unigram-Histogramme (Häufigkeit einzelner Token) und vergleicht diese mittels der Hellinger-Distanz. Dies prüft, ob das Modell das richtige visuelle „Vokabular" lernt.
  - CHD-2D: Berechnet die räumliche Kookkurrenz (Paarweise Häufigkeit benachbarter Token im 2D-Gitter). Dies prüft die lokale „Grammatik" und Strukturkohärenz.
- Ergebnis: Ein gewichteter Durchschnitt beider Komponenten, der sensitiv auf semantische Verschiebungen und stilistische Änderungen reagiert.
Code Mixture Model Score (CMMS):
- Ziel: Eine Referenz-freie Qualitätsmetrik für einzelne Bilder.
- Mechanismus: Ein leichtgewichtiges Regressionsmodell (Transformer + MLP), das auf Token-Sequenzen trainiert wird.
- Training: Statt menschlicher Präferenzdaten nutzt das Modell synthetische Degradationen als Selbstüberwachung:
  - Token-Korruption: Zufälliges Einfügen uniformer Token (simuliert lokale Artefakte).
  - Semantischer Austausch: Tauschen von Token-Blöcken (simuliert strukturelle Fehler).
  - Pixel-Degradation: Standardverzerrungen (Blur, Rauschen, JPEG-Artefakte) vor der Tokenisierung.
- Zielwert: Die Degradationsstärke $p$ wird über eine exponentielle Funktion $q(p) = \exp(-20p)$ in einen Qualitäts-Score umgewandelt, um die nicht-lineare menschliche Wahrnehmung abzubilden.

C. Der VisForm Benchmark

Um die Robustheit unter breiten Verteilungsverschiebungen zu testen, stellen die Autoren VisForm vor:

Umfang: 210.000 Bilder aus 62 visuellen Domänen (Fotografie, Kunst, 3D-Rendering, medizinische Bilder, UI/Infografiken etc.).
Modelle: Generiert durch 12 verschiedene Modelle (Diffusion, Autoregressive, Consistency Models).
Annotation: Jedes Bild wurde von Experten auf 14 wahrgenommene Dimensionen (z. B. Komposition, Textur, Artefakte) bewertet, um eine Ground-Truth für die menschliche Übereinstimmung zu schaffen.

3. Wichtige Beiträge

Paradigmenwechsel: Einführung eines diskreten Token-basierten Evaluationsparadigmas, das von kontinuierlichen Erkennungsmerkmalen zu strukturierten Codebook-Statistiken übergeht.
Neue Metriken: Entwicklung von CHD (verteilungsbasiert, training-frei) und CMMS (qualitätsbasiert, referenzfrei), die beide stark mit menschlichen Urteilen korrelieren.
VisForm Benchmark: Bereitstellung eines großen, diversen Datensatzes mit Experten-Annotationen, der eine umfassende domänenübergreifende Evaluation ermöglicht.
Open Source: Veröffentlichung von Code, Modellen und Daten zur Förderung zukünftiger Forschung.

4. Ergebnisse

Die Evaluation erfolgte auf AGIQA, HPDv2, HPDv3 und dem neuen VisForm-Benchmark.

Korrelation mit menschlichen Urteilen:
- CHD erreicht auf AGIQA eine Spearman-Korrelation von 0,829 und auf HPDv3 von 0,867. Dies übertrifft etablierte Metriken wie FID, KID, CLIP-FID und DINO-FID signifikant.
- CMMS erzielt noch höhere Werte mit einer Spearman-Korrelation von 0,943 auf AGIQA und 0,872 auf HPDv3. Es schlägt auch lernbasierte IQA-Modelle (wie MUSIQ, CLIP-IQA, DEQA).
Pairwise Preference Prediction: CMMS erreicht auf allen vier Benchmarks die höchste Genauigkeit bei der Vorhersage menschlicher Präferenzen (z. B. 71,5% auf AGIQA, 74,9% auf HPDv2).
Robustheit: Im Gegensatz zu pixelbasierten Metriken (FID), die bei nicht-fotorealistischen Domänen (Skizzen, Collagen) stark einbrechen, bleiben CHD und CMMS über alle 62 visuellen Domänen hinweg stabil.
Sample Efficiency: CHD stabilisiert sich bereits bei ca. 1.000 Bildern, während FID oft über 10.000 Bilder benötigt, um konstante Werte zu liefern.

5. Bedeutung und Ausblick

Die Arbeit zeigt, dass die Analyse diskreter Token-Statistiken eine überlegene, interpretierbare und skalierbare Methode zur Bewertung generativer Modelle darstellt.

Vorteile: Die Methode ist domänenunabhängig, benötigt keine menschlichen Labels für das Training (bei CMMS) und ist rechnerisch effizient.
Zukunft: Die Autoren planen, höhere Ordnungen von Token-Statistiken zu modellieren, um räumliche Strukturen noch besser zu erfassen, und die Methoden auf Video- und 3D-Generierung zu erweitern.

Zusammenfassend etabliert dieses Paper einen neuen Standard für die Qualitätsbewertung generativer KI, der sich weniger auf semantische Abstraktion und mehr auf die direkte Analyse der generierten visuellen Struktur stützt.