Evaluating Generative Models via One-Dimensional Code Distributions

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Le "Mètre à Ruban" ne mesure pas la beauté

Imaginez que vous voulez évaluer la qualité de nouvelles peintures créées par un robot.
Actuellement, les experts utilisent une méthode appelée FID (l'équivalent d'un mètre à ruban très sophistiqué). Ce mètre regarde les peintures et dit : "Tiens, cette peinture ressemble beaucoup à une vraie photo d'un arbre, donc c'est bien."

Le hic ? Ce mètre est trop bête pour voir les détails.

Il ne voit pas si le robot a dessiné six pattes à un chat.
Il ne remarque pas si les couleurs sont bizarres ou si la texture fait "plastique".
Il est comme un critique d'art qui ne regarde que le sujet général (c'est un arbre ? oui) mais qui ferme les yeux sur la façon dont l'arbre est peint.

C'est pourquoi les robots peuvent créer des images qui semblent "statistiquement correctes" mais qui sont visuellement moches ou bizarres pour nos yeux humains.

La Solution : Passer de la "Peinture" aux "Lego"

Les auteurs de ce papier ont eu une idée géniale : au lieu de regarder l'image finale comme une peinture continue, regardons-la comme une série de Lego (ou de codes).

Imaginez que chaque image est construite avec des briques Lego de différentes couleurs.

Les briques = Ce sont les "tokens" (les petits codes discrets).
L'ordre des briques = C'est la grammaire de l'image.

Leur théorie est simple : si un robot est bon, il utilise les bonnes briques dans le bon ordre. S'il est mauvais, il utilise les mauvaises briques ou les assemble n'importe comment.

Les Deux Nouveaux Outils

Pour vérifier cela, ils ont créé deux nouveaux outils de mesure :

1. CHD : Le "Compteur de Briques" (Codebook Histogram Distance)

C'est comme un détective qui compte les briques.

Il regarde une vraie photo et compte : "Il y a 50 briques rouges, 30 bleues, et elles sont souvent collées ensemble de telle façon."
Il regarde la photo du robot et compte : "Ah ! Il y a trop de briques vertes et il a collé une brique rouge à une brique bleue, ce qui est interdit dans la grammaire des images."
L'avantage : Pas besoin d'entraînement. C'est juste un comptage mathématique. Si les statistiques des briques ne correspondent pas, le robot est mauvais.

2. CMMS : Le "Juge de Paix" (Code Mixture Model Score)

C'est un entraîneur sportif qui a appris à reconnaître la fatigue.

Au lieu de demander à des humains de noter chaque image (ce qui coûte cher et prend du temps), les chercheurs ont créé un simulateur.
Ils prennent de belles images et les "abîment" artificiellement : ils ajoutent du bruit, ils mélangent des morceaux, ils floutent.
Ils entraînent un petit cerveau artificiel (CMMS) à dire : "Plus l'image est abîmée, plus la note doit être basse."
Ensuite, ils donnent des images de robots à ce cerveau. Comme le cerveau a appris à reconnaître les "abîmes" dans le langage des briques Lego, il peut donner une note de qualité très précise, même sans voir l'image originale.

Le Grand Test : VisForm

Pour prouver que leurs outils fonctionnent partout, ils ont créé un énorme défi appelé VisForm.
C'est comme un olympiade des robots avec 210 000 images.

Les catégories : Ce n'est pas juste des photos de chats. C'est de l'art à l'huile, des schémas médicaux, des dessins animés, des rendus 3D, des interfaces d'application...
Le verdict : Ils ont comparé leurs nouveaux outils avec les anciens et avec les notes données par des humains experts.

Le résultat ?
Les nouveaux outils (basés sur les "briques Lego") ont gagné haut la main. Ils sont beaucoup plus proches de ce que les humains pensent être "beau" ou "réaliste", même sur des styles très différents (comme l'art abstrait ou les dessins techniques) où les anciens outils échouaient lamentablement.

En Résumé

L'ancien monde : On mesurait la qualité en comparant des "moyennes" floues (comme dire "cette soupe a le bon goût moyen").
Le nouveau monde : On mesure la qualité en analysant les ingrédients exacts et leur assemblage (comme dire "cette soupe a trop de sel et les carottes sont mal coupées").

Grâce à cette méthode, nous pouvons enfin dire aux robots créateurs : "Non, ce n'est pas juste une image qui ressemble à une photo, c'est une image qui a du sens, de la structure et de la beauté." Et le meilleur de tout ? Ils ont promis de partager tous leurs outils gratuitement pour que tout le monde puisse les utiliser !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'évaluation actuelle des modèles génératifs (GANs, modèles de diffusion) repose principalement sur des métriques basées sur la distribution de caractéristiques continues, telles que le FID (Fréchet Inception Distance). Ces méthodes présentent plusieurs limitations fondamentales :

Invariance indésirable : Les caractéristiques utilisées (ex: Inception-V3, CLIP) sont entraînées pour la reconnaissance d'objets et sont donc conçues pour être invariantes aux variations d'apparence (texture, netteté, cohérence locale). Cela entraîne une perte d'informations critiques pour la qualité perceptive.
Hypothèses simplificatrices : Le FID suppose que les distributions de caractéristiques suivent une loi gaussienne, ce qui est souvent faux pour des données complexes et multimodales (art, images médicales).
Perte de structure spatiale : Le regroupement global (global pooling) des caractéristiques efface la structure spatiale et les artefacts locaux, rendant difficile la détection de défauts fins.
Dépendance aux annotations : Les métriques d'apprentissage (basées sur les préférences humaines) nécessitent de vastes ensembles de données annotées et souffrent souvent de décalages de domaine (domain shift).

L'article propose de passer d'un espace de caractéristiques continues à un espace de tokens visuels discrets, où la qualité se manifeste par des statistiques de tokens prévisibles et structurées.

2. Méthodologie

Les auteurs introduisent deux métriques complémentaires opérant dans l'espace des tokens discrets, générés par un tokenizer 1D moderne (basé sur TiTok).

A. Codebook Histogram Distance (CHD)

Il s'agit d'une métrique de distribution sans entraînement (training-free) qui mesure la fidélité de la distribution entre les images réelles et générées.

Principe : Chaque image est quantifiée en une séquence de tokens discrets (indices d'un codebook).
Composantes :
1. CHD-1D (Statistiques unigrammes) : Compare les histogrammes de fréquence des tokens individuels. Cela évalue si le modèle utilise le bon "vocabulaire" visuel.
2. CHD-2D (Co-occurrence spatiale) : Calcule les histogrammes de paires de tokens adjacents dans l'image (voisins à droite et en bas). Cela évalue la "grammaire" locale et la cohérence structurelle.
Calcul : La distance finale est la moyenne des distances de Hellinger entre les histogrammes des images réelles et générées pour les deux composantes.

B. Code Mixture Model Score (CMMS)

Il s'agit d'une métrique de qualité sans référence (no-reference) apprise, mais auto-supervisée.

Principe : Un régresseur léger (Transformer + MLP) prédit un score de qualité à partir de séquences de tokens.
Stratégie d'entraînement : Au lieu d'utiliser des annotations humaines coûteuses, les auteurs créent un modèle de dégradation synthétique sur des images naturelles (ImageNet). Ils injectent :
- Des tokens uniformes aléatoires (simulant des artefacts locaux).
- Des échanges de fragments sémantiques (simulant des incohérences structurelles).
- Des distortions pixel (flou, bruit, compression JPEG).
Cible : Le score de qualité cible est une fonction exponentielle de la sévérité de la corruption ( $q(p) = e^{-20p}$ ), reflétant la sensibilité non linéaire de la vision humaine.

C. Benchmark VisForm

Pour tester la robustesse des métriques face à des décalages de distribution importants, les auteurs créent VisForm :

Échelle : 210 000 images.
Diversité : 62 formes visuelles (photographies, art, rendus 3D, diagrammes scientifiques, UI) et 12 modèles génératifs différents.
Annotations : Chaque image est notée par des experts sur 14 dimensions perceptives (qualité globale, cohérence sémantique, harmonie des couleurs, etc.).

3. Contributions Clés

Changement de paradigme : Passage de l'évaluation basée sur les caractéristiques continues (invariantes) à l'évaluation basée sur les statistiques de codebooks discrets (sensibles à l'apparence).
Nouvelles métriques : Introduction du CHD (distribution) et du CMMS (qualité sans référence), tous deux montrant une forte corrélation avec le jugement humain.
Benchmark VisForm : Création d'une base de données massive et diversifiée pour l'évaluation transversale des modèles génératifs, comblant le manque de benchmarks couvrant des domaines non photographiques.
Ressources ouvertes : Publication de tout le code, des modèles et des données.

4. Résultats Expérimentaux

Les expériences ont été menées sur AGIQA, HPDv2/v3 et le nouveau benchmark VisForm.

Corrélation avec l'humain :
- CHD surpasse les métriques de distribution classiques (FID, KID, CLIP-FID, DINO-FID, CMMD) avec des corrélations de Spearman allant jusqu'à 0.867 sur HPDv3 et 0.829 sur AGIQA.
- CMMS atteint des performances encore supérieures, avec un Spearman de 0.943 sur AGIQA et 0.872 sur HPDv3, surpassant les modèles d'apprentissage supervisé de pointe (DEQA, Q-Align).
Prédiction de préférence : CMMS obtient la meilleure précision de prédiction de paires (pairwise accuracy) sur tous les benchmarks (ex: 74.9% sur HPDv2), surpassant les modèles basés sur CLIP ou les métriques IQA traditionnelles.
Robustesse aux domaines : Contrairement au FID qui chute drastiquement sur les domaines non photographiques (dessins, collages), les métriques basées sur les tokens (CHD/CMMS) maintiennent une corrélation élevée, prouvant leur capacité à capturer des structures agnostiques au domaine.
Efficacité des échantillons : CHD converge avec environ 1 000 images, tandis que le FID nécessite plus de 10 000 échantillons pour se stabiliser, rendant la méthode plus efficace pour évaluer des modèles coûteux.

5. Signification et Impact

Cet article propose une refonte fondamentale de l'évaluation des modèles génératifs. En exploitant la nature discrète et structurée des tokens visuels modernes, les auteurs démontrent que :

Les statistiques de tokens sont un indicateur plus fiable de la qualité perceptive que les caractéristiques continues invariantes.
Il est possible d'entraîner des métriques de qualité robustes sans annotations humaines massives, en utilisant des dégradations synthétiques dans l'espace des tokens.
L'approche est interprétable (les tokens correspondent à des motifs visuels spécifiques), évolutible et robuste face à la diversité des styles visuels.

Ce travail ouvre la voie à une nouvelle génération de métriques d'évaluation plus alignées avec la perception humaine, essentielles pour le développement futur de modèles génératifs dans des domaines variés au-delà de la simple génération photoréaliste.