Evaluating Generative Models via One-Dimensional Code Distributions

Ce papier propose une nouvelle approche d'évaluation des modèles génératifs basée sur l'espace des tokens visuels discrets, introduisant des métriques sans entraînement et un benchmark nommé VisForm qui surpassent les méthodes traditionnelles en corrélant mieux avec les jugements humains.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Le "Mètre à Ruban" ne mesure pas la beauté

Imaginez que vous voulez évaluer la qualité de nouvelles peintures créées par un robot.
Actuellement, les experts utilisent une méthode appelée FID (l'équivalent d'un mètre à ruban très sophistiqué). Ce mètre regarde les peintures et dit : "Tiens, cette peinture ressemble beaucoup à une vraie photo d'un arbre, donc c'est bien."

Le hic ? Ce mètre est trop bête pour voir les détails.

  • Il ne voit pas si le robot a dessiné six pattes à un chat.
  • Il ne remarque pas si les couleurs sont bizarres ou si la texture fait "plastique".
  • Il est comme un critique d'art qui ne regarde que le sujet général (c'est un arbre ? oui) mais qui ferme les yeux sur la façon dont l'arbre est peint.

C'est pourquoi les robots peuvent créer des images qui semblent "statistiquement correctes" mais qui sont visuellement moches ou bizarres pour nos yeux humains.

La Solution : Passer de la "Peinture" aux "Lego"

Les auteurs de ce papier ont eu une idée géniale : au lieu de regarder l'image finale comme une peinture continue, regardons-la comme une série de Lego (ou de codes).

Imaginez que chaque image est construite avec des briques Lego de différentes couleurs.

  • Les briques = Ce sont les "tokens" (les petits codes discrets).
  • L'ordre des briques = C'est la grammaire de l'image.

Leur théorie est simple : si un robot est bon, il utilise les bonnes briques dans le bon ordre. S'il est mauvais, il utilise les mauvaises briques ou les assemble n'importe comment.

Les Deux Nouveaux Outils

Pour vérifier cela, ils ont créé deux nouveaux outils de mesure :

1. CHD : Le "Compteur de Briques" (Codebook Histogram Distance)

C'est comme un détective qui compte les briques.

  • Il regarde une vraie photo et compte : "Il y a 50 briques rouges, 30 bleues, et elles sont souvent collées ensemble de telle façon."
  • Il regarde la photo du robot et compte : "Ah ! Il y a trop de briques vertes et il a collé une brique rouge à une brique bleue, ce qui est interdit dans la grammaire des images."
  • L'avantage : Pas besoin d'entraînement. C'est juste un comptage mathématique. Si les statistiques des briques ne correspondent pas, le robot est mauvais.

2. CMMS : Le "Juge de Paix" (Code Mixture Model Score)

C'est un entraîneur sportif qui a appris à reconnaître la fatigue.

  • Au lieu de demander à des humains de noter chaque image (ce qui coûte cher et prend du temps), les chercheurs ont créé un simulateur.
  • Ils prennent de belles images et les "abîment" artificiellement : ils ajoutent du bruit, ils mélangent des morceaux, ils floutent.
  • Ils entraînent un petit cerveau artificiel (CMMS) à dire : "Plus l'image est abîmée, plus la note doit être basse."
  • Ensuite, ils donnent des images de robots à ce cerveau. Comme le cerveau a appris à reconnaître les "abîmes" dans le langage des briques Lego, il peut donner une note de qualité très précise, même sans voir l'image originale.

Le Grand Test : VisForm

Pour prouver que leurs outils fonctionnent partout, ils ont créé un énorme défi appelé VisForm.
C'est comme un olympiade des robots avec 210 000 images.

  • Les catégories : Ce n'est pas juste des photos de chats. C'est de l'art à l'huile, des schémas médicaux, des dessins animés, des rendus 3D, des interfaces d'application...
  • Le verdict : Ils ont comparé leurs nouveaux outils avec les anciens et avec les notes données par des humains experts.

Le résultat ?
Les nouveaux outils (basés sur les "briques Lego") ont gagné haut la main. Ils sont beaucoup plus proches de ce que les humains pensent être "beau" ou "réaliste", même sur des styles très différents (comme l'art abstrait ou les dessins techniques) où les anciens outils échouaient lamentablement.

En Résumé

  • L'ancien monde : On mesurait la qualité en comparant des "moyennes" floues (comme dire "cette soupe a le bon goût moyen").
  • Le nouveau monde : On mesure la qualité en analysant les ingrédients exacts et leur assemblage (comme dire "cette soupe a trop de sel et les carottes sont mal coupées").

Grâce à cette méthode, nous pouvons enfin dire aux robots créateurs : "Non, ce n'est pas juste une image qui ressemble à une photo, c'est une image qui a du sens, de la structure et de la beauté." Et le meilleur de tout ? Ils ont promis de partager tous leurs outils gratuitement pour que tout le monde puisse les utiliser !