A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

Cet article démontre que, pour la synthèse d'images rétiniennes, l'évaluation pragmatique via l'intégration des données synthétiques dans des tâches de classification et de segmentation est préférable à l'utilisation du Fréchet Inception Distance (FID), car ce dernier peut s'avérer mal aligné avec les objectifs spécifiques du domaine biomédical.

Yuli Wu, Fucheng Liu, Rüveyda Yilmaz, Henning Konermann, Peter Walter, Johannes Stegmaier

Publié 2026-02-23
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Titre : Le Piège du Jaugeur de Beauté : Pourquoi les Images Artificielles des Yeux ne se jugent pas comme des Photos

Imaginez que vous êtes un chef cuisinier (le chercheur) qui veut préparer un grand banquet pour entraîner des apprentis (les intelligences artificielles) à reconnaître des maladies oculaires. Le problème ? Vous n'avez pas assez de vrais plats (images médicales réelles) pour les entraîner.

Alors, vous décidez de faire appel à un robot chef (un modèle génératif) pour créer des milliers de nouveaux plats artificiels qui ressemblent à s'y méprendre aux vrais. L'objectif est d'enrichir votre stock pour que les apprentis deviennent de meilleurs cuisiniers.

Mais comment savoir si le robot chef fait du bon travail ? C'est là que l'article de Wu et ses collègues pose une question cruciale.

1. Le Jaugeur de "Beauté" (Le FID)

Actuellement, la plupart des chercheurs utilisent une règle universelle appelée FID (Fréchet Inception Distance).

  • L'analogie : Imaginez que le FID est un critique culinaire très exigeant qui ne goûte jamais le plat. Il se contente de regarder la photo du plat sur une table. Il compare la photo du plat réel et celle du plat artificiel. Si les deux photos ont la même couleur, la même texture et la même "vibe" générale, le critique donne une note parfaite.
  • Le problème : Ce critique est formé sur des photos de la vie quotidienne (des chats, des voitures, des paysages). Il ne sait pas vraiment ce qu'est un plat médical. Il juge la "jolie photo", pas la qualité nutritionnelle du plat.

2. L'Expérience : Quand la "Jolie Photo" trompe

Les auteurs de l'article ont pris trois robots chefs différents (des modèles de type GAN et de diffusion) et les ont mis à l'œuvre pour créer deux types d'images :

  1. Des photos de fonds d'œil (comme des photos de la rétine).
  2. Des scans OCT (comme des coupes transversales de l'œil).

Ils ont ensuite fait deux choses :

  • Test A (Le Critique) : Ils ont demandé au FID de noter la beauté des images générées.
  • Test B (Le Vrai Test) : Ils ont donné ces images artificielles aux apprentis (les modèles de classification et de segmentation) pour voir s'ils apprenaient mieux à détecter le glaucome ou à dessiner les contours des couches de l'œil.

3. La Révélation : Le Décalage

C'est ici que ça devient intéressant, et un peu effrayant pour les chercheurs.

  • Le verdict du Critique (FID) : Il dit : "Oh, ce robot chef SG-10 a produit des images magnifiques ! Note : 17. C'est le meilleur !"
  • Le verdict du Vrai Test (Performance réelle) : Les apprentis qui ont mangé les plats du robot SG-10 sont devenus de très mauvais cuisiniers. Ils ont échoué à détecter les maladies.
  • Le paradoxe : Parfois, plus le robot produit des images "parfaites" selon le FID, moins elles sont utiles pour l'entraînement réel. C'est comme si le robot chef créait des plats si lisses et parfaits qu'ils ressemblent tous à la même soupe, alors que les vrais patients ont des maladies très variées et complexes. Le robot a appris à copier la "forme" mais a oublié la "substance" nécessaire pour l'apprentissage.

4. Pourquoi les autres règles ne fonctionnent pas non plus

Les auteurs ont testé sept autres règles de notation (comme le KID, le CMMD, le FLD), qui sont des variantes du FID.

  • L'analogie : C'est comme si vous aviez sept critiques culinaires différents. L'un regarde la couleur, l'autre la température, un troisième la texture.
  • Le résultat : Tous ces critiques se mettent d'accord ! Ils disent tous : "Le robot SG-10 est le meilleur". Mais comme ils sont tous d'accord pour se tromper, cela ne change rien. Ils sont tous "aveugles" à la vraie utilité des images pour la médecine.

5. La Conclusion Simple : "Testez en Cuisine, pas en Galerie"

L'article nous dit quelque chose de très pragmatique :
Arrêtez de juger les images générées par leur apparence visuelle (leur "jolie photo"). Si vous voulez savoir si une image générée est bonne pour la médecine, utilisez-la !

  • La méthode recommandée : Prenez vos images artificielles, mélangez-les avec les vraies, entraînez votre modèle de diagnostic, et voyez si ce modèle devient plus performant sur un test final.
  • Le message : Si les images aident le modèle à mieux diagnostiquer, alors c'est une bonne image, même si elle semble un peu "bizarre" à l'œil nu. Si les images ne aident pas, même si elles sont magnifiques, elles sont inutiles.

En résumé :
Ne vous fiez pas au jaugeur de beauté (FID) pour vos images médicales. C'est comme choisir un entraîneur de football uniquement parce qu'il a un beau maillot. Pour savoir s'il est bon, il faut le mettre sur le terrain et voir s'il gagne des matchs. Dans le domaine de la santé, la seule vraie mesure de succès, c'est l'amélioration du diagnostic.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →