A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

Each language version is independently generated for its own context, not a direct translation.

Titre : Le Piège du Jaugeur de Beauté : Pourquoi les Images Artificielles des Yeux ne se jugent pas comme des Photos

Imaginez que vous êtes un chef cuisinier (le chercheur) qui veut préparer un grand banquet pour entraîner des apprentis (les intelligences artificielles) à reconnaître des maladies oculaires. Le problème ? Vous n'avez pas assez de vrais plats (images médicales réelles) pour les entraîner.

Alors, vous décidez de faire appel à un robot chef (un modèle génératif) pour créer des milliers de nouveaux plats artificiels qui ressemblent à s'y méprendre aux vrais. L'objectif est d'enrichir votre stock pour que les apprentis deviennent de meilleurs cuisiniers.

Mais comment savoir si le robot chef fait du bon travail ? C'est là que l'article de Wu et ses collègues pose une question cruciale.

1. Le Jaugeur de "Beauté" (Le FID)

Actuellement, la plupart des chercheurs utilisent une règle universelle appelée FID (Fréchet Inception Distance).

L'analogie : Imaginez que le FID est un critique culinaire très exigeant qui ne goûte jamais le plat. Il se contente de regarder la photo du plat sur une table. Il compare la photo du plat réel et celle du plat artificiel. Si les deux photos ont la même couleur, la même texture et la même "vibe" générale, le critique donne une note parfaite.
Le problème : Ce critique est formé sur des photos de la vie quotidienne (des chats, des voitures, des paysages). Il ne sait pas vraiment ce qu'est un plat médical. Il juge la "jolie photo", pas la qualité nutritionnelle du plat.

2. L'Expérience : Quand la "Jolie Photo" trompe

Les auteurs de l'article ont pris trois robots chefs différents (des modèles de type GAN et de diffusion) et les ont mis à l'œuvre pour créer deux types d'images :

Des photos de fonds d'œil (comme des photos de la rétine).
Des scans OCT (comme des coupes transversales de l'œil).

Ils ont ensuite fait deux choses :

Test A (Le Critique) : Ils ont demandé au FID de noter la beauté des images générées.
Test B (Le Vrai Test) : Ils ont donné ces images artificielles aux apprentis (les modèles de classification et de segmentation) pour voir s'ils apprenaient mieux à détecter le glaucome ou à dessiner les contours des couches de l'œil.

3. La Révélation : Le Décalage

C'est ici que ça devient intéressant, et un peu effrayant pour les chercheurs.

Le verdict du Critique (FID) : Il dit : "Oh, ce robot chef SG-10 a produit des images magnifiques ! Note : 17. C'est le meilleur !"
Le verdict du Vrai Test (Performance réelle) : Les apprentis qui ont mangé les plats du robot SG-10 sont devenus de très mauvais cuisiniers. Ils ont échoué à détecter les maladies.
Le paradoxe : Parfois, plus le robot produit des images "parfaites" selon le FID, moins elles sont utiles pour l'entraînement réel. C'est comme si le robot chef créait des plats si lisses et parfaits qu'ils ressemblent tous à la même soupe, alors que les vrais patients ont des maladies très variées et complexes. Le robot a appris à copier la "forme" mais a oublié la "substance" nécessaire pour l'apprentissage.

4. Pourquoi les autres règles ne fonctionnent pas non plus

Les auteurs ont testé sept autres règles de notation (comme le KID, le CMMD, le FLD), qui sont des variantes du FID.

L'analogie : C'est comme si vous aviez sept critiques culinaires différents. L'un regarde la couleur, l'autre la température, un troisième la texture.
Le résultat : Tous ces critiques se mettent d'accord ! Ils disent tous : "Le robot SG-10 est le meilleur". Mais comme ils sont tous d'accord pour se tromper, cela ne change rien. Ils sont tous "aveugles" à la vraie utilité des images pour la médecine.

5. La Conclusion Simple : "Testez en Cuisine, pas en Galerie"

L'article nous dit quelque chose de très pragmatique :
Arrêtez de juger les images générées par leur apparence visuelle (leur "jolie photo"). Si vous voulez savoir si une image générée est bonne pour la médecine, utilisez-la !

La méthode recommandée : Prenez vos images artificielles, mélangez-les avec les vraies, entraînez votre modèle de diagnostic, et voyez si ce modèle devient plus performant sur un test final.
Le message : Si les images aident le modèle à mieux diagnostiquer, alors c'est une bonne image, même si elle semble un peu "bizarre" à l'œil nu. Si les images ne aident pas, même si elles sont magnifiques, elles sont inutiles.

En résumé :
Ne vous fiez pas au jaugeur de beauté (FID) pour vos images médicales. C'est comme choisir un entraîneur de football uniquement parce qu'il a un beau maillot. Pour savoir s'il est bon, il faut le mettre sur le terrain et voir s'il gagne des matchs. Dans le domaine de la santé, la seule vraie mesure de succès, c'est l'amélioration du diagnostic.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'utilisation de modèles génératifs (GANs, modèles de diffusion) pour synthétiser des données biomédicales, notamment en imagerie rétinienne, vise à enrichir les jeux de données d'entraînement et à pallier le manque de données annotées. Cependant, l'évaluation de la qualité de ces images synthétiques repose souvent sur des métriques de distance de caractéristiques (feature-distance metrics), dont le Fréchet Inception Distance (FID) est la norme de facto.

Le problème central identifié par les auteurs est un désalignement fondamental : les métriques comme le FID, calculées dans l'espace de caractéristiques d'un modèle pré-entraîné (généralement sur ImageNet), mesurent la similarité perceptuelle ou statistique entre les distributions de données réelles et synthétiques. Elles ne garantissent pas que ces données synthétiques soient utiles pour les tâches en aval (downstream tasks) telles que la classification ou la segmentation, qui sont l'objectif ultime de l'enrichissement de données en biomédecine. L'article s'interroge sur la fiabilité du FID et de ses variantes comme proxy de la performance pratique.

2. Méthodologie

Les auteurs ont mené une étude empirique rigoureuse sur deux modalités d'imagerie rétinienne : la photographie du fond d'œil (Fundus) et la tomographie par cohérence optique (OCT).

Modèles Génératifs : Trois architectures ont été évaluées :
- StyleGAN3 (GAN) pour la synthèse de fonds d'œil.
- Medfusion (Modèle de diffusion latent) pour la synthèse de fonds d'œil.
- DDPM (Modèle de diffusion) pour la synthèse d'images OCT avec masques de segmentation.
- Des variantes de ces modèles ont été créées en ajustant les étapes d'échantillonnage ou en sélectionnant des checkpoints d'entraînement, générant ainsi un spectre de qualité perceptuelle variable.
Tâches en Aval (Downstream Tasks) :
- Classification : Détection du glaucome réfrérable (RG) vs non réfrérable (NRG) sur les images de fond d'œil, utilisant des architectures ResNet-50 et Swin Transformer Tiny. La métrique principale est le score F1.
- Segmentation : Segmentation de couches rétiniennes (RNFL, GCIPL, CL) sur les images OCT, utilisant U2-Net et TransUNet. La métrique principale est le score Dice.
Évaluation Comparative :
- Métriques Génératives : Sept métriques de distance de caractéristiques ont été calculées entre les données synthétiques et les données de test réelles. Elles incluent le FID (avec Inception-v3), Clean-FID, CLIP-FD, RETFound-FD (modèle spécifique à la rétine), KID, CMMD et FLD.
- Analyse Statistique : Les auteurs ont calculé le coefficient de corrélation de Kendall ( $\tau$ ) pour évaluer :
  1. La cohérence entre les différentes métriques génératives.
  2. La corrélation entre le classement des modèles par ces métriques et leur performance réelle sur les tâches en aval.
- Analyse des Caractéristiques : Étude de la sparsité (norme L0) et de l'entropie des vecteurs de caractéristiques extraits par différents encodeurs (Inception, CLIP, DINOv2, RETFound).

3. Contributions Clés

Mise en évidence du désalignement : L'article démontre que les métriques basées sur la distance de caractéristiques (FID et ses variantes) ne prédisent pas la performance des modèles génératifs lorsqu'ils sont utilisés pour l'augmentation de données dans des tâches de classification ou de segmentation biomédicale.
Redondance des métriques : Les auteurs montrent que malgré des différences dans les extracteurs de caractéristiques (généraux vs spécifiques au domaine) et les mesures de distance, les métriques sont fortement corrélées entre elles (redondantes) mais faiblement corrélées (voire inversement corrélées) avec la performance en aval.
Échec des variantes "améliorées" : Les variantes récentes du FID (comme Clean-FID, CMMD, ou l'utilisation de modèles pré-entraînés sur la rétine comme RETFound) n'offrent pas d'amélioration significative par rapport au FID classique pour prédire l'utilité des données synthétiques.
Plaidoyer pour l'évaluation pragmatique : L'article propose que l'évaluation par la tâche en aval (entraîner un modèle de classification/segmentation avec les données synthétiques) doit devenir la norme pour évaluer les modèles génératifs en biomédecine, plutôt que de se fier à des métriques de similarité distributionnelle.

4. Résultats Principaux

Corrélations Inversées ou Insignifiantes :
- Pour les modèles StyleGAN3 (Fonds d'œil), les métriques FID et variantes montrent une corrélation négative significative ( $\tau \approx 0.69$ à $0.70$ avec une p-value < 0.01, notez que dans leur convention $\tau=1$ indique une corrélation négative car une baisse de FID devrait correspondre à une hausse de performance, mais ici le classement est inversé par rapport à la performance réelle). En d'autres termes, un FID plus bas (meilleur score de métrique) correspondait souvent à une baisse de la performance F1 en aval.
- Pour les modèles de Diffusion (Fonds d'œil et OCT), les corrélations étaient statistiquement non significatives (p-value $\ge$ 0.05), indiquant une absence totale de lien prédictif entre la métrique générative et la performance de la tâche.
Redondance des Métriques : La plupart des paires de métriques génératives présentent un coefficient de Kendall $\tau > 0.7$ , confirmant qu'elles classent les modèles de manière quasi identique, mais que ce classement commun est erroné par rapport à l'objectif pratique.
Propriétés des Caractéristiques : L'analyse de la sparsité et de l'entropie révèle que les encodeurs spécifiques au domaine (comme RETFound) ne produisent pas nécessairement des représentations plus riches ou mieux adaptées pour ces métriques que les encodeurs généraux (Inception-v3), et ne résolvent pas le problème de désalignement.

5. Signification et Conclusion

Cette étude apporte une mise en garde critique pour la communauté de l'imagerie biomédicale et de l'apprentissage automatique. Elle remet en question l'usage aveugle du FID comme critère de sélection pour les modèles génératifs destinés à l'augmentation de données.

Implication Pratique : Les chercheurs ne doivent plus se fier uniquement à l'amélioration du FID pour valider la qualité de leurs données synthétiques. Une métrique basse (FID) ne signifie pas que les données synthétiques amélioreront un classifieur ou un segmenteur.
Recommandation : L'évaluation doit être pragmatique : la qualité d'un générateur doit être jugée par son impact direct sur la performance d'une tâche en aval (classification, segmentation).
Perspectives Futures : Les auteurs suggèrent de développer des stratégies d'évaluation qui intègrent la tâche en aval de manière efficace (par exemple via l'optimisation bayésienne ou des modèles de substitution) pour éviter le coût computationnel élevé d'un réentraînement complet à chaque étape, tout en garantissant que les métriques utilisées reflètent véritablement l'utilité des données générées.

En résumé, l'article conclut que pour l'enrichissement de données biomédicales, l'évaluation par la tâche (downstream evaluation) doit être le critère principal, car les métriques de distance de distribution actuelles sont des indicateurs peu fiables, voire trompeurs, de la valeur pratique des données synthétiques.

A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

1. Le Jaugeur de "Beauté" (Le FID)

2. L'Expérience : Quand la "Jolie Photo" trompe

3. La Révélation : Le Décalage

4. Pourquoi les autres règles ne fonctionnent pas non plus

5. La Conclusion Simple : "Testez en Cuisine, pas en Galerie"

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Conclusion

Articles similaires

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Scaling DPPs for RAG: Density Meets Diversity

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Apparent Age Estimation: Challenges and Outcomes