A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

Each language version is independently generated for its own context, not a direct translation.

De "Schijn" van de Kunst: Waarom de beste meetlat voor AI-afbeeldingen in de geneeskunde faalt

Stel je voor dat je een kunstenaar bent die duizenden perfecte kopieën van echte oogfoto's maakt. Je doel is niet om een museum te vullen, maar om deze foto's te gebruiken om een computer te leren ziektes te herkennen. Maar hoe weet je of je kopieën goed genoeg zijn?

In de wereld van kunstmatige intelligentie (AI) gebruiken onderzoekers al jaren een specifieke meetlat, genaamd FID (Fréchet Inception Distance). Je kunt dit zien als een kwaliteitscontroleur die kijkt naar de foto's en zegt: "Hoe meer deze lijken op de echte foto's, hoe beter."

Maar in dit nieuwe onderzoek van wetenschappers van de RWTH Aachen en de Heinrich Heine Universiteit, wordt er een harde waarheid onthuld: Deze kwaliteitscontroleur is een leugenaar als het gaat om medische toepassingen.

Hier is wat ze ontdekten, vertaald in alledaags taal:

1. De Verkeerde Meetlat

Stel je voor dat je een kok bent die een nieuwe soep maakt. Je wilt dat de soep helpt om mensen te genezen.

De huidige meetlat (FID) kijkt alleen naar de geur en de kleur van de soep. Hij zegt: "Deze soep ruikt precies als de echte soep, dus hij is perfect!"
De echte test is of de soep echt werkt om iemand te genezen.

De onderzoekers ontdekten dat je een soep kunt hebben die er perfect uitziet en perfect ruikt (een lage FID-score), maar die in de praktijk helemaal niet werkt om de ziekte te genezen. Of nog erger: soms is de "minder mooie" soep juist de beste voor de genezing, maar wordt die door de meetlat afgekeurd.

2. De Oogfoto's en de "Goocheltrucs"

De onderzoekers keken naar twee soorten oogfoto's:

Fundusfoto's: Kleurrijke foto's van de achterkant van het oog (zoals een landschapsfoto).
OCT-foto's: Doorsneden van het oog, alsof je een brood in dunne plakjes snijdt om de lagen te zien.

Ze lieten verschillende AI-modellen (kunstenaars) deze foto's nabootsen. Sommige modellen maakten foto's die er "mooier" uitzagen volgens de meetlat FID, andere minder mooi.
Toen ze deze foto's echter gebruikten om een computer te trainen om glaucoom (oogziekte) te herkennen of om ooglageden te meten, gebeurde er iets vreemds:

De "mooie" foto's (die de meetlat prefereerde) hielpen de computer niet beter om de ziekte te vinden.
Soms hielpen de "minder mooie" foto's juist beter.

De meetlat en de echte prestatie liepen niet gelijk op. Het was alsof je een auto koopt omdat hij er strak uitziet, maar hij blijkt geen benzine te verbranden.

3. Waarom gebeurt dit?

De meetlat (FID) is getraind op alledaagse foto's van auto's, bloemen en gezichten (een database genaamd ImageNet). Het is alsof je een mode-expert vraagt om te oordelen over medische instrumenten.

De expert zegt: "Die auto heeft mooie lijnen!"
Maar voor een dokter is het belangrijk of de auto veilig rijdt, niet hoe hij eruitziet.

In de geneeskunde gaat het om de informatie in de foto (bijvoorbeeld: is er een vlekje dat een ziekte aangeeft?), niet om de esthetische schoonheid. De AI-modellen kunnen foto's maken die er "echt" uitzien voor een mode-expert, maar missen de cruciale medische details die nodig zijn om een diagnose te stellen.

4. De Oplossing: Probeer het zelf!

De boodschap van de auteurs is simpel en krachtig:
Stop met blind vertrouwen op de "mooie meetlat" (FID). Als je AI-foto's wilt maken om medische data te verrijken, moet je de enige echte test doen:

Gebruik de gegenereerde foto's om een computer te trainen en kijk of die computer de ziekte beter kan herkennen.

Als de foto's helpen om de diagnose te verbeteren, dan zijn ze goed. Als ze dat niet doen, maakt het niet uit hoe mooi ze eruitzien; ze zijn nutteloos.

Samenvattend in een metafoor

Het is alsof je een schrijver wilt trainen om medische rapporten te schrijven.

De huidige meetlat (FID) kijkt naar de spelling en het woordgebruik.
De onderzoekers zeggen: "Dat is niet genoeg! Je moet kijken of de informatie in het rapport de patiënt helpt."

Een rapport met perfecte spelling maar verkeerde medische feiten is gevaarlijk. Een rapport met wat spelfouten maar de juiste diagnose, is goud waard.

Conclusie: In de wereld van medische AI is "mooi" niet hetzelfde als "goed". De enige manier om te weten of een gegenereerde afbeelding nuttig is, is door te kijken of hij zijn werk doet in de echte praktijk.

Each language version is independently generated for its own context, not a direct translation.

Titel: Een pragmatische noot over het evalueren van generatieve modellen met Fréchet Inception Distance voor retinale beeldsynthese

Auteurs: Yuli Wu et al. (RWTH Aachen University, Heinrich Heine University Düsseldorf)
Publicatie: MIDL 2026 (Proceedings of Machine Learning Research)

1. Het Probleem

In de biomedische beeldvorming, en specifiek in de retinale beeldanalyse, worden generatieve modellen (zoals GANs en Diffusion Models) steeds vaker gebruikt om synthetische data te genereren. Het primaire doel hiervan is vaak het verrijken van trainingsdatasets voor downstream-taken zoals classificatie (bijv. glaucoomdetectie) en segmentatie (bijv. retinale lagen), vooral om problemen met data-schaarste en privacy op te lossen.

De huidige de facto standaard voor het evalueren van de kwaliteit van deze generatieve modellen is de Fréchet Inception Distance (FID). FID berekent de afstand tussen de verdeling van kenmerken van echte en gegenereerde beelden, afgeleid van een op ImageNet voorgetraind Inception-v3 netwerk, onder de aanname van een multivariate Gaussische verdeling.

Het kernprobleem: Er is een fundamentele misalignatie tussen wat FID meet (perceptuele gelijkenis in een algemene kenmerkruimte) en wat biomedische toepassingen nodig hebben (bruikbaarheid van de data voor specifieke downstream-taken). Het paper stelt de vraag of FID en gerelateerde "feature-distance" metrics betrouwbare proxies zijn voor de praktische nuttigheid van synthetische data in biomedische contexten.

2. Methodologie

De auteurs hebben een uitgebreide empirische studie uitgevoerd om de correlatie tussen generatieve evaluatiemetrics en downstream-prestaties te testen.

Modellen: Drie generatieve architecturen werden getest:
- StyleGAN3: Gebruikt voor fundusfotografie (gebaseerd op checkpoints tijdens training).
- Medfusion: Een medisch specifiek latent diffusion model voor fundusfotografie.
- DDPM (Denoising Diffusion Probabilistic Model): Gebruikt voor Optical Coherence Tomography (OCT) beeldsynthese.
Datasets:
- Fundus: AIROGS dataset (ongeveer 101.000 beelden) voor de classificatie van referabel glaucoom (RG) vs. niet-referabel glaucoom (NRG).
- OCT: MICCAI GOALS Challenge dataset (kleine steekproef van 100 beelden) voor segmentatie van retinale lagen (RNFL, GCIPL, CL).
Evaluatie-Strategie:
1. Generatie: Synthetische datasets werden gegenereerd met variërende kwaliteiten (door checkpoints te selecteren bij GANs of het variëren van het aantal sampling-steps bij diffusion modellen).
2. Metrics: Zeven verschillende evaluatiemetrics werden berekend, waaronder:
  - FID-varianten: FID, Clean-FID, CLIP-FD, RETFound-FD (modality-specific).
  - Andere afstanden: Kernel Inception Distance (KID), CLIP-MMD (CMMD), Feature Likelihood Divergence (FLD).
  - Feature Extractors: Inception-v3 (ImageNet), CLIP, DINOv2, en RETFound (specifiek voor retinale beelden).
3. Downstream Taken: De gegenereerde data werd toegevoegd aan de trainingsset van bestaande modellen om de prestaties op een onafhankelijke testset te meten:
  - Classificatie: ResNet-50 en Swin Transformer Tiny (F1-score voor glaucoom).
  - Segmentatie: U2-Net en TransUNet (Dice-score voor retinale lagen).
4. Statistische Analyse: De rangorde van de modellen volgens de generatieve metrics werd vergeleken met de rangorde volgens de downstream-prestaties, gemeten met Kendall's $\tau$ rangcorrelatie.

3. Belangrijkste Bijdragen

Empirische Validatie van Misalignement: Het paper biedt robuust bewijs dat FID en zijn varianten (zelfs met modality-specifieke feature extractors zoals RETFound) niet correleren met de prestaties van downstream-taken in retinale beeldvorming.
Analyse van Feature-ruimtes: De auteurs analyseren de sparsiteit en entropie van feature-vectoren van verschillende extractoren. Ze tonen aan dat hoewel deze extractoren fundamenteel verschillende representaties hebben, de metrics die hierop gebaseerd zijn onderling sterk met elkaar correleren (redundantie), maar allemaal falen in het voorspellen van downstream-utility.
Kritiek op "State-of-the-Art" Metrics: Het paper toont aan dat geavanceerdere metrics (zoals CMMD of FLD) geen significante verbetering bieden ten opzichte van de klassieke FID in deze context, en dat ze soms zelfs een negatieve correlatie vertonen.

4. Resultaten

De resultaten zijn overtuigend en vaak verrassend voor de gemeenschap:

Gebrek aan Correlatie: Voor de diffusion-modellen (Medfusion en DDPM) was er geen significante correlatie ( $p \ge 0.05$ ) tussen de generatieve metrics en de downstream-prestaties.
Negatieve Correlatie: Voor StyleGAN3 op fundusdata vertoonden de metrics een negatieve correlatie ( $\tau \approx -0.24$ tot $-0.43$, $p < 0.01$ ). Dit betekent dat modellen die volgens FID "beter" waren (lagere score), daadwerkelijk slechtere prestaties leverden in de downstream classificatie-taak.
Redundantie: Er was een sterke interne correlatie ( $\tau > 0.7$ ) tussen de verschillende metrics (FID, KID, CMMD, etc.). Dit suggereert dat het variëren van de feature-extractor of de afstandsmeting weinig toevoegt aan de betrouwbaarheid van de evaluatie.
Feature-kenmerken: Hoewel RETFound (een op retinale beelden getraind model) betere features zou moeten leveren, leidde dit niet tot een betere correlatie met downstream-taken dan ImageNet-gebaseerde modellen.

5. Betekenis en Conclusie

De conclusie van het paper is een waarschuwing voor de biomedische AI-gemeenschap:

FID is onbetrouwbaar voor data-augmentatie: Het gebruik van FID om te beslissen of synthetische data nuttig is voor het trainen van diagnostische modellen is misleidend. Een lage FID-score garandeert niet dat de data de prestaties van een classificator of segmentator verbetert.
Downstream-evaluatie is de "Gouden Standaard": De enige betrouwbare manier om generatieve modellen voor biomedische toepassingen te evalueren, is door ze daadwerkelijk te integreren in de trainingspipeline van de downstream-taak en de prestaties op een held-out testset te meten.
Toekomstperspectief: De auteurs pleiten voor het ontwikkelen van evaluatiestrategieën die rekening houden met downstream-taken, mogelijk via efficiëntere methoden zoals Bayesiaanse optimalisatie of surrogate-modellen, om de hoge computationele kosten van volledige downstream-evaluatie te omzeilen zonder de betrouwbaarheid te verliezen.

Kortom, het paper ondermijnt het vertrouwen in "feature-distance" metrics als proxy voor praktische bruikbaarheid in de biomedische beeldsynthese en pleit voor een pragmatische, taakgerichte evaluatiebenadering.

A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

1. De Verkeerde Meetlat

2. De Oogfoto's en de "Goocheltrucs"

3. Waarom gebeurt dit?

4. De Oplossing: Probeer het zelf!

Samenvattend in een metafoor

Titel: Een pragmatische noot over het evalueren van generatieve modellen met Fréchet Inception Distance voor retinale beeldsynthese

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Scaling DPPs for RAG: Density Meets Diversity

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Apparent Age Estimation: Challenges and Outcomes