A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

Dit artikel betoogt dat de Fréchet Inception Distance (FID) als evaluatiemetric voor generatieve modellen in de retinale beeldvorming vaak misleidt, en pleit ervoor om synthetische data in plaats daarvan pragmatisch te beoordelen door ze te integreren in downstream-taken zoals classificatie en segmentatie.

Yuli Wu, Fucheng Liu, Rüveyda Yilmaz, Henning Konermann, Peter Walter, Johannes Stegmaier

Gepubliceerd 2026-02-23
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "Schijn" van de Kunst: Waarom de beste meetlat voor AI-afbeeldingen in de geneeskunde faalt

Stel je voor dat je een kunstenaar bent die duizenden perfecte kopieën van echte oogfoto's maakt. Je doel is niet om een museum te vullen, maar om deze foto's te gebruiken om een computer te leren ziektes te herkennen. Maar hoe weet je of je kopieën goed genoeg zijn?

In de wereld van kunstmatige intelligentie (AI) gebruiken onderzoekers al jaren een specifieke meetlat, genaamd FID (Fréchet Inception Distance). Je kunt dit zien als een kwaliteitscontroleur die kijkt naar de foto's en zegt: "Hoe meer deze lijken op de echte foto's, hoe beter."

Maar in dit nieuwe onderzoek van wetenschappers van de RWTH Aachen en de Heinrich Heine Universiteit, wordt er een harde waarheid onthuld: Deze kwaliteitscontroleur is een leugenaar als het gaat om medische toepassingen.

Hier is wat ze ontdekten, vertaald in alledaags taal:

1. De Verkeerde Meetlat

Stel je voor dat je een kok bent die een nieuwe soep maakt. Je wilt dat de soep helpt om mensen te genezen.

  • De huidige meetlat (FID) kijkt alleen naar de geur en de kleur van de soep. Hij zegt: "Deze soep ruikt precies als de echte soep, dus hij is perfect!"
  • De echte test is of de soep echt werkt om iemand te genezen.

De onderzoekers ontdekten dat je een soep kunt hebben die er perfect uitziet en perfect ruikt (een lage FID-score), maar die in de praktijk helemaal niet werkt om de ziekte te genezen. Of nog erger: soms is de "minder mooie" soep juist de beste voor de genezing, maar wordt die door de meetlat afgekeurd.

2. De Oogfoto's en de "Goocheltrucs"

De onderzoekers keken naar twee soorten oogfoto's:

  • Fundusfoto's: Kleurrijke foto's van de achterkant van het oog (zoals een landschapsfoto).
  • OCT-foto's: Doorsneden van het oog, alsof je een brood in dunne plakjes snijdt om de lagen te zien.

Ze lieten verschillende AI-modellen (kunstenaars) deze foto's nabootsen. Sommige modellen maakten foto's die er "mooier" uitzagen volgens de meetlat FID, andere minder mooi.
Toen ze deze foto's echter gebruikten om een computer te trainen om glaucoom (oogziekte) te herkennen of om ooglageden te meten, gebeurde er iets vreemds:

  • De "mooie" foto's (die de meetlat prefereerde) hielpen de computer niet beter om de ziekte te vinden.
  • Soms hielpen de "minder mooie" foto's juist beter.

De meetlat en de echte prestatie liepen niet gelijk op. Het was alsof je een auto koopt omdat hij er strak uitziet, maar hij blijkt geen benzine te verbranden.

3. Waarom gebeurt dit?

De meetlat (FID) is getraind op alledaagse foto's van auto's, bloemen en gezichten (een database genaamd ImageNet). Het is alsof je een mode-expert vraagt om te oordelen over medische instrumenten.

  • De expert zegt: "Die auto heeft mooie lijnen!"
  • Maar voor een dokter is het belangrijk of de auto veilig rijdt, niet hoe hij eruitziet.

In de geneeskunde gaat het om de informatie in de foto (bijvoorbeeld: is er een vlekje dat een ziekte aangeeft?), niet om de esthetische schoonheid. De AI-modellen kunnen foto's maken die er "echt" uitzien voor een mode-expert, maar missen de cruciale medische details die nodig zijn om een diagnose te stellen.

4. De Oplossing: Probeer het zelf!

De boodschap van de auteurs is simpel en krachtig:
Stop met blind vertrouwen op de "mooie meetlat" (FID). Als je AI-foto's wilt maken om medische data te verrijken, moet je de enige echte test doen:

Gebruik de gegenereerde foto's om een computer te trainen en kijk of die computer de ziekte beter kan herkennen.

Als de foto's helpen om de diagnose te verbeteren, dan zijn ze goed. Als ze dat niet doen, maakt het niet uit hoe mooi ze eruitzien; ze zijn nutteloos.

Samenvattend in een metafoor

Het is alsof je een schrijver wilt trainen om medische rapporten te schrijven.

  • De huidige meetlat (FID) kijkt naar de spelling en het woordgebruik.
  • De onderzoekers zeggen: "Dat is niet genoeg! Je moet kijken of de informatie in het rapport de patiënt helpt."

Een rapport met perfecte spelling maar verkeerde medische feiten is gevaarlijk. Een rapport met wat spelfouten maar de juiste diagnose, is goud waard.

Conclusie: In de wereld van medische AI is "mooi" niet hetzelfde als "goed". De enige manier om te weten of een gegenereerde afbeelding nuttig is, is door te kijken of hij zijn werk doet in de echte praktijk.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →