The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

Dit artikel onthult dat de Frechet Inception Distance (FID) aanzienlijke verborgen willekeur vertoont die primair wordt gedreven door trainingsseeds in plaats van door steekproefvariaties, wat een aanbeveling tot gevolg heeft om FID met foutmarges te rapporteren en kleine prestatieverschillen als statistisch inconclusief te beschouwen.

Oorspronkelijke auteurs: Nicolas Dufour, Alexei A. Efros, Patrick Pérez

Gepubliceerd 2026-06-19
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Nicolas Dufour, Alexei A. Efros, Patrick Pérez

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een rechter bent bij een kookwedstrijd. Elke chef (een generatief AI-model) presenteert een gerecht, en jij geeft een score op basis van hoe lekker het eruitziet en smaakt. In de wereld van AI-beeldgeneratie wordt deze score FID (Fréchet Inception Distance) genoemd. Hoe lager de score, hoe beter het gerecht.

Jarenlang heeft de gemeenschap deze score behandeld als een perfect, onveranderlijk feit. Als Chef A een score van 34,0 krijgt en Chef B een 33,5, gaat iedereen ervan uit dat Chef B definitief beter is.

Dit artikel, "The FID Lottery," betoogt dat dit een gevaarige illusie is. De auteurs beweren dat de score die je ziet niet alleen een maatstaf is voor de vaardigheid van de chef; het is ook een maatstaf voor geluk.

Hier is de uitsplitsing van hun bevindingen met behulp van eenvoudige analogieën:

1. De Twee Lotterijen

De auteurs zeggen dat elke keer dat een AI een afbeelding genereert, er twee verschillende "lotterijen" worden gespeeld:

  • De Trainingslotterij (De Grote): Voordat de chef überhaupt begint met koken, werpt hij de dobbelstenen over drie dingen:

    1. De Ingrediënten: Hoe de data wordt gehusseld en geordend.
    2. De Voorraadkast-opstelling: Hoe de hersenen van de AI (gewichten) aan het begin worden geïnitialiseerd.
    3. Het Kookproces: Een specif kind van "ruis" (willekeurige statische ruis) wordt bij elke stap van het trainen aan het recept toegevoegd.
    • Het Resultaat: Zelfs als twee chefs exact hetzelfde recept volgen, zal de chef die tijdens het trainen de "gelukkige" dobbelsteenworp kreeg, uiteindelijk een iets ander (en vaak beter) gerecht maken.
  • De Generatielotterij (De Kleine): Zodra het gerecht is gekookt, moet de chef het opmaken. Hij moet een willekeurig startpunt kiezen voor de laatste garnering.

    • Het Resultaat: Als je dezelfde chef vraagt om het gerecht 10 keer op te maken, zullen de scores enigszins variëren, maar niet veel.

De Grote Ontdekking: De auteurs ontdekten dat het opnieuw trainen van het model (het spelen van de Trainingslotterij opnieuw) de score 3,2 keer meer verandert dan alleen het opnieuw opmaken van hetzelfde gerecht (het spelen van de Generatielotterij).

2. De "Verborgen" Ruisvloer

Het papier onthult dat er een "ruisvloer" is voor deze scores.

  • Stel je voor dat de score een thermometer is. De auteurs ontdekten dat de temperatuur natuurlijk fluctueert met ongeveer 1% tot 2% puur door geluk, zelfs als de chef niets anders doet.
  • Het Probleem: Veel recente AI-papers beweren een score met minuscule hoeveelheden te hebben verbeterd (bijv. van 34,0 naar 33,8). De auteurs stellen dat als de verbetering kleiner is dan deze 1–2% "geluksgap", het misschien helemaal geen echte verbetering is. Het kan simpelweg zijn dat de gelukkige dobbelstenen die keer in hun voordeel vielen.

3. Groter is Niet Altijd Beter (Wat betreft Geluk)

Je zou denken dat als je een grotere, krachtigere AI bouwt (een grotere keuken), de factor geluk zou verdwijnen.

  • De Bevinding: Nee. Of de AI nu klein of enorm is, de "geluksgap" blijft ongeveer hetzelfde percentage (1–2%).
  • De Analogie: Het is als het gooien van dobbelstenen. Of je nu één dobbelsteen of duizend dobbelstenen gooit, de willekeur is er nog steeds. Het groter maken van het model maakt de dobbelstenen niet minder willekeurig.

4. Het "Gouden Ticket" (Geluk van de Trekking)

De auteurs ontdekten dat sommige trainingsruns simpelweg ongelooflijk gelukkig zijn.

  • De Bevinding: Een "gelukkige" training-seed (een gelukkig begin) kan dezelfde hoge kwaliteitsscore bereiken als een "ongelukkige" seed, maar kan dit twee keer zo snel doen.
  • De Implicatie: Als een onderzoeker beweert dat hun nieuwe methode het trainen 2x sneller heeft gemaakt, hebben ze misschien gewoon hun "ongelukkige" oude methode vergeleken met een "gelukkige" nieuwe run. Ze hebben dan niet noodzakelijkerwijs de code verbeterd; ze hadden gewoon geluk met de dobbelstenen.

5. Het Afstemmen van de Guidance (Het "Geheime Sausje")

Het artikel keek ook naar een instelling genaamd "Classifier-Free Guidance" (CFG), wat een soort draaiknop is die de AI vertelt hoe strikt hij een prompt moet volgen.

  • De Bevinding: Als je deze knop perfect afstemt voor elke individuele trainingsrun, kun je de ruisgap met de helft verminderen.
  • De Keerzijde: Dit verandert de rangschikking. De "gelukkige" seed die voorheen op nummer 1 stond, kan na het afstemmen van de knop zakken naar nummer 5. Het is alsof je de oven temperatuur voor elke taart aanpast; de taart die het best was op 350°F, is misschien niet de beste op 360°F.

De Nieuwe Spelregels

Op basis van deze bevindingen suggereren de auteurs een nieuwe manier om resultaten te rapporteren, zodat we niet langer worden misleid door geluk:

  1. Vertrouw niet op één enkel getal: Rapporteer niet alleen één score. Rapporteer een "foutmarge" (een bereik) op basis van het meerdere keren draaien van de training met verschillende seeds.
  2. Negeer kleine overwinningen: Als een nieuwe methode de score met minder dan ~1,3% verbetert, beschouw het dan als "onconcluderend". Het is waarschijnlijk gewoon ruis.
  3. Stem de knop af: Als je guidance gebruikt, stem dit dan specifiek af voor elke run, maar houd er rekening mee dat dit de ranglijst verandert.

Samenvattend: Het artikel vertelt ons dat in de wereld van AI-beeldgeneratie geluk een enorme rol speelt. We hebben willekeurige fluctuaties behandeld als wetenschappelijke doorbraken. Om te weten of een nieuwe methode daadwerkelijk beter is, moeten we het experiment vele malen uitvoeren en zien of de verbetering standhoudt tegen de "ruis" van de lotterij.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →