Oorspronkelijke auteurs: Nicolas Dufour, Alexei A. Efros, Patrick Pérez

Gepubliceerd 2026-06-19

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Nicolas Dufour, Alexei A. Efros, Patrick Pérez

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een rechter bent bij een kookwedstrijd. Elke chef (een generatief AI-model) presenteert een gerecht, en jij geeft een score op basis van hoe lekker het eruitziet en smaakt. In de wereld van AI-beeldgeneratie wordt deze score FID (Fréchet Inception Distance) genoemd. Hoe lager de score, hoe beter het gerecht.

Jarenlang heeft de gemeenschap deze score behandeld als een perfect, onveranderlijk feit. Als Chef A een score van 34,0 krijgt en Chef B een 33,5, gaat iedereen ervan uit dat Chef B definitief beter is.

Dit artikel, "The FID Lottery," betoogt dat dit een gevaarige illusie is. De auteurs beweren dat de score die je ziet niet alleen een maatstaf is voor de vaardigheid van de chef; het is ook een maatstaf voor geluk.

Hier is de uitsplitsing van hun bevindingen met behulp van eenvoudige analogieën:

1. De Twee Lotterijen

De auteurs zeggen dat elke keer dat een AI een afbeelding genereert, er twee verschillende "lotterijen" worden gespeeld:

De Trainingslotterij (De Grote): Voordat de chef überhaupt begint met koken, werpt hij de dobbelstenen over drie dingen:
1. De Ingrediënten: Hoe de data wordt gehusseld en geordend.
2. De Voorraadkast-opstelling: Hoe de hersenen van de AI (gewichten) aan het begin worden geïnitialiseerd.
3. Het Kookproces: Een specif kind van "ruis" (willekeurige statische ruis) wordt bij elke stap van het trainen aan het recept toegevoegd.
- Het Resultaat: Zelfs als twee chefs exact hetzelfde recept volgen, zal de chef die tijdens het trainen de "gelukkige" dobbelsteenworp kreeg, uiteindelijk een iets ander (en vaak beter) gerecht maken.
De Generatielotterij (De Kleine): Zodra het gerecht is gekookt, moet de chef het opmaken. Hij moet een willekeurig startpunt kiezen voor de laatste garnering.
- Het Resultaat: Als je dezelfde chef vraagt om het gerecht 10 keer op te maken, zullen de scores enigszins variëren, maar niet veel.

De Grote Ontdekking: De auteurs ontdekten dat het opnieuw trainen van het model (het spelen van de Trainingslotterij opnieuw) de score 3,2 keer meer verandert dan alleen het opnieuw opmaken van hetzelfde gerecht (het spelen van de Generatielotterij).

2. De "Verborgen" Ruisvloer

Het papier onthult dat er een "ruisvloer" is voor deze scores.

Stel je voor dat de score een thermometer is. De auteurs ontdekten dat de temperatuur natuurlijk fluctueert met ongeveer 1% tot 2% puur door geluk, zelfs als de chef niets anders doet.
Het Probleem: Veel recente AI-papers beweren een score met minuscule hoeveelheden te hebben verbeterd (bijv. van 34,0 naar 33,8). De auteurs stellen dat als de verbetering kleiner is dan deze 1–2% "geluksgap", het misschien helemaal geen echte verbetering is. Het kan simpelweg zijn dat de gelukkige dobbelstenen die keer in hun voordeel vielen.

3. Groter is Niet Altijd Beter (Wat betreft Geluk)

Je zou denken dat als je een grotere, krachtigere AI bouwt (een grotere keuken), de factor geluk zou verdwijnen.

De Bevinding: Nee. Of de AI nu klein of enorm is, de "geluksgap" blijft ongeveer hetzelfde percentage (1–2%).
De Analogie: Het is als het gooien van dobbelstenen. Of je nu één dobbelsteen of duizend dobbelstenen gooit, de willekeur is er nog steeds. Het groter maken van het model maakt de dobbelstenen niet minder willekeurig.

4. Het "Gouden Ticket" (Geluk van de Trekking)

De auteurs ontdekten dat sommige trainingsruns simpelweg ongelooflijk gelukkig zijn.

De Bevinding: Een "gelukkige" training-seed (een gelukkig begin) kan dezelfde hoge kwaliteitsscore bereiken als een "ongelukkige" seed, maar kan dit twee keer zo snel doen.
De Implicatie: Als een onderzoeker beweert dat hun nieuwe methode het trainen 2x sneller heeft gemaakt, hebben ze misschien gewoon hun "ongelukkige" oude methode vergeleken met een "gelukkige" nieuwe run. Ze hebben dan niet noodzakelijkerwijs de code verbeterd; ze hadden gewoon geluk met de dobbelstenen.

5. Het Afstemmen van de Guidance (Het "Geheime Sausje")

Het artikel keek ook naar een instelling genaamd "Classifier-Free Guidance" (CFG), wat een soort draaiknop is die de AI vertelt hoe strikt hij een prompt moet volgen.

De Bevinding: Als je deze knop perfect afstemt voor elke individuele trainingsrun, kun je de ruisgap met de helft verminderen.
De Keerzijde: Dit verandert de rangschikking. De "gelukkige" seed die voorheen op nummer 1 stond, kan na het afstemmen van de knop zakken naar nummer 5. Het is alsof je de oven temperatuur voor elke taart aanpast; de taart die het best was op 350°F, is misschien niet de beste op 360°F.

De Nieuwe Spelregels

Op basis van deze bevindingen suggereren de auteurs een nieuwe manier om resultaten te rapporteren, zodat we niet langer worden misleid door geluk:

Vertrouw niet op één enkel getal: Rapporteer niet alleen één score. Rapporteer een "foutmarge" (een bereik) op basis van het meerdere keren draaien van de training met verschillende seeds.
Negeer kleine overwinningen: Als een nieuwe methode de score met minder dan ~1,3% verbetert, beschouw het dan als "onconcluderend". Het is waarschijnlijk gewoon ruis.
Stem de knop af: Als je guidance gebruikt, stem dit dan specifiek af voor elke run, maar houd er rekening mee dat dit de ranglijst verandert.

Samenvattend: Het artikel vertelt ons dat in de wereld van AI-beeldgeneratie geluk een enorme rol speelt. We hebben willekeurige fluctuaties behandeld als wetenschappelijke doorbraken. Om te weten of een nieuwe methode daadwerkelijk beter is, moeten we het experiment vele malen uitvoeren en zien of de verbetering standhoudt tegen de "ruis" van de lotterij.

Technische Samenvatting: De FID-Loterij: Het kwantificeren van verborgen willekeur in de evaluatie van generatieve modellen

Probleemstelling

De Fréchet Inception Distance (FID) dient als de de facto standaard voor het evalueren van beeldgeneratiemodellen. De gemeenschap rapporteert echter doorgaans een enkelvoudig FID-getal afgeleid van één getraind model met behulp van één enkele sampling-seed. Dit artikel betoogt dat het rapporteren van een enkel getal een significante "reproduceerbaarheidsgat" verbergt, veroorzaakt door de inherente willekeur in de trainings- en generatiepipelines.

De auteurs identificeren twee afzonderlijke "loterijen" die variantie introduceren in FID-scores:

De Trainingsloterij: Vindt eenmaal per trainingsronde plaats, gedreven door willekeurige gewichtsinitialisatie, datavolgorde (minibatch shuffling), per stap geïnjecteerde Gaussische ruis door de flow-matching loss, en hardware-niet-determinisme (bitwise drift bij multi-GPU uitvoering).
De Generatieloterij: Vindt plaats tijdens de sampling, gedreven door de willekeurige initiële ruis ( $x_T \sim \mathcal{N}(0, I)$ ) die voor elk gegenereerd beeld wordt getrokken.

Conventionele praktijk verzacht de generatieloterij vaak door te middelen over meerdere sampling-seeds, maar negeert de trainingsloterij. Het artikel stelt dat de variantie die wordt geïntroduceerd door het opnieuw trainen van een model (zelfs met hetzelfde recept) aanzienlijk groter is dan de variantie die wordt geïntroduceerd door het opnieuw samplen uit een vast model, waardoor claims over single-seed FID potentieel inconclusief zijn.

Methodologie

De auteurs behandelen FID als een willekeurige variabele gedefinieerd over een twee-assig paneel van $N$ onafhankelijke trainings-seeds en $K$ sampling-seeds.

Experimentele opzet: De studie maakt gebruik van Scalable Interpolant Transformers (SiT) getraind op class-conditional ImageNet (256×256) met behulp van conditional flow matching.
Schaal: Experimenten bestrijken honderden SiT-netwerken over vier modelgroottes (S, B, L, XL) en trainingsbudgetten tot 2 miljoen stappen.
Variantie-decompositie: De auteurs isoleren systematisch bronnen van willekeur door gecontroleerde condities te creëren waarbij slechts één bron varieert terwijl de anderen constant worden gehouden (bijv. alleen initialisatie variëren, alleen de volgorde van data, of alleen de per stap geïnjecteerde trainingsruis).
Metrieken:
- $\sigma_{within}$ : Variantie over sampling-seeds voor een vaste getrainde model.
- $\sigma_{between}$ : Variantie over de gemiddelden van verschillende trainings-seeds.
- Coefficient of Variation (CoV): $\sigma/\mu$ , gebruikt om variantie te normaliseren over verschillende FID-magnitudes (bijv. guided vs. unguided).
- GS-FID Protocol: De auteurs introduceren een "Golden-Section FID"-protocol waarbij Classifier-Free Guidance (CFG) schalen individueel worden afgestemd voor elk (trainings-seed, sampling-seed) paar met behulp van een golden-section search om de FID per cel te minimaliseren.

Belangrijkste Resultaten

1. Trainingsvariabiliteit domineert de evaluatievariabiliteit

Het opnieuw trainen van een model met een andere seed verplaatst de FID-score 3,2× meer dan het opnieuw trekken van samples uit een vast netwerk.

In een SiT-B/2 experiment was de tussen-seed standaarddeviatie ( $\sigma_{between} \approx 0,44$ ) 3,2 keer groter dan de binnen-seed standaarddeviatie ( $\sigma_{within} \approx 0,14$ ).
De CoV voor trainings-seeds is ongeveer 1,3%, terwijl de CoV voor sampling-seeds slechts ~0,4% is.
Het vergroten van de sampling-budget (meer $K$ ) vermindert de binnen-seed jitter, maar laat de dominante tussen-seed enveloppe onaangetast.

2. Bronnen van trainingsvariantie

De trainingsloterij wordt gedreven door drie primaire factoren, gerangschikt op bijdrage aan variantie:

Per-stap trainingsruis: De verse Gaussische ruis die bij elke gradiëntstap door de flow-matching loss wordt geïnjecteerd, is de grootste bijdrager (reproduceert 77% van de baseline variantie).
Willekeurige initialisatie: Draagt significant bij (67% van de baseline).
Datavolgorde: Draagt het minst bij, maar introduceert een distinct distributievorm (een nauwe bulk met een lange bovenste staart), wat wijst op incidentele "slechte runs" in plaats van continue variantie.

Hardware-niet-determinisme: Bitwise drift in multi-GPU uitvoering bleek verwaarloosbaar en droeg minder variantie bij dan de sampling-loterij zelf.

3. De 1–2% CoV-vloer is schaal-invariant

Het verhogen van rekenkracht (trainingsstappen) of modelgrootte (S naar XL) elimineert de variantie niet.

De CoV blijft stabiel binnen een 1–2% band (mediaan 1,30%) over alle modelgroottes en trainingscheckpoints.
Grotere modellen leveren geen proportioneel nauwere FID-spreiding op; de relatieve ruisvloer is een eigenschap van de metriek en de loss-functie, niet van de schaal.
De rangorde-stabiliteit (correlatie van seed-rangschikkingen over de tijd) is zwak vóór ~1M stappen, wat betekent dat vroege checkpoint-rangschikkingen slechte voorspellers zijn voor de uiteindelijke prestaties.

4. De impact van Classifier-Free Guidance (CFG)

GS-FID: Het individueel afstemmen van CFG voor elk seed-paar (GS-FID) halveert de relatieve spreiding (CoV daalt van 1,26% naar 0,67%).
Rank Reshuffling: Deze afstemming herschikt echter welke seeds het best presteren. De Spearman-correlatie tussen unguided en guided rangschikkingen is slechts 0,73. Een seed die als "beste" wordt gekozen via unguided FID, is niet betrouwbaar de beste onder geoptimaliseerde guidance.
Learning Rate (LR) Windows: Onder GS-FID is de optimale LR geen enkel punt, maar een vlakke "window" (ongeveer 1,7× breed) waar aangrenzende LRs ononderscheidbare FID-scores opleveren.

5. De "Luck of the Draw"

De keuze van de trainings-seed heeft een significante impact op de efficiëntie. Een "gelukkige" seed kan dezelfde FID-target bereiken als een "ongelukkige" seed met tot wel 2× minder rekenkracht (bijv. het bereiken van een target bij 1M stappen die een ongelukkige seed pas bij 2M stappen bereikt). Dit impliceert dat single-seed papers die snelheidswinst claimen, mogelijk simpelweg profiteren van een gunstige seed in plaats van architecturale verbeteringen.

Betekenis en Aanbevelingen

Het artikel concludeert dat de huidige praktijk van het rapporteren van een enkel FID-getal onvoldoende is voor een rigoureuze evaluatie. De auteurs stellen een nieuw evaluatieprotocol voor:

Rapporteer foutmarges: In plaats van een enkel getal, rapporteer FID over meerdere trainings-seeds (bijv. 5–10) om de trainingsloterij te vangen.
Inconclusieve drempelwaarden: Behandel elke FID-kloof onder de empirisch gemeten ~1,3% CoV (of ~2% voor de zekerheid) als inconclusief. Claims van verbetering moeten de ruisvloer overstijgen om als echt beschouwd te worden.
Per-Cell Optimalisatie: Gebruik bij het gebruik van CFG per-cell optimale guidance (GS-FID), in plaats van een vaste globale waarde, in de wetenschap dat dit de rangschikking van seeds verandert.
Vermijd Cherry-Picking: Erken dat het selecteren van de enkelvoudige beste seed uit een grote pool headline-grabbing verbeteringen kan fabriceren die louter statistische artefacten zijn van de seed-loterij.

De auteurs benadrukken dat deze bevindingen specifiek zijn voor de SiT/Flow-Matching/ImageNet/Inception-V3 combinatie, maar suggereren dat de "1–2% vloer" een algemeen kenmerk kan zijn van moderne generatieve evaluatiemetrieken, en dringen aan bij de gemeenschap om robuustere statistische rapportagestandaarden te adopteren.

The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation