Towards Reliable Simulation-based Inference

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we betrouwbare voorspellingen doen met computersimulaties (Zelfs als die computers soms liegen)

Stel je voor dat je een heel ingewikkeld spelletje speelt, bijvoorbeeld een simulatie van hoe een veer valt in de wind, of hoe een virus zich verspreidt in een stad. Je hebt een computerprogramma dat dit spelletje speelt. Maar er is een probleem: je kent de instellingen van het spel niet precies (zoals de zwaartekracht of de besmettingsgraad). Je wilt die instellingen achterhalen door te kijken naar wat er gebeurt in de simulatie.

Dit noemen wetenschappers simulatie-gebaseerde inferentie. Het is alsof je probeert de ingrediënten van een taart te raden door alleen naar het eindresultaat te kijken, zonder het recept te hebben.

Maar hier komt het probleem: de computers die deze simulaties doen, zijn zo complex dat we ze niet perfect kunnen begrijpen. De methoden die we gebruiken om de "ingrediënten" te raden, maken vaak fouten. Ze zijn soms te zelfverzekerd. Ze zeggen: "Ik weet het zeker! De zwaartekracht is precies 9,81!" terwijl ze eigenlijk maar een gok doen. In de wetenschap is dit gevaarlijk. Als je denkt dat je iets zeker weet, maar je hebt het mis, kun je een heel goede theorie onterecht verwerpen.

Deze proefschrift van Arnaud Delaunoy gaat over hoe we deze "te zelfverzekerde" computers kunnen kalmeren en betrouwbaarder maken. Hij gebruikt drie hoofdstrategieën, die ik hieronder uitleg met alledaagse vergelijkingen.

1. Het probleem: De "Zelfverzekerde Voorspeller"

Stel je voor dat je een waarzegger hebt die elke dag de weersvoorspelling doet. Soms zegt hij: "Morgen is het 100% zeker zonnig." Maar als het regent, zegt hij: "Nou ja, ik had het bijna goed."

In de wetenschap willen we geen waarzeggers die altijd denken dat ze gelijk hebben. We willen eerlijke voorspellers. Als de computer zegt dat een waarde waarschijnlijk is, moet hij ook ruimte laten voor de mogelijkheid dat hij het mis heeft. De auteur noemt dit overconfidence (te veel zelfvertrouwen).

Hij heeft ontdekt dat bijna alle moderne methoden om deze simulaties te analyseren, deze fout maken. Ze zijn vaak te optimistisch en sluiten waarden uit die eigenlijk best mogelijk zijn.

2. Oplossing A: De "Balans" (Balancing)

De eerste oplossing die hij voorstelt, noemt hij Balancing (in evenwicht brengen).

De Analogie:
Stel je voor dat je een weegschaal hebt. Aan de ene kant ligt de "werkelijkheid" (de echte data) en aan de andere kant ligt wat de computer denkt. Normaal gesproken neigt de computer om de kant van zijn eigen ideeën op te gaan, waardoor de weegschaal scheef hangt.

De auteur bedacht een trucje: hij dwingt de computer om tijdens het leren ook te kijken naar de "lege kant" van de weegschaal. Hij zegt tegen de computer: "Je mag niet alleen kijken naar wat je denkt dat waar is, je moet ook rekening houden met wat er niet waar is."

Hoe werkt het in de praktijk?
Hij voegt een kleine straf toe aan de computer als hij te zeker van zijn zaak is. Dit zorgt ervoor dat de computer zijn voorspellingen iets "breder" maakt. In plaats van te zeggen: "Het is precies 5," zegt hij nu: "Het ligt waarschijnlijk ergens tussen 4 en 6."
Dit klinkt misschien minder precies, maar het is veerkrachtiger. Het voorkomt dat we een goede theorie onterecht verwerpen omdat de computer dacht dat hij het precies wist. Het is alsof je een paraplu meeneemt als er een klein beetje kans is op regen, in plaats van te hopen dat het droog blijft.

3. Oplossing B: De "Twijfelende Expert" (Bayseiaanse Neurale Netwerken)

De tweede oplossing is voor situaties waarin we heel weinig data hebben. Stel je voor dat je een nieuwe dokter bent die nog maar één patiënt heeft gezien. Als die dokter dan een diagnose stelt, is hij waarschijnlijk te zeker van zijn zaak omdat hij nog niet genoeg ervaring heeft.

De Analogie:
Normale computers zijn zoals die jonge dokter: ze leren uit voorbeelden en denken dat ze het antwoord weten. Maar Bayesiaanse Neurale Netwerken zijn zoals een dokter die altijd twijfelt en zegt: "Op basis van dit ene geval denk ik X, maar ik heb nog zoveel onzekerheid dat het ook Y of Z zou kunnen zijn."

De auteur heeft een speciale manier bedacht om deze "twijfel" in te bouwen in de computer. Hij geeft de computer een "startkennis" (een prior) die zegt: "Weet je, we weten nog niet veel, dus wees voorzichtig."
Dit zorgt ervoor dat zelfs als de computer maar heel weinig simulaties heeft gezien, hij niet direct in paniek raakt en een te zeker antwoord geeft. Hij blijft nederig en houdt rekening met de onzekerheid.

Waarom is dit belangrijk?
In de wetenschap (zoals bij het bestuderen van donkere materie of zwaartekrachtsgolven) zijn simulaties vaak extreem duur en langzaam. Je kunt ze niet 10.000 keer draaien. Je hebt misschien maar 100 keer. In die situatie is het cruciaal dat je computer niet te zelfverzekerd is. De methode met de "twijfelende expert" werkt hier wonderbaarlijk goed.

Conclusie: Waarom dit allemaal uitmaakt

De kernboodschap van dit proefschrift is simpel maar krachtig: In de wetenschap is het beter om te twijfelen dan om te zeker te zijn.

Als een computer zegt dat een theorie onmogelijk is, maar hij is eigenlijk maar een beetje zeker, dan kunnen we een heel goede theorie onterecht weggooien. Dat is slecht voor de wetenschap.

De auteur laat zien hoe we computers kunnen "leren" om nederiger te zijn:

Door ze te dwingen om in evenwicht te blijven (Balancing).
Door ze te leren om hun twijfel te tonen (Bayesiaanse netwerken).

Hierdoor worden de conclusies die wetenschappers trekken uit computersimulaties veel betrouwbaarder. Het is alsof we van een arrogante waarzegger overschakelen naar een nuchtere, eerlijke adviseur die altijd de risico's benoemt. Dat is de sleutel tot echte wetenschappelijke vooruitgang.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het proefschrift "Towards Reliable Simulation-based Inference" van Arnaud Delaunoy, geschreven in het Nederlands.

1. Probleemstelling

Wetenschappelijke kennis wordt vaak verkregen door het testen van theorieën (modellen) tegen verzamelde data. In veel complexe domeinen (zoals deeltjesfysica, kosmologie, epidemiologie) worden deze theorieën gemodelleerd als simulators. Deze simulators definiëren de likelihood-functie $p(x|\theta)$ impliciet via computercode, waardoor directe evaluatie vaak onmogelijk is.

De oplossing hiervoor is Simulation-Based Inference (SBI), waarbij machine learning-modellen worden getraind om de posterior-verdeling $p(\theta|x)$ te benaderen op basis van gesimuleerde data.

Het kernprobleem:
Bestaande SBI-algoritmen (zoals Neural Posterior Estimation, Neural Ratio Estimation) leiden vaak tot oververzekerde (overconfident) benaderingen. Dit betekent dat de geschatte onzekerheid te klein is en dat de verkregen betrouwbaarheidsintervallen (credible regions) smaller zijn dan ze zouden moeten zijn.

Gevolg: In de wetenschappelijke context, waar het doel vaak is om onjuiste theorieën te weerleggen (Popperiaanse falsificatie), kan oververzekering leiden tot het verkeerd verwerpen van geldige theorieën. Een te conservatieve benadering (te brede intervallen) is minder schadelijk dan een te oververzekerde benadering.
Oorzaak: De onzekerheid die voortkomt uit de benadering zelf (computational uncertainty) en de beperkte hoeveelheid trainingsdata wordt vaak niet correct meegenomen.

2. Methodologie

Het proefschrift introduceert een gestructureerde aanpak om de betrouwbaarheid van SBI te verbeteren, verdeeld in drie hoofdonderdelen:

A. Diagnose van Oververzekering (Hoofdstuk 4)

De auteur introduceert de verwachte dekking (expected coverage) als een diagnostisch criterium.

Definitie: Voor een gegeven betrouwbaarheidsniveau $1-\alpha $, is de verwachte dekking de kans dat de ware parameter$ \theta$ binnen de geschatte credible region valt over veel mogelijke datasets.
Ideaal: Een perfect gekalibreerde estimator heeft een verwachte dekking gelijk aan $1-\alpha$.
Observatie: Empirische tests op diverse benchmarks tonen aan dat de meeste state-of-the-art methoden (zowel amortized als non-amortized) systematisch onder de diagonale lijn liggen, wat aangeeft dat ze oververzekerde (te smalle) intervallen produceren, vooral bij kleine simulatiebudgetten.

B. Balancering (Balancing) (Hoofdstuk 5 & 6)

Om oververzekering te bestrijden, introduceert de auteur de techniek van balancering.

Concept: Bij Neural Ratio Estimation (NRE) wordt een classifier getraind om te onderscheiden tussen paren $(\theta, x)$ uit de gezamenlijke verdeling $p(\theta, x)$ en paren uit de productverdeling $p(\theta)p(x)$ .
Balancing Condition: De auteur voegt een regularisatieterm toe aan de verliesfunctie die de classifier dwingt om "gebalanceerd" te zijn. Dit betekent dat de verwachte output van de classifier over de gezamenlijke en marginale verdelingen in evenwicht is.
Theoretisch inzicht: Een gebalanceerde classifier neigt minder verzekerde (meer verspreide) posterior-benaderingen te produceren. Dit wordt geïnterpreteerd als het "dichterbij de prior komen", wat conservatiever is.
Uitbreiding: De methode wordt uitgebreid van NRE naar Neural Posterior Estimation (NPE) en Contrastive NRE (NRE-C). Voor NPE wordt een nieuwe initialisatie-strategie voorgesteld waarbij de flow wordt geïnitieerd met de prior-verdeling om het leerproces van de balancering te vergemakkelijken.

C. Bayesian Neural Networks (BNN) (Hoofdstuk 7)

Balancering vereist vaak veel trainingsdata om effectief te zijn. Voor scenario's met zeer beperkte simulaties (low-budget) wordt een alternatieve aanpak voorgesteld: Bayesian Neural Networks.

Aanpak: In plaats van een enkel netwerk te trainen, wordt een posterior over de netwerkweegs getraind. Dit kwantificeert de epistemische onzekerheid (onzekerheid door het model zelf).
Functionele Priors: De auteur ontwerpt een specifieke prior voor de netwerkweegs, gebaseerd op een Gaussian Process (GP) in functieruimte. Deze prior is zo ontworpen dat de a priori Bayesian Model Average (zonder trainingsdata) al gekalibreerd is (namelijk gelijk aan de simulator-prior).
Voordeel: Zelfs bij zeer weinig trainingsdata (bijv. 10-100 simulaties) blijven de resulterende posteriors conservatief, omdat het model de onzekerheid over de weegs expliciet meeneemt.

3. Belangrijkste Bijdragen

Empirisch Bewijs van een "Crisis": Uitgebreide benchmarks tonen aan dat bestaande SBI-methoden systematisch oververzekerde resultaten opleveren, wat een risico vormt voor wetenschappelijke conclusies.
Balanced Neural Ratio Estimation (BNRE): Een eenvoudige maar effectieve regularisatie voor NRE die de verwachte dekking verbetert en conservatievere posteriors garandeert zonder de asymptotische exactheid te verliezen.
Generalisatie van Balancering: De balanceringsvoorwaarde wordt succesvol toegepast op NPE en NRE-C, inclusief een innovatieve initialisatie voor normalizing flows.
BNN voor Low-Budget SBI: Een nieuwe framework voor het gebruik van Bayesian Neural Networks met functionele priors die specifiek zijn ontworpen voor SBI. Dit biedt een oplossing voor scenario's waar simulaties extreem duur zijn en weinig data beschikbaar is.
Diagnostische Standaardisatie: Het benadrukken en standaardiseren van "expected coverage" als een cruciale metriek voor het evalueren van SBI-algoritmen, in plaats van alleen te kijken naar de nauwkeurigheid van de dichtheidsschatting.

4. Resultaten

Balancering: Experimenten tonen aan dat BNRE en BNPE consistent boven de diagonale lijn in dekkingstesten liggen (conservatief), terwijl hun niet-gebalanceerde tegenhangers vaak eronder liggen. De statistische prestatie (log-posterior) is iets lager bij lage budgets, maar convergeert naar hetzelfde niveau bij hoge budgets.
Ensembles: Het gebruik van ensembles (deep ensembles) verbetert de dekking, maar is computationally zwaarder dan balancering.
BNN: BNN-methoden met de voorgestelde prior behouden een positieve of nul dekking (AUC) zelfs bij zeer kleine datasets (orde van 10-100), waar standaard methoden sterk oververzekerde resultaten geven.
Cosmologische Toepassing: De methode is succesvol toegepast op Quijote N-body simulaties voor het schatten van kosmologische parameters ( $\Omega_m, \sigma_8$ ), waarbij BNN's conservatieve en betrouwbare intervallen leverden met beperkte data.

5. Betekenis en Conclusie

Dit proefschrift legt een fundamentele brug tussen machine learning en statistische inferentie in de wetenschap. De belangrijkste conclusie is dat betrouwbaarheid (reliability) en conservatisme in SBI minstens zo belangrijk zijn als pure nauwkeurigheid, vooral in contexten waar het doel is om theorieën te falsificeren.

Voor de wetenschap: Het biedt wetenschappers tools om te voorkomen dat ze door artefacten van machine learning (oververzekering) verkeerde conclusies trekken over de natuur.
Voor de ML-community: Het introduceert nieuwe regularisatietechnieken (balancering) en prior-ontwerpen (functionele priors voor BNN) die specifiek gericht zijn op het verbeteren van de kalibratie van probabilistische modellen.

De auteur concludeert dat hoewel geen enkele methode 100% garantie biedt voor elke individuele observatie, de voorgestelde technieken (balancering en BNN) een grote stap zijn naar vertrouwenswaardige, wetenschappelijk bruikbare simulatie-inferentie.

Towards Reliable Simulation-based Inference

1. Het probleem: De "Zelfverzekerde Voorspeller"

2. Oplossing A: De "Balans" (Balancing)

3. Oplossing B: De "Twijfelende Expert" (Bayseiaanse Neurale Netwerken)

Conclusie: Waarom dit allemaal uitmaakt

1. Probleemstelling

2. Methodologie

A. Diagnose van Oververzekering (Hoofdstuk 4)

B. Balancering (Balancing) (Hoofdstuk 5 & 6)

C. Bayesian Neural Networks (BNN) (Hoofdstuk 7)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models