Pointwise Metrics Mislead: An Evaluation Protocol for… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Mads H. Baattrup, Jörn Bach, Laurids Jeppe, Finn Labe, Alexander Grohsjean, Christian Schwanenberger, Peer Stelldinger

Gepubliceerd 2026-05-25

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

CC BY 4.0

Oorspronkelijke auteurs: Mads H. Baattrup, Jörn Bach, Laurids Jeppe, Finn Labe, Alexander Grohsjean, Christian Schwanenberger, Peer Stelldinger

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Grote Probleem: De "Gemiddelde" Valstrik

Stel je voor dat je probeert de locatie van een verborgen schat te raden. Je hebt een kaart, maar die is een beetje wazig. Soms zit de schat zeker in de Noord-grot, en soms zeker in de Zuid-grot. Hij zit nooit in het midden.

In de wereld van de wetenschap (zoals deeltjesfysica of medische beeldvorming) gebruiken wetenschappers vaak computers om deze "raadsels" op te lossen. Al lang beoordelen ze hoe goed een computer is door één simpele vraag te stellen: "Hoe dicht ligt je gok bij het echte antwoord?"

Als de computer "Noord" raadt en de schat zit in "Noord", krijgt hij een hoge score. Als hij "Zuid" raadt en de schat zit in "Noord", krijgt hij een lage score.

Het artikel stelt dat deze manier van beoordelen kapot is wanneer er twee mogelijke antwoorden zijn (Noord en Zuid).

Als een computer gedwongen wordt om slechts één getal als antwoord te geven om zijn "foutenscore" te minimaliseren, zal hij valsspelen. In plaats van te zeggen "Het is óf Noord óf Zuid", zal hij "Midden" raden.

Waarom? Wiskundig gezien is "Midden" het gemiddelde van Noord en Zuid. De afstand van Midden naar Noord is hetzelfde als van Midden naar Zuid. Dus heeft de "Midden"-gok de laagste gemiddelde fout.
Het Probleem: De schat zit nooit in het Midden. De computer geeft een wiskundig "perfect" gemiddeld antwoord dat fysiek onmogelijk is.

Het Gevolg: Een Wazig, Vervormd Beeld

Het artikel toont aan dat wanneer wetenschappers deze "gemiddelde" scores (genaamd RMSE of MAE) gebruiken om de beste computermodellen te kiezen, ze per ongeluk modellen kiezen die de waarheid afvlakken.

Stel je voor dat je een bergketen probeert na te maken vanuit wazige foto's.

De Waarheid: Twee scherpe, duidelijke pieken (Noord en Zuid).
Het "Gemiddelde" Model: Het tekent één enkele, brede, vlakke heuvel in het midden.

Als je naar de "vlakke heuvel" kijkt, lijkt hij misschien dichter bij de foto's dan de scherpe pieken, dus krijgt de computer een betere score. Maar als je die vlakke heuvel gebruikt om een skigebied te bouwen, zit je in grote problemen omdat er geen echte pieken zijn om op te skiën.

In de wetenschap bevatten deze "pieken" en "staarten" van de data de belangrijkste geheimen (zoals de massa van een nieuw deeltje). Door de computer te dwingen één enkel "gemiddeld" antwoord te geven, vegen we per ongeluk de belangrijkste details weg, waardoor onze wetenschappelijke metingen verkeerd worden.

De Oplossing: Een Nieuwe Drie-Stappen Test

De auteurs stellen een nieuwe manier voor om deze computers te testen, zoals een rijexamen met drie verschillende onderdelen in plaats van slechts één.

1. De "Volledige Kaart" Test (CRPS)
In plaats van te vragen om slechts één gok, vragen we de computer om de hele kaart van mogelijkheden te tekenen.

Analogie: In plaats van te vragen "Is de schat Noord of Zuid?", vragen we: "Teken de waarschijnlijkheidskaart."
Een goed model tekent twee duidelijke vlekken (één voor Noord, één voor Zuid). Een slecht model tekent één grote vlek in het midden. Deze test beloont modellen die toegeven: "Ik weet niet precies welke het is, maar ik weet dat het één van deze twee is."

2. De "Menigte" Test (Spectrum Fidelity)
We kijken naar de resultaten van 10.000 gokken allemaal samen.

Analogie: Als je 1.000 mensen vraagt waar de schat zit, en 500 zeggen Noord en 500 zeggen Zuid, krijg je een perfect beeld van de twee grotten. Als het "gemiddelde" model wordt gebruikt, zegt iedereen "Midden", en krijg je een beeld van één enkele, nep-grot.
Deze test controleert of de verzameling van gokken lijkt op de echte wereld, niet alleen of individuele gokken dichtbij zijn.

3. De "Zekerheid" Test (Calibratie)
We controleren of de computer eerlijk is over hoe zeker hij is.

Analogie: Als een weer-app zegt dat er 90% kans is op regen, moet het 90% van de tijd regenen. Als het 90% zegt maar het regent maar 50% van de tijd, liegt de app over zijn zekerheid.
Deze test zorgt ervoor dat de computer niet zomaar wild gokt, maar echt zeker is op de juiste plekken.

Wat Ze Vonden

De auteurs testten deze nieuwe methode op twee dingen:

Een nep wiskundig probleem waarbij ze het exacte antwoord kenden.
Een echt fysica-probleem met top-quarks (kleine deeltjes) waarbij twee neutrino's (spookdeeltjes) ontsnappen aan detectie, waardoor de wiskunde erg lastig wordt.

Het Schokkende Resultaat:
De modellen die leken op de "winnaars" onder de oude "Gemiddelde" test (diegenen die het enkele, vlakke, middelste antwoord gaven), waren eigenlijk de slechtste in het behouden van de ware vorm van de data.

De modellen die de "rommelige" twee-vlekken antwoorden gaven (diegenen die er onder de oude test slechter uitzagen), waren eigenlijk de beste in het vertellen van de waarheid.

De Conclusie

Het artikel concludeert dat hoe je succes meet, bepaalt wat je vindt.

Als je alleen meet "hoe dicht ligt de gok bij de waarheid", bouw je modellen die de interessante, complexe delen van de realiteit wissen. Om het juiste wetenschappelijke antwoord te krijgen, moet je stoppen met vragen om één getal en beginnen met vragen om het volledige verhaal van mogelijkheden.

Kortom: Vraag niet alleen, "Hoe dicht zat je?" Vraag: "Heb je het hele verhaal verteld?"

Probleemstelling

Bij wetenschappelijke reconstructie (bijvoorbeeld in de deeltjesfysica, medische beeldvorming en geofysica) wordt evaluatie momenteel gedomineerd door puntmatige metrieken zoals de Root-Mean-Squared-Error (RMSE), Mean-Absolute-Error (MAE) en resolutie per gebeurtenis. Deze metrieken werken onder de impliciete aanname dat een lagere fout leidt tot een betere reconstructie.

De auteurs betogen dat deze aanname structureel faalt voor onderbeperkte inverse problemen waarbij de conditionele posterior $p(z|x)$ multimodaal is. In dergelijke scenario's is de optimale voorspeller onder MSE de conditionele verwachting $E[z|x]$ . Voor multimodale posterieuren valt deze verwachting vaak in gebieden met een verdwijnende waarschijnlijkheidsdichtheid (tussen de modi). Bijgevolg produceren modellen die zijn getraind om puntmatige fouten te minimaliseren voorspellingen die individueel "onfysisch" zijn en die, wanneer ze worden geaggregeerd, het marginale spectrum van de latente variabele $z$ systematisch comprimeren. Deze compressie vervormt de staarten, modi en vormen van verdelingen, wat precies de kenmerken zijn waarop downstream wetenschappelijke metingen vertrouwen.

Theoretische Grondslag

Het artikel stelt een theoretisch argument op basis van de Wet van de Totale Variantie:
$\text{Var}[z] = E[\text{Var}[z|x]] + \text{Var}[E[z|x]]$
De auteurs tonen aan dat voor elke punt-schatter $f_\theta(x)$ die convergeert naar het conditionele gemiddelde $E[z|x]$ , de variantie van de voorspellingen $\text{Var}[E[z|x]]$ strikt kleiner is dan of gelijk is aan de ware marginale variantie $\text{Var}[z]$ , waarbij gelijkheid alleen geldt als de posterior een breedte van nul heeft.

Implicatie: Punt-schatters produceren inherent een marginale spectrum dat smaller is dan de waarheid. Dit is een bias, geen variantieterm, wat betekent dat het niet afneemt bij grotere datasetgroottes.
Gevolg: Het evalueren van modellen uitsluitend op basis van puntmatige metrieken beloont actief het onderdrukken van posterior-structuur en straft modellen die deze behouden, wat leidt tot bevooroordeelde wetenschappelijke conclusies.

Methodologie: Een driepartij-evaluatieprotocol

Om deze faalmodi aan te pakken, stellen de auteurs een protocol met drie metrieken voor, waarbij elke metriek een specifiek tekort aanpakt dat door de andere wordt gemist:

Verdelingsnauwkeurigheid per Gebeurtenis (CRPS):
- Gebruikt de Continuous Ranked Probability Score (CRPS), een strikt juiste scoringsregel.
- In tegenstelling tot RMSE/MAE wordt CRPS alleen geminimaliseerd wanneer de voorspellende verdeling overeenkomt met de ware posterior. Het straalt "posterior collapse" (het voorspellen van een enkel punt in een multimodale ruimte) af in plaats van het te belonen.
- Het reduceert tot MAE voor punt-schatters, waardoor een eerlijke vergelijking tussen generatieve en regressiemodellen mogelijk is.
Fideliteit van het Populatie-niveau Spectrum:
- Evalueert de marginale verdeling $p(z)$ over de hele dataset, wat de grootheid van belang is voor downstream fysica.
- Gebruikt een gebinde $\chi^2$ -statistiek die de histogram van voorspelde waarden vergelijkt met de ware waarden.
- Deze metriek detecteert de systematische compressie van spectrale kenmerken (staarten en modi) die puntmatige metrieken missen.
Betrouwbaarheid van Onzekerheid (Calibratie):
- Beoordeelt of de breedte van de voorspelde posterior betrouwbaar is met behulp van conformale voorspelling om dekkingcurves te genereren.
- Een perfect gekalibreerd model produceert een dekkingcurve die de diagonaal volgt (empirische dekking gelijk aan het nominale betrouwbaarheidsniveau).
- Dit onderscheidt modellen die slechts scherp (smal) zijn van die welke zowel scherp als gekalibreerd zijn.

Belangrijkste Bijdragen

Theoretisch Bewijs: Aangetoond dat elke punt-schatter die MSE of MAE minimaliseert, een marginale spectrum produceert dat strikt smaller is dan de waarheid, zolang de posterior een niet-nul variantie heeft, ongeacht architectuur of datasetgrootte.
Evaluatieprotocol: Geïntroduceerd een unificerend protocol (CRPS, Spectrum Fideliteit, Calibratie) toepasbaar op regressie-, mengsel- en generatieve modelfamilies.
Empirische Validatie: Aangetoond dat de rangschikking van modellen omkeert tussen puntmatige en verdelingsmetrieken op zowel synthetische als real-world benchmarks.

Experimentele Resultaten

Benchmark I: Synthetisch Invers Probleem

Opzet: Een gecontroleerd probleem met een analytisch hanteerbare bimodale posterior ( $x = z^2 + \epsilon$ ).
Vondsten:
- Een standaard Regression MLP behaalde de laagste RMSE, maar liet het marginale spectrum instorten tot een piek bij nul (het conditionele gemiddelde), waardoor het de bimodale waarheid niet kon weergeven.
- Generatieve modellen (Normalizing Flows, Mixture Density Networks) hadden een hogere RMSE maar behaalden een bijna perfecte CRPS en spectrale fideliteit ( $\chi^2_{spec}$ dicht bij de vrijheidsgraden).
- Het middelen van de posterior-steekproeven van de Normalizing Flow herstelde de slechte RMSE en spectrale vervorming van de Regression, wat bevestigt dat de Regression simpelweg het conditionele gemiddelde van de Flow is.

Benchmark II: Deeltjesfysica (Reconstructie van Top-Quarks)

Opzet: Reconstructie van top-quark paren uit dileptonische verval (een veel-tot-een invers probleem met combinatorische ambiguïteit en ontbrekende neutrino's).
Vondsten:
- Puntmatige Metrieken: Een Transformer getraind met pure MSE behaalde de beste RMSE. Een Transformer met MMD (Marginal Maximum Mean Discrepancy) regularisatie presteerde iets slechter.
- Verdelingsmetrieken: De rangschikking keerde om. Een Discrete Normalizing Flow domineerde op CRPS en spectrale fideliteit. De Transformers, zelfs met MMD regularisatie, slaagden er niet in per-gebeurtenis multimodaliteit te corrigeren, wat resulteerde in enorme $\chi^2_{spec}$ -waarden (ordes van grootte slechter dan flows).
- Calibratie: Waar CRPS en spectrale fideliteit de flows onderscheidden van transformers, onderscheidde calibratie de twee flow-architecturen van elkaar. De Discrete Flow (exacte likelihood) was goed gekalibreerd, terwijl de Continuous Flow (benaderde ODE-gebaseerde likelihood) systematisch onderdekte, een onderscheid dat onzichtbaar was voor CRPS alleen.

Betekenis en Beweringen

Het artikel beweert dat het evaluatieprotocol, niet het model, de wetenschappelijke conclusie bepaalt. Door te vertrouwen op puntmatige metrieken heeft de wetenschappelijke gemeenschap onbedoeld modellen begunstigd wier gereconstrueerde spectra geen ondersteuning kunnen bieden voor downstream metingen.

Structurele Misalignering: De auteurs stellen dat puntmatige metrieken structureel misaligneren met de doelen van wetenschappelijke reconstructie in multimodale settings.
Noodzaak van het Protocol: Het voorgestelde drie-stappenprotocol is noodzakelijk om onderscheiden tussen architecturen bloot te leggen die onder standaardmetrieken identiek lijken (bijvoorbeeld het onderscheiden van exacte en benaderde likelihood flows via calibratie).
Domeinonafhankelijkheid: De bevindingen zijn van toepassing op elk invers probleem met een niet-verwaarloosbare posterior-variantie (bijvoorbeeld faseherwinning, kosmologische inferentie), en niet alleen op de specifieke geteste benchmarks.

De auteurs concluderen dat zorgvuldige evaluatie met dit protocol de bias van een evaluatie die uitsluitend puntmatige metrieken gebruikt zichtbaar maakt, en practitioners een basis voor vergelijking biedt waarop wetenschappelijke conclusies kunnen rusten. Zij merken op dat hoewel hun bevindingen robuust zijn, de absolute prestatiewaarden specifiek zijn voor hun experimentele opzet, en dat de omkering van de rangschikking zelf het robuuste, generaliseerbare resultaat is.

Pointwise Metrics Mislead: An Evaluation Protocol for Multimodal Inverse Problems