A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een weerman bent die voorspelt of het morgen gaat regenen. Je zegt niet: "Het gaat zeker regenen" of "Het gaat zeker niet regenen", maar je geeft een kans: "Er is 70% kans op regen."

Nu moet jij een beslissing nemen: moet ik een paraplu meenemen?

Als je de paraplu neemt en het regent niet, heb je een beetje ongemak (je bent zwaar).
Als je de paraplu niet neemt en het regent wel, word je nat en kun je ziek worden.

Deze afweging tussen "ongemak" en "ziek worden" is precies waar dit paper over gaat. Het is een kritiek op hoe we machine learning-modellen (zoals die weerman) testen in de echte wereld.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Vaste Maatstaf" is Slecht

Op dit moment testen onderzoekers hun modellen vaak met een simpele, starre maatstaf: Accuracy (hoe vaak had je gelijk?).

De analogie: Stel je voor dat je een dokter test die kanker moet detecteren. De test zegt: "Deze dokter had in 95% van de gevallen gelijk."
Het probleem: Wat als de dokter in die 5% van de gevallen die hij fout had, de kanker over het hoofd zag? Dat is rampzalig. Maar als hij in die 5% onnodig een patiënt heeft laten opereren, is dat ook slecht, maar misschien minder erg.
De conclusie: Een simpele "hoe vaak had je gelijk?"-score behandelt alle fouten als gelijkwaardig. Alsof het even erg is om een onschuldig persoon de gevangenis in te sturen als om een schuldige vrij te laten. In de echte wereld is dat niet zo.

2. De Oplossing: Kijk naar de Gevolgen (Consequentialisme)

De auteurs zeggen: "Stop met kijken naar het cijfer, en kijk naar de gevolgen."
Ze noemen dit een consequentialistische kijk.

De analogie: In plaats van te vragen "Hoe vaak had je gelijk?", moeten we vragen: "Wat is de totale schade als we dit model gebruiken?"
Als we een model gebruiken om te beslissen wie een lening krijgt, moeten we weten: Is het erger om een betrouwbare klant af te wijzen (hij wordt boos) of een onbetrouwbare klant te accepteren (hij betaalt niet terug)? Die twee fouten kosten heel wat anders.

3. De Huidige Praktijk: Een Verkeerde Kaart

De auteurs hebben gekeken naar duizenden wetenschappelijke papers (zoals ICML, FAccT).

Het resultaat: De meeste mensen gebruiken nog steeds de oude, simpele kaarten (Accuracy of AUC-ROC).
Het probleem: Die kaarten zijn gemaakt voor situaties waar je alle fouten even zwaar weegt, of waar je een vaste hoeveelheid mensen moet selecteren (bijvoorbeeld: "We hebben precies 100 ICU-bedden, wie krijgen we?").
Maar in de echte wereld (bijvoorbeeld in de zorg of justitie) weten we vaak niet precies wat de drempel is. We weten niet of een risico van 10% of 20% de grens is om in te grijpen. We weten het gewoon niet zeker.

4. De Nieuwe Tool: De "Bounded" Score

De auteurs hebben een nieuwe manier bedacht om modellen te testen die rekening houdt met deze onzekerheid.

De analogie: Stel je voor dat je een thermometer hebt. De oude manier was: "Hoe goed is de thermometer als je hem in de vriezer, de oven en de kamer gebruikt?" (Dat is te breed).
De nieuwe manier is: "Hoe goed is de thermometer als je hem gebruikt om te koken (tussen 180 en 200 graden)?"
Ze noemen dit Bounded Threshold Scoring. Ze zeggen: "We weten niet precies waar de grens ligt, maar we weten dat hij ergens tussen 10% en 20% ligt. Laten we het model alleen testen op die specifieke range."

5. Het Gereedschap: `briertools`

Om dit makkelijker te maken, hebben ze een gratis computerprogramma gemaakt genaamd briertools.

De analogie: Voorheen moest je een wiskundige zijn om te berekenen of een model goed werkt voor jouw specifieke situatie. Met briertools is het alsof je een app op je telefoon downloadt die automatisch berekent: "Als je drempel tussen X en Y ligt, dan is dit model het beste."

Samenvatting in één zin

Dit paper zegt: "Stop met het testen van modellen met simpele cijfers die alle fouten gelijk behandelen; gebruik in plaats daarvan slimme tools die kijken naar de echte schade en de onzekerheid over de beslissingsgrens, zodat we betere keuzes maken in het echte leven."

Kortom: Het is een pleidooi om te stoppen met het meten van "wiskundige perfectie" en te beginnen met het meten van "praktische nuttigheid".

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools" in het Nederlands.

Probleemstelling

Machine learning-modellen voor binaire classificatie (bijv. het voorspellen van ziekte of recidief) genereren vaak probabilistische voorspellingen die moeten worden omgezet in binaire beslissingen door een drempelwaarde ( $\tau$ ) te kiezen. De huidige evaluatiepraktijk in het machine learning-veld (geanalyseerd op conferenties zoals ICML, FAccT en CHIL) vertoont een fundamentele misalignement met de realiteit van de implementatie:

Dominantie van ongeschikte metrics: De meeste studies gebruiken metrics zoals Accuracy of AUC-ROC.
- Accuracy veronderstelt impliciet dat de kosten van vals-positieven en vals-negatieven gelijk zijn ( $c=0.5$ ), wat zelden het geval is in kritieke domeinen zoals gezondheidszorg of justitie.
- AUC-ROC is een rangschikkingsmetric die de prestaties over alle mogelijke drempels middelt, maar deze middeling wordt gewogen door de verdeling van de modelvoorspellingen zelf, in plaats van door de werkelijke kosten van beslissingen.
Onzekerheid over drempels: In de praktijk is de optimale drempelwaarde vaak onbekend tijdens het selecteren van het model (bijv. omdat er geen consensus is over de aanvaardbare risico's voor een patiënt). Bestaande metrics gaan echter vaak uit van een vaste drempel of middelen over een onrealistisch breed spectrum van kosten.
Kritiek op Proper Scoring Rules: Hoewel proper scoring rules (zoals de Brier-score en Log Loss) theoretisch superieur zijn omdat ze de kwaliteit van de probabilistische voorspelling direct meten, worden ze zelden gebruikt (<15% van de papers). Een veelgehoorde kritiek (Assel et al., 2017) is dat deze scores te veel gewicht geven aan onrealistische drempelwaarden die in de klinische praktijk nooit voorkomen.

Methodologie

De auteurs hanteren een consequentialistische perspectief uit de decision-theorie. In plaats van alleen kijken naar voorspellingnauwkeurigheid, evalueren ze modellen op basis van de verwachte kosten (regret) van de beslissingen die eruit voortvloeien.

Formalisatie van Regret:
- Ze definiëren een kostenmodel waarbij een vals-positief een directe kosten $C$ heeft en een vals-negatief een downstream kosten $L$ . De relatieve kostenratio is $c = C/L$ .
- Regret ( $R$ ) wordt gedefinieerd als het verschil tussen de kosten van het model en de ideale kosten (zero-cost baseline) bij een gegeven drempel $c$ .
- Ze tonen aan dat veel standaard metrics in feite verwachte regret zijn over specifieke verdelingen van $c$ $c$ :
  - Accuracy = Regret bij $c=0.5$ .
  - Brier-score = Uniforme gemiddelde regret over $c \in [0, 1]$ .
  - Log Loss = Gewogen gemiddelde regret, met zwaar gewicht op extreme waarden van $c$ .
Taxonomie van Beslissingscontexten:
De auteurs introduceren een framework gebaseerd op twee factoren:
- Instance Coupling: Zijn beslissingen onafhankelijk (elk geval apart) of gekoppeld aan een vast budget (Top-K, bijv. beperkte ICU-bedden)?
- Drempel Specificiteit: Is de drempel exact bekend of onzeker/begrensd?
Nieuwe Theoretische Afleidingen:
- Bounded Threshold Scoring Rules: Om de kritiek van Assel et al. te adresseren, leiden de auteurs afgeleide versies van de Brier-score en Log Loss af die regret middelen over een begrensde interval $[a, b]$ in plaats van het volledige interval $[0, 1]$ .
- Ze bewijzen dat deze "geclipte" scores wiskundig equivalent zijn aan het gemiddelde van de Net Benefit (zoals gebruikt in Decision Curve Analysis, DCA) over dat specifieke interval.
- Ze tonen aan dat DCA en Brier-score in dezelfde familie vallen, maar dat DCA puntsgewijs is terwijl de bounded scores een principieel gemiddelde bieden voor onzekere drempels.
Praktische Implementatie:
- De auteurs ontwikkelen een Python-package genaamd briertools.
- Dit pakket implementeert de bounded-threshold metrics en visualisaties (zoals regret-curves) om de drempel voor gebruik te verlagen.
- Het pakket maakt ook decompositie mogelijk van fouten in calibratie en discriminatie op een gemeenschappelijke schaal.

Belangrijkste Bijdragen

Theoretisch:
- Afleiding van Bounded Threshold Brier Score en Log Loss. Deze metrics evalueren modellen alleen over een plausibel bereik van kostenratio's (bepaald door domeinexperts), waardoor ze relevanter zijn voor specifieke toepassingen dan de standaard Brier-score.
- Reconciliatie van Proper Scoring Rules met Decision Curve Analysis (DCA). Ze tonen aan dat DCA een puntsgewijze benadering is, terwijl bounded scoring rules een geaggregeerde, maar betekenisvolle, evaluatie bieden voor onzekere drempels.
- Een unificerend framework dat alle evaluatiemetrics interpreteert als gewogen gemiddelden van regret.
Empirisch:
- Een uitgebreide analyse van 2.610 papers (ICML, FAccT, CHIL 2024) die aantoont dat er een systematische mismatch is tussen de gebruikte metrics en de werkelijke implementatiecontexten.
- Een case study op borstkanker-risicovoorvoorspelling. Hierin wordt aangetoond dat een model dat slechter scoort op globale metrics (zoals AUC-ROC en standaard Brier), beter presteert binnen het klinisch relevante drempelbereik (1.66% - 3%) wanneer de bounded-threshold metrics worden gebruikt. Dit leidt tot een andere modelselectie.
Praktisch:
- Publicatie van briertools, een open-source bibliotheek die practitioners in staat stelt bounded scoring rules en regret-analyses eenvoudig toe te passen.

Resultaten

Analyse van Literatuur: Accuracy domineert in algemene ML-conferenties (>50%), terwijl AUC-ROC dominant is in gezondheidszorg (CHIL). Proper scoring rules (Brier, Log Loss) worden zelden gebruikt (<15%), ondanks hun theoretische superioriteit voor onafhankelijke beslissingen.
Case Study: In het borstkanker-scenario presteerde een XGBoost-model met een interne drempel van 2% slechter op globale metrics dan een standaard model. Echter, bij evaluatie binnen het klinisch relevante interval [1.66%, 3%] (via de bounded Brier-score) bleek dit model superieur. Dit illustreert dat globale metrics modellen kunnen straffen die juist goed zijn voor de specifieke toepassing.
Decompositie: De tool laat zien dat een model met een hogere AUC maar slechte calibratie vaak inferieur is aan een model met iets lagere AUC maar uitstekende calibratie, wat met standaard metrics vaak onzichtbaar blijft.

Significantie

Dit paper biedt een cruciale correctie op de huidige evaluatiepraktijk in machine learning. Het stelt dat het kiezen van een evaluatiemetric geen neutrale keuze is, maar een impliciete keuze voor een kostenstructuur en een beslissingscontext.

Voor de Theorie: Het lost een langdurig debat op tussen voorstanders van Brier-scores en Decision Curve Analysis door te tonen dat ze complementair zijn en dat de keuze afhangt van de onzekerheid over de drempelwaarde.
Voor de Praktijk: Het biedt een concrete oplossing voor het "threshold dilemma". Practitioners hoeven niet langer een exacte drempel te kiezen om een model te evalueren; ze kunnen in plaats daarvan een plausibel interval specificeren (bijv. gebaseerd op klinische richtlijnen) en de bounded metrics gebruiken.
Impact: Door de introductie van briertools en de theoretische onderbouwing, wordt het makkelijker om modellen te selecteren die daadwerkelijk de beste beslissingen nemen in de realiteit, in plaats van modellen die alleen goed scoren op abstracte, vaak misleidende metrics. Dit is vooral belangrijk in hoog-risico domeinen zoals gezondheidszorg en justitie.

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

1. Het Probleem: De "Vaste Maatstaf" is Slecht

2. De Oplossing: Kijk naar de Gevolgen (Consequentialisme)

3. De Huidige Praktijk: Een Verkeerde Kaart

4. De Nieuwe Tool: De "Bounded" Score

5. Het Gereedschap: briertools

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

5. Het Gereedschap: `briertools`