LOCUS: A Distribution-Free Loss-Quantile Score for Risk-Aware Predictions

Each language version is independently generated for its own context, not a direct translation.

Locus: De "Weerwaarschuwing" voor Machine Learning

Stel je voor dat je een zeer slimme voorspeller hebt, bijvoorbeeld een app die de prijs van een huis voorspelt. Over het algemeen is deze app fantastisch: hij heeft een gemiddelde fout van slechts een paar duizend euro. Maar in de echte wereld telt niet het gemiddelde, maar de enkele fout. Wat als de app een huis van €200.000 voorspelt als €1.000.000? Dat is een ramp, zelfs als de app de rest van de tijd perfect is.

De huidige slimme modellen kunnen ons vaak vertellen hoe zeker ze zijn (bijvoorbeeld: "Ik weet het niet zeker, de uitkomsten variëren veel"). Maar dat is niet hetzelfde als weten of de voorspelling veilig is om op te vertrouwen.

Hier komt Locus om de hoek kijken. Locus is een nieuwe methode die als een slimme "wrapper" (een omhulsel) om bestaande modellen werkt. Het vertaalt complexe statistieken naar één simpel, begrijpelijk getal: een risico-score op de schaal van de fout zelf.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het Probleem: De "Verkeerde Zekerheid"

Stel je voor dat je een weersvoorspeller hebt.

De oude manier (Onzekerheid): De voorspeller zegt: "De temperatuur varieert tussen 10 en 20 graden." Dat klinkt onzeker, maar het zegt niets over of het regent of stormt.
Het probleem: Soms is de variatie klein (het is altijd 15 graden), maar als je model verkeerd is, kan het toch 15 graden zijn terwijl het eigenlijk een ijskoude storm is. De "variatie" zegt je niet of je nat wordt.

Locus kijkt niet naar de variatie van de temperatuur, maar direct naar de grootte van de fout. Het vraagt: "Als ik deze voorspelling doe, wat is de kans dat ik er €10.000 naast zit?"

2. De Oplossing: De "Weerwaarschuwing" (Locus)

Locus werkt in drie simpele stappen, alsof je een weersvoorspelling calibreren met een historisch dagboek:

De Voorspeller: Je hebt je bestaande model (bijv. een huisprijzen-app).
De "Testrit" (Calibratie): Je neemt een stapel oude data waar je de uitkomsten al kent. Je kijkt niet naar de voorspellingen zelf, maar naar de fouten die gemaakt zijn.
- Analogie: Je kijkt in je dagboek: "Toen ik dacht dat het 15 graden was, was het eigenlijk 5 graden. Dat was een fout van 10 graden."
De Score: Locus berekent voor elke nieuwe situatie een getal: "De maximale fout die je met 90% zekerheid kunt verwachten."

Dit getal is je Locus-score.

Als de score laag is (bijv. €5.000), betekent het: "Deze voorspelling is veilig, de fout zal waarschijnlijk klein blijven."
Als de score hoog is (bijv. €150.000), betekent het: "Pas op! Hoewel het model misschien zeker lijkt, is de kans groot dat de fout enorm is."

3. De "Rode Vlag" (Flagging)

Het echte krachtige deel is dat je een drempel kunt stellen. Stel, je kunt geen fouten maken die groter zijn dan €50.000 (dat is je "tolerantie").

Regel: "Als de Locus-score hoger is dan €50.000, zet dan een rode vlag."
Resultaat: De voorspelling wordt niet gebruikt, of een mens moet het nakijken.

Het mooie is: Locus garandeert wiskundig dat als je deze regel volgt, je niet meer dan een klein percentage (bijv. 10%) van de "veilig gekeurde" voorspellingen toch een enorme fout zult maken. Het is alsof je zegt: "Ik heb een paraplu meegebracht als de kans op regen boven de 10% ligt. Als ik de paraplu niet gebruik, is de kans dat ik nat word kleiner dan 10%."

Waarom is dit zo speciaal?

Onafhankelijk van het model: Het maakt niet uit of je een heel complex AI-model of een simpele formule gebruikt. Locus werkt met alles.
Geen "Gokken": Veel methoden zeggen: "Het model is onzeker." Locus zegt: "Het model is gevaarlijk." Het vertaalt onzekerheid direct naar geld of schade.
Slimme aanpassing: Locus weet dat als het model in een gebied werkt waar het weinig data heeft (bijvoorbeeld een heel nieuw type huis), het zich conservatiever moet opstellen. Het verhoogt dan automatisch de waarschuwing, zelfs als de statistische variatie laag lijkt.

Samenvattend

Locus is als een veiligheidscontroleur voor AI. In plaats van te vertrouwen op het gemiddelde, kijkt het naar de ergste mogelijke scenario's voor elke individuele beslissing. Het geeft je een duidelijk signaal: "Dit is veilig om te doen" of "Dit is te riskant, stop en check dit handmatig."

Dit zorgt ervoor dat AI-systemen niet alleen slim zijn, maar ook verantwoord en betrouwbaar in de echte wereld, waar grote fouten vaak veel geld of veiligheid kosten.

Each language version is independently generated for its own context, not a direct translation.

Titel: Locus: Een distributie-vrije loss-quantile score voor risicobewuste voorspellingen

Auteurs: Matheus Barreto, Mário de Castro, Thiago R. Ramos, Denis Valle, en Rafael Izbicki.

1. Het Probleem

Moderne machine learning-modellen kunnen gemiddeld zeer nauwkeurig zijn, maar in de praktijk worden ze vaak één beslissing per keer beoordeeld. In toepassingen zoals klinische besluitvorming, krediet scoring en autonome systemen kunnen zeldzame maar catastrofale fouten de totale kosten van automatisering domineren.

De kernuitdagingen zijn:

Heterogeniteit van fouten: Voorspellingsfouten zijn niet uniform; ze variëren sterk per input.
Tekortkomingen van huidige methoden: Standaard prestatie-maatstaven (zoals RMSE of AUC) zijn globaal en geven geen inzicht in het risico van een enkele voorspelling.
Misleiding door onzekerheidsscores: Bestaande methoden gebruiken vaak proxies voor onzekerheid (zoals voorspellende variantie, entropie of ensemble-disagreement) om fouten te flaggen. Het paper toont aan dat deze proxies slecht gecorreleerd kunnen zijn met de daadwerkelijke verliesfunctie (loss) die in de praktijk telt. Een model kan bijvoorbeeld in een gebied met lage variantie (aleatorische onzekerheid) toch een enorme fout maken als het model daar slecht gefit is (epistemische onzekerheid of modelbias).

Het doel is een methode te ontwikkelen die per input een score geeft die direct interpreteerbaar is in termen van het verwachte verlies, met garanties dat grote fouten zeldzaam blijven binnen de groep van "vertrouwde" voorspellingen.

2. Methodologie: Locus

Locus (Loss Output using Calibrated Uncertainty Scores) is een distributie-vrije wrapper die elke bestaande voorspeller $g(x)$ omzet in een betrouwbaarheidsscore gebaseerd op de gerealiseerde verliesverdeling.

De methode werkt in drie stappen:

Stap 1: Data splitsing en modellering van het verlies

In plaats van de verdeling van de label $Y|X$ te modelleren, modelleert Locus direct de verdeling van het gerealiseerde verlies $Z = L(g(X), Y)$ .

De kalibratiedata wordt opgesplitst in twee sets: $D_1$ (voor het trainen van een probabilistisch model) en $D_2$ (voor calibratie).
Op $D_1$ wordt een probabilistisch model gefit voor $Z|X$ . Dit kan een Bayesiaans model zijn (bijv. BART, MC Dropout met Mixture Density Networks) dat een voorspellende cumulatieve verdelingsfunctie (CDF), genoteerd als $\hat{F}(\cdot | x)$ , oplevert.
Epistemische onzekerheid: Om gebieden met weinig data (extrapolatie) te behandelen, introduceert Locus een "inflatie"-mechanisme. Door een trimming-level $\gamma(x)$ te gebruiken dat afhangt van de lokale dichtheid (via k-NN afstanden), wordt de voorspellende CDF conservatiever in data-scarce regio's. Dit zorgt ervoor dat de bovengrens van het verlies opblaast waar het model minder zeker is.

Stap 2: Distributie-vrije calibratie (Split-Conformal)

Om de voorspellingen van het probabilistische model te kalibreren zonder aannames over de juiste modelspecificatie, wordt een Split-Conformal aanpak gebruikt op $D_2$ :

Voor elke datapunt in $D_2$ wordt de Probability Integral Transform (PIT) waarde berekend: $W_i = \hat{F}(Z_i | X_i)$ .
Een kritieke drempelwaarde $t_{1-\alpha}$ wordt bepaald als het $(1-\alpha)$ -quantiel van deze PIT-waarden.
De uiteindelijke score $U_\alpha(x)$ wordt gedefinieerd als de inverse CDF op deze drempel:
$U_\alpha(x) = \hat{F}^{-1}(t_{1-\alpha} | x)$
Interpretatie: $U_\alpha(x)$ is een geschatte bovengrens voor het verlies bij input $x$ met een betrouwbaarheid van $1-\alpha$ .

Stap 3: Flagging-regels

Gebruikers kunnen een tolerantiedrempel $\tau$ specificeren (wat een onaanvaardbare fout is).

Regel: Accepteer de voorspelling als $U_\alpha(x) \leq \tau$ , anders flag (verwerp/controleer) deze.
Garantie: Het paper bewijst (Theorema 3) dat deze regel distributie-vrije controle biedt over "vertrouwde maar slechte" gebeurtenissen:
$P(Z > \tau, X \in \text{geaccepteerd}) \leq \alpha$
Dit betekent dat het aandeel van de geaccepteerde voorspellingen dat toch een grotere fout dan $\tau$ maakt, wiskundig gegarandeerd onder $\alpha$ blijft (in eindige steekproeven).

Er is ook een optie om de drempel $\lambda$ te tunen (Locus-Tuned) om een specifieke conditionele overschrijdingskans te bereiken, zelfs als dit afwijkt van de standaard $\lambda = \tau$ .

3. Belangrijkste Bijdragen

Loss-gecentreerde score: Locus verschuift de focus van onzekerheid over het label ( $Y$ ) naar onzekerheid over het daadwerkelijke verlies ( $Z$ ). Dit maakt de score direct interpreteerbaar in de eenheid van de kostenfunctie (bijv. dollars of absolute fout).
Distributie-vrije garanties: De methode biedt strikte, eindige steekproef-garanties voor de controle van grote fouten, zonder aan te nemen dat het onderliggende probabilistische model correct gespecificeerd is.
Interpreteerbaarheid: De score $U_\alpha(x)$ kan direct worden vergeleken met een operationele drempel $\tau$ . Een score van $100$ betekent bijvoorbeeld dat het verlies met 90% waarschijnlijkheid onder de 100 ligt.
Epistemische-aware inflatie: Een innovatief mechanisme om conservatiever te zijn in data-scarce gebieden zonder de calibratie-garanties te schenden.
Empirische validatie: Uitgebreide tests op 13 regressie-datasets tonen aan dat Locus effectiever is in het ranken van risico's en het verminderen van grote fouten vergeleken met standaard methoden zoals Isolation Forests of variantie-gebaseerde baselines.

4. Resultaten

De auteurs testten Locus op 13 standaard regressiedatasets (o.a. huisprijzen, fietsverhuur, supergeleidbaarheid).

Vergelijking met baselines: Locus presteerde consistent beter dan:
- IFlag: Isolation Forest (OOD-detectie), die vaak fouten mist die niet "uitbijters" zijn in de inputruimte.
- VARNet: Een schatting van de label-variantie, die faalt wanneer het model zelf slecht gefit is in gebieden met lage data-variantie.
Kernbevinding: Bij een vastgehouden acceptatiepercentage (bijv. 70% van de data accepteren), had Locus een aanzienlijk lagere frequentie van grote fouten ( $P(Z > \tau | \text{geaccepteerd})$ ) dan de baselines.
Case Study (Huisprijzen): In een voorbeeld met huisprijzen toonde Locus aan dat een voorspelling met een lage geschatte variantie (dus "zeker" volgens traditionele methoden) toch een enorm verlies kon hebben door een lokale misfit van het model. Locus flagde deze correct als risicovol, terwijl de variantie-methode dit over het hoofd zag.

5. Betekenis en Impact

Locus biedt een praktische en wiskundig robuuste oplossing voor het probleem van "risicobewuste AI".

Operationele bruikbaarheid: Het lost het probleem op dat onzekerheidsscores vaak abstract zijn en niet direct vertaalbaar naar bedrijfsrisico's. Door de score direct in "verlies-eenheden" uit te drukken, kunnen besluitvormers direct zien of een voorspelling veilig is.
Veiligheid: De distributie-vrije garanties zijn cruciaal voor veiligheidskritische toepassingen, waar men geen vertrouwen mag hebben in de correctheid van het onderliggende probabilistische model, maar wel garanties nodig heeft over de maximale fouten.
Flexibiliteit: De methode is een "wrapper" die werkt met elke bestaande voorspeller en elke verliesfunctie, waardoor het breed toepasbaar is in de industrie.

Kortom, Locus transformeert een voorspeller van een "zwarte doos" in een systeem met transparante, controleerbare en risicogestuurde beslissingsregels.