LOCUS: A Distribution-Free Loss-Quantile Score for Risk-Aware Predictions

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der perfekte Durchschnitt ist trügerisch

Stellen Sie sich vor, Sie haben einen Wettervorhersage-Experten. Im Durchschnitt über ein ganzes Jahr hinweg liegt er fast immer richtig. Das ist toll! Aber was passiert, wenn er morgen sagt: „Es wird sonnig", und es stürzt ein Hagelsturm nieder, der Ihr Dach zerstört?

Das ist das Problem bei vielen modernen KI-Modellen. Sie sind im Durchschnitt sehr gut, aber sie machen manchmal katastrophale Fehler. Und genau diese seltenen, aber teuren Fehler sind es, die in der echten Welt (z. B. bei Kreditvergaben, medizinischen Diagnosen oder autonomen Autos) den Ärger verursachen.

Die aktuelle Praxis ist oft so: Man schaut sich an, wie „unsicher" das Modell bei einer Vorhersage ist. Wenn das Modell bei einer Eingabe zittert (hohe Varianz), sagt man: „Achtung, hier ist es riskant."
Das Problem dabei: Ein Modell kann sehr „sicher" und ruhig wirken (niedrige Varianz), aber trotzdem völlig falsch liegen, weil es die Situation einfach nicht verstanden hat. Es ist wie ein ruhiger, selbstbewusster Lügner.

Die Lösung: Locus – Der „Schmerz-Test"

Die Autoren schlagen eine neue Methode vor, die sie Locus nennen. Statt zu fragen: „Wie unsicher ist das Modell?", fragen sie: „Wie sehr würde es wehtun, wenn wir dieser Vorhersage glauben?"

Stellen Sie sich Locus als einen Schadens-Test vor, den Sie vor jedem einzelnen Einsatz machen.

Wie funktioniert das? (Die Analogie)

Stellen Sie sich vor, Sie haben einen neuen, teuren Sportwagen (das KI-Modell). Bevor Sie ihn auf die Straße lassen, wollen Sie wissen: „Wie wahrscheinlich ist es, dass ich bei dieser spezifischen Kurve einen Unfall baue und wie teuer der Schaden wäre?"

Der Testlauf (Kalibrierung):
Statt nur zu schauen, wie der Motor läuft, fahren Sie den Wagen auf einer Teststrecke mit verschiedenen Kurven. Sie notieren nicht nur, ob der Wagen wackelt, sondern messen direkt: Wie groß war der Schaden, wenn wir die Kurve genommen haben?
Locus macht genau das: Es nimmt eine Menge alter Daten, berechnet für jede Vorhersage, wie groß der Fehler (der „Schaden") tatsächlich war, und lernt daraus eine Art „Schadens-Prognose".
Der „Schmerz-Score" (Uα):
Für jede neue Situation (z. B. ein neuer Kreditantrag) berechnet Locus einen Score. Dieser Score sagt Ihnen nicht: „Die Unsicherheit ist hoch."
Er sagt stattdessen: „Bei dieser Vorhersage liegt die Wahrscheinlichkeit, dass der Fehler größer als 10.000 Euro ist, bei nur 5 %."
Das ist ein riesiger Unterschied! Es ist wie ein Wetterbericht, der nicht sagt „es ist unsicher", sondern „es besteht eine 95%ige Chance, dass der Schaden unter 100 Euro bleibt".
Die rote Ampel (Flagging):
Sie haben eine Grenze, die Sie nicht überschreiten wollen (z. B. „Ich will kein Risiko von mehr als 5.000 Euro").
- Wenn der Locus-Score sagt: „Der maximale erwartete Schaden liegt bei 3.000 Euro" -> Grünes Licht: Wir trauen der Vorhersage.
- Wenn der Score sagt: „Hier könnte der Schaden 20.000 Euro betragen" -> Rotes Licht: Wir stoppen! Wir prüfen das manuell nach oder lehnen es ab.

Warum ist das besser als die alten Methoden?

Alte Methode (Unsicherheit): Fragt: „Wie sehr wackelt das Modell?"
- Analogie: Ein ruhiger Fahrer, der aber in eine Wand fährt, weil er die Straße nicht kennt. Der Wackel-Sensor sagt „alles okay", aber der Unfall passiert trotzdem.
Locus (Schadens-Kontrolle): Fragt: „Wie groß ist der Schaden, wenn es schiefgeht?"
- Analogie: Ein Sensor, der direkt misst: „Wenn du jetzt bremst, prallst du gegen die Wand. Der Schaden wäre 50.000 Euro." Egal, wie ruhig der Fahrer wirkt, die Ampel wird rot.

Das Besondere an Locus

Keine Magie nötig: Locus braucht keine perfekten mathematischen Modelle. Es funktioniert mit fast jedem KI-Modell, das man schon hat. Es ist wie ein „Wrapper" (eine Hülle), die man über das bestehende System zieht.
Garantierte Sicherheit: Das Paper beweist mathematisch, dass diese Methode funktioniert, ohne dass man Annahmen über die Daten treffen muss. Es ist wie ein Sicherheitsgurt, der auch dann hält, wenn man nicht genau weiß, wie schnell man fährt.
Einfache Sprache: Das Ergebnis ist eine Zahl in der gleichen Einheit wie der Fehler (z. B. Dollar oder Grad Celsius). Das macht es für Menschen leicht zu verstehen: „Der Fehler wird höchstens X sein."

Fazit

Locus verwandelt das abstrakte Konzept „Unsicherheit" in etwas Greifbares: Risiko.

Statt zu raten, ob ein Modell „vertrauenswürdig" ist, gibt Locus eine klare, messbare Garantie: „Wenn wir diesen Fall akzeptieren, ist die Wahrscheinlichkeit, dass der Schaden einen bestimmten Betrag übersteigt, extrem gering."

Es ist der Unterschied zwischen einem Wetterbericht, der sagt „Vielleicht regnet es", und einem, der sagt: „Wenn Sie jetzt ohne Schirm rausgehen, ist die Wahrscheinlichkeit, dass Sie nass werden, 90 %." Locus hilft uns, die nassen Fälle zu vermeiden, bevor sie passieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne Machine-Learning-Modelle sind im Durchschnitt oft hochpräzise, können jedoch bei einzelnen Vorhersagen katastrophale Fehler machen, die in der Praxis (z. B. in der klinischen Entscheidungsfindung, Kreditvergabe oder autonomen Systemen) hohe Kosten verursachen.

Das zentrale Problem besteht darin, dass herkömmliche Unsicherheitsmaße (wie predictive variance, Entropie oder OOD-Scores) oft lose mit dem tatsächlichen Verlust (Loss) der Vorhersage korrelieren. Ein Modell kann in Regionen mit geringer Varianz der Zielvariable dennoch große Fehler machen, wenn die Modellannahmen lokal falsch sind (z. B. durch Missfit). Zudem fehlt es oft an einer klaren, interpretierbaren Regel, um einzelne Vorhersagen basierend auf einem nutzerspezifischen Toleranzschwellenwert $\tau$ (z. B. „Fehler > 70.000 $") als unzuverlässig zu markieren (Flagging), ohne dabei starke Verteilungsannahmen zu treffen.

Die Zielsetzung ist es also, eine verlustkontrollierte Flagging-Regel zu entwickeln, die garantiert, dass die Häufigkeit von „vertrauenswürdigen, aber schlechten" Vorhersagen (d. h. Vorhersagen, die nicht geflaggt werden, aber einen Verlust $> \tau$ haben) in endlichen Stichproben und verteilungsunabhängig begrenzt ist.

2. Methodik: Locus

Locus (Loss Control using Outlier Scores) ist ein „Wrapper"-Ansatz, der eine feste Vorhersagefunktion $g(x)$ und eine Verlustfunktion $L$ nimmt und einen pro-Eingabe-Score $U_\alpha(x)$ erzeugt. Dieser Score ist eine kalibrierte obere Schranke für den realisierten Verlust.

Der Prozess gliedert sich in drei Hauptschritte:

A. Definition des realisierten Verlusts

Anstatt die Unsicherheit über das Label $Y$ zu modellieren, modelliert Locus direkt die Verteilung des realisierten Verlusts $Z = L(g(X), Y)$ . Für eine neue Eingabe $x$ ist das Ziel, eine Schätzung für das $(1-\alpha)$ -Quantil der Verlustverteilung $Z|X=x$ zu erhalten.

B. Aufbau einer Vorhersageverteilung für den Verlust (Step 2)

Mithilfe eines Kalibrierungsdatensatzes $D_1$ wird ein probabilistisches Modell für $Z|X$ trainiert. Dies kann durch verschiedene Engines geschehen (z. B. Bayesian Additive Regression Trees - BART, Monte-Carlo-Dropout mit Mixture Density Networks).

Epistemic-Aware Inflation: Um Unsicherheit in datenarmen Regionen (extrapolative Regime) zu berücksichtigen, wird eine „Trimming"-Strategie eingeführt. Anstatt den Durchschnitt der posteriori-Verteilungen zu nehmen, wird eine konservativere untere Hülle (Envelope) der CDFs gewählt. Dies geschieht durch einen Parameter $\gamma(x)$ , der von der lokalen Datendichte (gemessen via k-NN-Abstand) abhängt: Je geringer die Dichte, desto konservativer (höher) die geschätzte Verlustschranke.

C. Verteilungsfreie Kalibrierung (Step 3)

Ein separater Teil des Kalibrierungsdatensatzes ( $D_2$ ) wird verwendet, um die Vorhersageverteilung $\hat{F}(\cdot|x)$ zu kalibrieren.

Berechnung der PIT-Werte (Probability Integral Transform): $W_i = \hat{F}(Z_i | X_i)$ für alle Punkte in $D_2$ .
Bestimmung des $(1-\alpha)$ -Quantils $t_{1-\alpha}$ dieser PIT-Werte.
Definition des Scores: $U_\alpha(x) = \hat{F}^{-1}(t_{1-\alpha} | x)$ .

Dieser Schritt garantiert, dass $U_\alpha(x)$ eine verteilungsunabhängige, endliche Stichproben-Garantie bietet, unabhängig davon, ob das zugrunde liegende Modell für $Z$ korrekt spezifiziert ist.

D. Flagging-Regeln

Basierend auf $U_\alpha(x)$ und einem nutzerspezifischen Toleranzwert $\tau$ wird eine Entscheidung getroffen:

Standard-Regel ( $\lambda = \tau$ ): Eine Vorhersage wird akzeptiert (nicht geflaggt), wenn $U_\alpha(x) \le \tau$ .
Theoretische Garantie: Es gilt $P(Z > \tau, X \in A_{\tau;\alpha}) \le \alpha$ . Das bedeutet, der Anteil aller zukünftigen Fälle, die akzeptiert werden, aber einen Verlust über $\tau$ haben, ist höchstens $\alpha$ .
Locus-Tuned: Wenn ein spezifisches konditionales Überschreitungsziel $\eta$ für die akzeptierte Menge gewünscht wird, kann der Schwellenwert $\lambda$ (oder $\alpha$ ) auf einem Validierungsdatensatz angepasst werden, um dieses Ziel zu erreichen, wobei verteilungsfreie Garantien (via Konfidenzintervallen) erhalten bleiben.

3. Hauptbeiträge

Kalibrierter Verlust-Quantil-Score: Locus wandelt jede Vorhersage-CDF für den Verlust in einen lokal kalibrierten Score $U_\alpha(x)$ um, der eine endliche Stichproben-Garantie für die marginale Abdeckung bietet ( $P(Z \le U_\alpha(X)) \ge 1-\alpha$ ).
Interpretierbare Flagging-Regel: Der Score ist direkt in Verlusteinheiten (z. B. Dollar, Fehlergrad) interpretierbar. Die Regel „Akzeptiere wenn $U_\alpha(x) \le \tau$ " bietet eine transparente Kontrolle von katastrophalen Verlusten mit der Garantie $P(Z > \tau | \text{akzeptiert}) \lesssim \alpha$ .
Epistemic-Awareness ohne Kalibrierungsbruch: Die Einführung von $\gamma(x)$ macht das Modell konservativer in datenarmen Regionen, ohne die verteilungsfreien Garantien der Kalibrierung zu verletzen.
Flexibilität: Der Ansatz ist modular und kann mit beliebigen Engines kombiniert werden, die eine CDF für den Verlust liefern (BART, MC-Dropout, etc.).

4. Ergebnisse und Experimente

Die Autoren testeten Locus auf 13 Regression-Datensätzen (z. B. Hauspreise, Energieverbrauch, Superconductivity) und verglichen es mit Standardheuristiken:

Benchmarks: Isolation Forest (OOD-Detektion) und VARNet (Schätzung der Label-Varianz).
Metrik: Die bedingte Überschreitungswahrscheinlichkeit $P(Z > \tau | X \in A_\lambda)$ bei einem angepassten Akzeptanzniveau (ca. 70%).

Ergebnisse:

Überlegene Risikobewertung: Locus-Tuned reduzierte die Häufigkeit großer Verluste in den akzeptierten Vorhersagen signifikant im Vergleich zu Varianz-basierten Ansätzen und OOD-Methoden.
Interpretierbarkeit: Im Gegensatz zur Varianz (die nur die Streuung von $Y$ misst), erfasst $U_\alpha(x)$ auch Fehler durch lokalen Modell-Missfit. Ein Beispiel aus den Hauspreisen zeigte, dass ein Punkt mit niedriger Varianz dennoch einen enormen Fehler aufweisen konnte, den Locus korrekt als riskant einstuft, während Varianz-basierte Methoden dies übersehen.
Robustheit: Die epistemic-aware Variante ( $\gamma$ -inflated) verbesserte die Leistung in datenarmen Regionen, ohne die Kalibrierungsgarantien zu brechen.

5. Bedeutung und Fazit

Locus adressiert eine kritische Lücke im maschinellen Lernen: Die Lücke zwischen globaler Modellgenauigkeit und lokaler Zuverlässigkeit einzelner Vorhersagen.

Praktische Relevanz: Es ermöglicht Betreibern von ML-Systemen, eine klare, mathematisch fundierte Regel zu haben, wann sie einer Vorhersage vertrauen können und wann sie menschliche Überprüfung anfordern müssen.
Verteilungsfreiheit: Da keine Annahmen über die zugrunde liegende Datenverteilung getroffen werden müssen, ist die Methode robust und in realen Szenarien anwendbar, wo Daten oft komplex und unbekannt sind.
Paradigmenwechsel: Statt Unsicherheit über das Label zu quantifizieren, fokussiert sich Locus direkt auf den Verlust, der für die Anwendung tatsächlich relevant ist. Dies macht den Score für das Risikomanagement und die Ressourcenallokation (Triage) direkt nutzbar.

Zusammenfassend bietet Locus einen robusten, interpretierbaren und theoretisch fundierten Rahmen für risikobewusste Vorhersagen, der über die reine Unsicherheitsquantifizierung hinausgeht und direkt auf die Kontrolle von Kosten und Fehlern abzielt.