Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Each language version is independently generated for its own context, not a direct translation.

🎲 Warum "Durchschnitt" nicht immer reicht: Ein neuer Blick auf KI-Vorhersagen

Stell dir vor, du bist ein Wettervorhersage-Experte. Jemand fragt dich: "Wie viel Regen wird morgen fallen?"

Die alte Art, KI-Modelle zu bewerten, wäre so: Du sagst einfach eine Zahl, zum Beispiel 5 Millimeter.

Wenn es tatsächlich 5 mm regnet, hast du gewonnen.
Wenn es 0 mm regnet, hast du verloren.
Wenn es 10 mm regnet, hast du auch verloren.

Das Problem ist: Das Leben ist selten so einfach. Manchmal ist es gar nicht sicher, ob es regnet oder nicht. Vielleicht ist die Wahrscheinlichkeit 50/50. Eine gute KI sollte nicht nur eine Zahl nennen, sondern sagen: "Es könnte gar nichts sein, aber es könnte auch ein Wolkenbruch sein."

Dieses Papier von Jonas Landsgesell und Pascal Knoll sagt: Unsere aktuellen Tests für KI-Modelle (besonders für Tabellen-Daten) sind veraltet. Sie prüfen nur, ob die "Durchschnittszahl" stimmt. Aber das reicht nicht mehr!

Hier ist die Geschichte, aufgeteilt in drei Teile:

1. Das Problem mit dem "Durchschnitt" (Der Würfel-Trick)

Stell dir vor, du wirfst einen normalen sechsseitigen Würfel.

Die möglichen Ergebnisse sind: 1, 2, 3, 4, 5, 6.
Der Durchschnitt (Mittelwert) ist 3,5.

Wenn eine KI dir sagt: "Der nächste Wurf wird 3,5 sein", dann hat sie zwar mathematisch den Durchschnitt richtig berechnet, aber sie hat keinen einzigen echten Wurf vorhergesagt! Du kannst nie 3,5 würfeln.

In der echten Welt (z. B. bei Aktienkursen oder Energieverbrauch) gibt es oft Situationen, in denen es zwei oder mehr "beliebte" Ergebnisse gibt (z. B. entweder sehr heiß oder sehr kalt, aber selten lauwarm).

Eine alte KI sagt den Durchschnitt: "Es wird lauwarm." (Falsch! Es wird entweder heiß oder kalt).
Eine moderne KI (wie TabPFN oder TabICL) sagt: "Es gibt eine 50% Chance auf heiß und 50% auf kalt."

Die Erkenntnis: Wir müssen aufhören, nur die "Durchschnittszahl" zu bewerten. Wir müssen bewerten, wie gut die gesamte Wahrscheinlichkeitsverteilung (die ganze Geschichte) ist.

2. Die neue Regel: Der "Richter" (Proper Scoring Rules)

Um zu testen, ob eine KI eine gute Wahrscheinlichkeitsvorhersage macht, brauchen wir einen besseren Richter als den, der nur auf den Durchschnitt schaut. Die Autoren nennen das "Proper Scoring Rules" (Echte Bewertungsregeln).

Stell dir zwei Richter vor:

Richter A (Der alte Weg - Kreuzentropie/Log-Score):
Dieser Richter ist extrem streng. Er schreit sofort auf, wenn die KI eine Wahrscheinlichkeit für ein Ereignis sagt, das dann nicht eintritt. Er bestraft "falsche Sicherheit" extrem hart. Das führt dazu, dass die KI versucht, die Ränder der Verteilung perfekt zu treffen, aber manchmal den Kern vergisst.
- Analogie: Ein Richter, der dich verurteilt, weil du gesagt hast, es könnte regnen, aber die Sonne schien.
Richter B (Der neue Weg - CRPS):
Dieser Richter ist fairer. Er schaut sich an, wie weit deine Vorhersage von der Realität entfernt ist. Wenn du sagst "Es regnet 10mm" und es regnet 11mm, ist das fast perfekt. Wenn du sagst "Es regnet 10mm" und es regnet 0mm, ist das schlecht. Er bestraft Fehler proportional zur Entfernung.
- Analogie: Ein Richter, der sagt: "Du hast die Temperatur gut getroffen, auch wenn du nicht 100% sicher warst."

Das Ergebnis des Papers:
Die Autoren haben gezeigt, dass KI-Modelle, die mit dem neuen Richter (CRPS) trainiert werden, oft bessere Vorhersagen machen als solche, die nur auf den Durchschnitt optimiert wurden. Besonders bei TabICLv2 (einem neuen Modell) sieht man das deutlich.

3. Der wichtigste Hinweis: "Ein Maßstab passt nicht für alle"

Das ist der spannendste Teil des Papers. Es gibt nicht den einen perfekten Richter für alles.

Szenario A (Ein Arzt): Ein Arzt will wissen, ob ein Patient krank ist. Ein falscher Alarm (gesagt "krank", war "gesund") ist ärgerlich, aber ein verpasster Alarm (gesagt "gesund", war "krank") ist tödlich. Hier braucht man einen Richter, der Fehler in eine Richtung viel härter bestraft.
Szenario B (Ein Händler): Ein Händler will den Durchschnittspreis wissen, um Lagerbestände zu planen. Hier ist der Durchschnitt (Mittelwert) wichtig.

Die Botschaft:
Wenn wir KI-Modelle für die Welt bauen, dürfen wir sie nicht einfach "einmal trainieren und fertig" lassen.

Wir müssen die Modelle so trainieren, dass sie Wahrscheinlichkeiten ausspucken (nicht nur eine Zahl).
Wir müssen das Modell anpassen (Fine-Tuning), je nachdem, was der Nutzer braucht. Wenn der Nutzer Angst vor extremen Verlusten hat, muss das Modell so trainiert werden, dass es diese Risiken besonders gut einschätzt.

Zusammenfassung in einem Satz

Statt KI-Modelle nur zu fragen "Wie viel ist es?", sollten wir sie fragen "Was könnte alles passieren und wie wahrscheinlich ist es?", und wir müssen sie mit einem Maßstab bewerten, der genau das misst, was für den jeweiligen Nutzer am wichtigsten ist – nicht nur den Durchschnitt.

Die Autoren sagen also: "Hört auf, nur auf den Durchschnitt zu schauen. Nutzt bessere Messlatten (wie CRPS) und passt die KI an die spezifischen Risiken eurer Aufgabe an!"

Each language version is independently generated for its own context, not a direct translation.

Titel: Distributional Regression mit tabellarischen Foundation-Modellen: Evaluierung probabilistischer Vorhersagen mittels korrekter Scoring-Regeln

Autoren: Jonas Landsgesell, Pascal Knoll
Datum: 27. Februar 2026 (Preprint)

1. Problemstellung

Die Arbeit adressiert eine kritische Lücke in der aktuellen Evaluierung von tabellarischen Deep-Learning-Modellen, insbesondere von Prior-Data Fitted Networks (PFNs) wie TabPFN und TabICL.

Fokus auf Punktschätzer: Aktuelle Benchmarks (z. B. TabArena, TALENT) bewerten Regressionen fast ausschließlich über Metriken für Punktschätzer wie den mittleren quadratischen Fehler (MSE), die Wurzel des MSE (RMSE) oder $R^2$ .
Induktive Verzerrung: Diese Metriken zwingen Modelle dazu, den bedingten Erwartungswert (den Mittelwert) zu optimieren. Dies ignoriert die inhärente Unsicherheit der Daten (aleatorische Unsicherheit) und ist bei multimodalen Verteilungen oft irreführend oder nutzlos (z. B. wenn der berechnete Mittelwert zwischen zwei realen Datenclustern liegt und dort keine Wahrscheinlichkeitsmasse existiert).
Mangel an probabilistischer Bewertung: Obwohl moderne Foundation-Modelle in der Lage sind, diskretisierte Wahrscheinlichkeitsverteilungen (Histogramme) vorherzusagen, fehlt es an standardisierten Benchmarks, die die Qualität dieser gesamten Verteilungsbewertung messen.

2. Methodik

Die Autoren schlagen einen Paradigmenwechsel vor: Statt nur den Mittelwert zu bewerten, sollte die Güte probabilistischer Vorhersagen durch korrekte Scoring-Regeln (Proper Scoring Rules) evaluiert werden.

Theoretische Grundlage: Eine Scoring-Regel $S$ ist strikt korrekt, wenn der erwartete Score nur dann minimiert wird, wenn die prognostizierte Verteilung mit der wahren Verteilung übereinstimmt.
Vergleich verschiedener Regeln:
- Log-Score (Cross-Entropy): Sehr empfindlich gegenüber Ausreißern und "dünnen" Bereichen der Verteilung (Tail-Sensitivity). Kann das Training in endlichen Stichproben dominieren, indem es den Optimierer zwingt, extreme Werte anzupassen, oft auf Kosten der zentralen Masse.
- Continuous Ranked Probability Score (CRPS): Robuster gegenüber Ausreißern. Er gewichtet alle Quantile gleich und bestraft Fehler basierend auf der Distanz zur wahren Verteilung (ähnlich einer gewichteten Summe von Pinball-Losses).
- CRLS (Continuous Ranked Logarithmic Scoring Rule): Eine weitere Variante, die in den Experimenten getestet wurde.
- Beta-Energy-Score: Eine parametrisierbare Familie von Scoring-Regeln, die je nach Parameter $\beta$ unterschiedliche Fehlerarten bestraft (z. B. $\beta=1$ entspricht MAE/Median, $\beta=2$ entspricht MSE/Mittelwert).
Experimentelles Setup:
- Modelle: realTabPFNv2.5 und TabICLv2.
- Daten: Verschiedene OpenML-Datensätze für Regression, jeweils auf 3000 zufällig gesampelte Datenpunkte limitiert.
- Verfahren: 5-fache Kreuzvalidierung. Die Modelle wurden entweder als Basis-Modelle getestet oder mit den oben genannten Scoring-Regeln (CRPS, CRLS, Beta-Energy) feinabgestimmt (Fine-Tuning).
- Vergleich: Ein "Toy-Model" (bimodale Verteilung) wurde verwendet, um die Unterschiede zwischen Mittelwert-Schätzung und Verteilungs-Schätzung sowie die Auswirkungen verschiedener Loss-Funktionen auf endlichen Datensätzen zu visualisieren.

3. Wichtige Beiträge

Benchmark-Erweiterung: Der Vorschlag, Regression-Benchmarks um probabilistische Metriken (hauptsächlich CRPS) zu erweitern, um die Leistung von Foundation-Modellen ganzheitlicher zu bewerten.
Empirische Evaluierung: Erste umfassende Evaluierung von realTabPFNv2.5 und TabICLv2 unter Verwendung korrekter Scoring-Regeln (CRPS, Beta-Energy, CRLS).
Nachweis der Feinabstimmung: Demonstration, dass das Fine-Tuning von Foundation-Modellen mit spezifischen Scoring-Regeln (die vom Pre-Training abweichen) die Leistung auf spezifischen Datensätzen verbessern kann.
Theoretische Einsicht: Der Nachweis, dass die Wahl der Scoring-Regel die induktive Verzerrung (Inductive Bias) des Modells verändert. Unterschiedliche Regeln führen zu unterschiedlichen "optimalen" Vorhersagen, selbst wenn alle Regeln strikt korrekt sind.
Toy-Modell Analyse: Eine klare Visualisierung, dass Mittelwertschätzer bei multimodalen Daten in "leeren" Regionen landen können, während Verteilungsmodelle (Histogramme) die wahre Struktur abbilden.

4. Ergebnisse

Fine-Tuning mit Beta-Energy Score ( $\beta=1.8$ ):
- Zeigte eine Verbesserung gegenüber dem Basis-Modell (realTabPFNv2.5) auf den meisten Datensätzen.
- Metriken wie MAE, RMSE, $R^2$ und CRPS verbesserten sich im Median um ca. 1–2 %.
- Die Ergebnisse variieren stark je nach Datensatz (z. B. starke Verbesserungen bei Mercedes Benz und Pol, schwächere bei anderen).
Fine-Tuning mit CRLS:
- Zeigte ebenfalls Verbesserungen, insbesondere bei CRPS und Interval-Score, aber mit ähnlicher Varianz wie beim Beta-Energy Score.
TabICLv2 vs. realTabPFNv2.5:
- TabICLv2 schnitt in den meisten probabilistischen Metriken (CRPS, CRLS, Interval Score) besser ab als das feinabgestimmte realTabPFNv2.5.
- Dies deutet darauf hin, dass TabICLv2 von seiner Architektur her besser für die direkte Modellierung von Verteilungen geeignet ist.
Abhängigkeit von der Scoring-Regel:
- Im Toy-Modell (Abschnitt 4.1) wurde gezeigt, dass die Rangfolge von Modellen stark von der gewählten Scoring-Regel abhängt. Ein Modell, das für $\beta=1$ (Median-Optimierung) am besten ist, kann für $\beta=2$ (Mittelwert-Optimierung) schlechter abschneiden als ein anderes Modell.

5. Bedeutung und Ausblick

Praxisrelevanz: Für viele Anwendungen (z. B. Finanzen, Pharmaproduktion) ist nicht der Mittelwert, sondern die gesamte Verteilung oder spezifische Quantile (z. B. Risiko im linken Schwanz) entscheidend. Die aktuelle Praxis, nur MSE zu optimieren, ist für diese Use-Cases suboptimal.
Konflikt bei Foundation-Modellen: Es besteht ein Spannungsfeld zwischen einem universellen, nach dem Pre-Training unveränderten Modell und der Notwendigkeit, sich an spezifische Geschäftsziele (und damit spezifische Scoring-Regeln) anzupassen.
Zukünftige Richtungen:
- Fine-Tuning: Als Route, um Modelle an spezifische Scoring-Regeln anzupassen.
- Task-Tokens: Die Idee, dem Modell über Prompts mitzuteilen, welche Scoring-Regel (z. B. gewichteter CRPS für asymmetrische Risiken) optimiert werden soll.
- Warnung: Bei seltenen Ereignissen (Extremwerte/Tails) sind Scoring-Regeln, die auf Erwartungswerten basieren, oft unzureichend, da epistemische Unsicherheit (fehlende Daten) nicht durch reine Verteilungsanpassung gelöst wird.

Fazit: Das Papier plädiert dafür, dass die Community von der reinen Optimierung von Punktschätzern (MSE/RMSE) wegkommt und probabilistische Regressionen mittels korrekter Scoring-Regeln (insbesondere CRPS) bewertet und trainiert, um die wahre Unsicherheit in tabellarischen Daten besser zu erfassen.

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

🎲 Warum "Durchschnitt" nicht immer reicht: Ein neuer Blick auf KI-Vorhersagen

1. Das Problem mit dem "Durchschnitt" (Der Würfel-Trick)

2. Die neue Regel: Der "Richter" (Proper Scoring Rules)

3. Der wichtigste Hinweis: "Ein Maßstab passt nicht für alle"

Zusammenfassung in einem Satz

Titel: Distributional Regression mit tabellarischen Foundation-Modellen: Evaluierung probabilistischer Vorhersagen mittels korrekter Scoring-Regeln

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks