Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Die Arbeit kritisiert, dass aktuelle Benchmarks für tabellarische Basis-Modelle wie TabPFN nur Punktschätzer bewerten, und fordert die Einführung von angemessenen Bewertungskennzahlen für probabilistische Regression, insbesondere den Continuous Ranked Probability Score (CRPS), um die Unsicherheit von Vorhersagen zu erfassen und die Modelle entsprechend anzupassen.

Jonas Landsgesell, Pascal Knoll

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🎲 Warum "Durchschnitt" nicht immer reicht: Ein neuer Blick auf KI-Vorhersagen

Stell dir vor, du bist ein Wettervorhersage-Experte. Jemand fragt dich: "Wie viel Regen wird morgen fallen?"

Die alte Art, KI-Modelle zu bewerten, wäre so: Du sagst einfach eine Zahl, zum Beispiel 5 Millimeter.

  • Wenn es tatsächlich 5 mm regnet, hast du gewonnen.
  • Wenn es 0 mm regnet, hast du verloren.
  • Wenn es 10 mm regnet, hast du auch verloren.

Das Problem ist: Das Leben ist selten so einfach. Manchmal ist es gar nicht sicher, ob es regnet oder nicht. Vielleicht ist die Wahrscheinlichkeit 50/50. Eine gute KI sollte nicht nur eine Zahl nennen, sondern sagen: "Es könnte gar nichts sein, aber es könnte auch ein Wolkenbruch sein."

Dieses Papier von Jonas Landsgesell und Pascal Knoll sagt: Unsere aktuellen Tests für KI-Modelle (besonders für Tabellen-Daten) sind veraltet. Sie prüfen nur, ob die "Durchschnittszahl" stimmt. Aber das reicht nicht mehr!

Hier ist die Geschichte, aufgeteilt in drei Teile:


1. Das Problem mit dem "Durchschnitt" (Der Würfel-Trick)

Stell dir vor, du wirfst einen normalen sechsseitigen Würfel.

  • Die möglichen Ergebnisse sind: 1, 2, 3, 4, 5, 6.
  • Der Durchschnitt (Mittelwert) ist 3,5.

Wenn eine KI dir sagt: "Der nächste Wurf wird 3,5 sein", dann hat sie zwar mathematisch den Durchschnitt richtig berechnet, aber sie hat keinen einzigen echten Wurf vorhergesagt! Du kannst nie 3,5 würfeln.

In der echten Welt (z. B. bei Aktienkursen oder Energieverbrauch) gibt es oft Situationen, in denen es zwei oder mehr "beliebte" Ergebnisse gibt (z. B. entweder sehr heiß oder sehr kalt, aber selten lauwarm).

  • Eine alte KI sagt den Durchschnitt: "Es wird lauwarm." (Falsch! Es wird entweder heiß oder kalt).
  • Eine moderne KI (wie TabPFN oder TabICL) sagt: "Es gibt eine 50% Chance auf heiß und 50% auf kalt."

Die Erkenntnis: Wir müssen aufhören, nur die "Durchschnittszahl" zu bewerten. Wir müssen bewerten, wie gut die gesamte Wahrscheinlichkeitsverteilung (die ganze Geschichte) ist.


2. Die neue Regel: Der "Richter" (Proper Scoring Rules)

Um zu testen, ob eine KI eine gute Wahrscheinlichkeitsvorhersage macht, brauchen wir einen besseren Richter als den, der nur auf den Durchschnitt schaut. Die Autoren nennen das "Proper Scoring Rules" (Echte Bewertungsregeln).

Stell dir zwei Richter vor:

  • Richter A (Der alte Weg - Kreuzentropie/Log-Score):
    Dieser Richter ist extrem streng. Er schreit sofort auf, wenn die KI eine Wahrscheinlichkeit für ein Ereignis sagt, das dann nicht eintritt. Er bestraft "falsche Sicherheit" extrem hart. Das führt dazu, dass die KI versucht, die Ränder der Verteilung perfekt zu treffen, aber manchmal den Kern vergisst.

    • Analogie: Ein Richter, der dich verurteilt, weil du gesagt hast, es könnte regnen, aber die Sonne schien.
  • Richter B (Der neue Weg - CRPS):
    Dieser Richter ist fairer. Er schaut sich an, wie weit deine Vorhersage von der Realität entfernt ist. Wenn du sagst "Es regnet 10mm" und es regnet 11mm, ist das fast perfekt. Wenn du sagst "Es regnet 10mm" und es regnet 0mm, ist das schlecht. Er bestraft Fehler proportional zur Entfernung.

    • Analogie: Ein Richter, der sagt: "Du hast die Temperatur gut getroffen, auch wenn du nicht 100% sicher warst."

Das Ergebnis des Papers:
Die Autoren haben gezeigt, dass KI-Modelle, die mit dem neuen Richter (CRPS) trainiert werden, oft bessere Vorhersagen machen als solche, die nur auf den Durchschnitt optimiert wurden. Besonders bei TabICLv2 (einem neuen Modell) sieht man das deutlich.


3. Der wichtigste Hinweis: "Ein Maßstab passt nicht für alle"

Das ist der spannendste Teil des Papers. Es gibt nicht den einen perfekten Richter für alles.

  • Szenario A (Ein Arzt): Ein Arzt will wissen, ob ein Patient krank ist. Ein falscher Alarm (gesagt "krank", war "gesund") ist ärgerlich, aber ein verpasster Alarm (gesagt "gesund", war "krank") ist tödlich. Hier braucht man einen Richter, der Fehler in eine Richtung viel härter bestraft.
  • Szenario B (Ein Händler): Ein Händler will den Durchschnittspreis wissen, um Lagerbestände zu planen. Hier ist der Durchschnitt (Mittelwert) wichtig.

Die Botschaft:
Wenn wir KI-Modelle für die Welt bauen, dürfen wir sie nicht einfach "einmal trainieren und fertig" lassen.

  1. Wir müssen die Modelle so trainieren, dass sie Wahrscheinlichkeiten ausspucken (nicht nur eine Zahl).
  2. Wir müssen das Modell anpassen (Fine-Tuning), je nachdem, was der Nutzer braucht. Wenn der Nutzer Angst vor extremen Verlusten hat, muss das Modell so trainiert werden, dass es diese Risiken besonders gut einschätzt.

Zusammenfassung in einem Satz

Statt KI-Modelle nur zu fragen "Wie viel ist es?", sollten wir sie fragen "Was könnte alles passieren und wie wahrscheinlich ist es?", und wir müssen sie mit einem Maßstab bewerten, der genau das misst, was für den jeweiligen Nutzer am wichtigsten ist – nicht nur den Durchschnitt.

Die Autoren sagen also: "Hört auf, nur auf den Durchschnitt zu schauen. Nutzt bessere Messlatten (wie CRPS) und passt die KI an die spezifischen Risiken eurer Aufgabe an!"