Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Warum Bäume besser sind als „Superhirne"

Stell dir vor, du willst vorhersagen, wie schnell ein Läufer beim nächsten Marathon sein wird.
Bisher war der XGBoost (ein sehr cleverer, aber etwas „holpriger" Algorithmus, der wie ein Baum funktioniert) der unangefochtene König. Warum? Weil er die Welt in klare, getrennte Kammern einteilt: „Wenn es regnet und der Läufer 30 ist, dann läuft er so schnell." Das funktioniert bei Tabellen mit vielen verschiedenen Daten (Wetter, Alter, Distanz) super.

Die Transformer (die „Superhirne", die auch Chatbots wie ich antreiben) hatten damit bisher Probleme. Sie sind wie ein Ölfarbenmaler: Sie versuchen, alles glatt und fließend zu verbinden. Aber die Welt der Läuferdaten ist nicht glatt; sie ist voller Sprünge und Ecken. Der Maler versucht, die Ecken zu glätten, und verpasst dabei die wichtigen Details.

Die Lösung: „RunTime" – Der neue Ansatz

Die Forscher haben einen neuen Weg gefunden, wie man das „Superhirn" (Transformer) für diese Tabellen-Daten fit macht. Sie nennen es RunTime. Hier ist das Geheimnis in drei einfachen Schritten:

1. Die Welt in Lego-Steine zerlegen (Diskretisierung)

Statt dem Transformer zu sagen: „Die Temperatur ist 23,456 Grad", sagen sie: „Die Temperatur ist Lego-Stein Nr. 5".
Sie teilen alle Zahlen (Temperatur, Geschwindigkeit, Alter) in kleine, feste Kisten (Bins) ein.

Die Analogie: Stell dir vor, du musst einem Roboter erklären, wie ein Wetter aussieht. Statt ihm unendlich viele Graustufen zu zeigen, gibst du ihm nur 100 farbige Karten. Der Roboter lernt viel schneller, Muster zu erkennen, wenn er nicht mit endlosen Details überfordert ist.

2. Die Zeit als eigene Sprache (Zeit-Token)

Läufer haben keine festen Trainingspläne. Manchmal trainieren sie jeden Tag, manchmal nur alle zwei Wochen. Normale Modelle verlieren hier den Faden.
RunTime fügt spezielle „Zeit-Tokens" ein. Das sind wie Metronome im Lied des Modells. Sie sagen dem Modell nicht nur was passiert ist, sondern wie lange es her ist.

Die Analogie: Stell dir vor, du liest ein Buch, bei dem die Sätze durcheinander gewürfelt sind. Du verstehst die Geschichte nicht. RunTime fügt Zeitstempel ein, die sagen: „Dieser Satz kam vor 2 Wochen, der nächste vor 3 Tagen." So behält das Modell den Rhythmus (die „Cadence") im Kopf.

3. Das „Weiche" Ziel (Gaußsche Glättung)

Das ist der wichtigste Trick. Wenn ein Läufer eigentlich 2:30:00 Stunden laufen sollte, aber 2:30:05 schafft, ist das fast gleich gut.
Frühere Modelle sagten: „Du hast 2:30:05 vorhergesagt, aber das Ziel war 2:30:00. Falsch!"
RunTime sagt: „Fast richtig! Du hast den Bereich um das Ziel herum getroffen."

Die Analogie: Stell dir einen Dartspieler vor. Wenn er das Bullseye verfehlt, aber direkt daneben trifft, bekommt er trotzdem Punkte. RunTime gibt dem Modell „weiche" Punkte für alles, was nah am Ziel ist. Das verhindert, dass das Modell panisch wird, wenn es nur einen winzigen Fehler macht.

Was haben sie erreicht?

Schneller und genauer: Auf einem riesigen Datensatz von 600.000 Läufern hat RunTime den alten Champion (XGBoost) um 10,8 % geschlagen.
Bessere Vorhersagen: Statt nur eine Zahl zu nennen („Er wird in 2:30:00 laufen"), gibt das Modell eine Wahrscheinlichkeitswolke aus. Es sagt: „Es ist sehr wahrscheinlich, dass er zwischen 2:29 und 2:31 läuft, aber er könnte auch mal 2:35 schaffen." Das ist viel nützlicher für echte Entscheidungen.
Fairer Test: Sie haben das Modell so trainiert, dass es Läufer sieht, die es noch nie gesehen hat. Es hat nicht einfach Namen auswendig gelernt, sondern wirklich verstanden, wie Läufer funktionieren.

Warum ist das wichtig?

Bisher dachte man, Transformers seien für solche Tabellen-Daten zu kompliziert. Diese Arbeit zeigt: Nein, sie sind super, wenn man sie nur richtig „zähmt".

Indem man die Daten in klare Kisten packt (wie Lego) und dem Modell beibringt, dass die Welt nicht immer perfekt glatt ist (durch die weichen Ziele), kann man die Kraft der modernen KI nutzen, um Dinge vorherzusagen, die früher nur mit alten, langsamen Methoden ging.

Kurz gesagt: Sie haben dem „Superhirn" eine Brille aufgesetzt, damit es die sprunghaften Daten der echten Welt endlich klar sehen kann. Und das Ergebnis ist eine Vorhersage, die nicht nur schneller ist, sondern auch weiß, wie unsicher sie selbst ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz der Flexibilität von Transformer-Modellen dominieren nach wie vor Gradient-Boosting-Methoden (insbesondere XGBoost) bei Vorhersageaufgaben mit tabellarischen Daten. Der Hauptgrund liegt in der Natur der Daten: Tabellarische Daten weisen oft diskrete Regime und unregelmäßige Entscheidungsgrenzen auf, die durch achsenparallele Splits in Baummodellen natürlich erfasst werden. Transformer hingegen sind inhärent glatte Funktionsapproximatoren und scheitern oft daran, diese diskreten Strukturen zu lernen.

Zusätzlich besteht bei klassischen Regressionen oft das Problem, dass nur Punktschätzungen (Point Estimates) ausgegeben werden, was keine zuverlässige Unsicherheitsquantifizierung (kalibrierte Wahrscheinlichkeitsdichtefunktionen, PDFs) ermöglicht. Das Paper adressiert diese Herausforderungen im Kontext von unregelmäßigen Zeitreihen (hier: Laufkarrieren mit variierenden Zeitabständen und Umgebungsbedingungen), indem es Transformer-Modelle so modifiziert, dass sie die Stärken von diskreten Modellen mit der Leistungsfähigkeit von Attention-Mechanismen kombinieren.

2. Methodik

Die vorgeschlagene Lösung, genannt RunTime, basiert auf einer gezielten Diskretisierung von Eingaben und Ausgaben sowie einer speziellen Tokenisierung, die zeitliche Abstände explizit modelliert.

Diskretisierung und Tokenisierung:
- Eingaben: Umweltfaktoren (Temperatur, Wind, Feuchtigkeit) und die Zielgröße (Pace/Laufgeschwindigkeit) werden in diskrete Bins (Klassen) quantisiert. Dies geschieht durch eine balancierte Quantisierung (quantilbasiert), sodass jede Bin etwa die gleiche Anzahl von Beispielen enthält. Dies ahmt die Art und Weise nach, wie Entscheidungsbäume Regime aufteilen.
- Zeitliche Abstände: Im Gegensatz zu den kontinuierlichen Werten werden Zeitdeltas (Wochen seit dem letzten Rennen, Wochen bis zum Zielrennen) nicht quantisiert, sondern als kategoriale Tokens direkt kodiert. Dies ermöglicht dem Modell, die „Cadence" (den Rhythmus) der Ereignisse explizit zu lernen.
- Sequenzstruktur: Jedes Ereignis wird als Block von Tokens dargestellt: [Umwelt & Demografie][Pace][Zeitdeltas]. Das Modell nutzt einen causal Transformer (Decoder-only), der autoregressiv den nächsten Pace-Token basierend auf dem Kontext vorhersagt.
Gaußsche Glättung (Gaussian Smoothing):
- Anstatt harte One-Hot-Ziele zu verwenden, werden weiche Ziele (Soft Targets) mittels integrierter Gauß-Funktionen über die Bins erzeugt. Dies bewahrt die ordinale Struktur der Daten.
- Adaptive Glättung: Ein zentraler Innovationsschritt ist die adaptive Skalierung der Glättungsstärke ( $\sigma$ ) basierend auf der Bin-Breite ( $w_i$ ). Die Formel lautet:
  $\sigma_i = \sqrt{\sigma_{floor}^2 + (k \cdot w_i)^2}$
  Dabei sorgt $\sigma_{floor}$ für eine Mindestglättung bei schmalen Bins, während $k$ die Anpassung an breitere Bins steuert. Dies verhindert, dass breite Bins übermäßig geglättet werden, während schmale Bins präzise bleiben.
Architektur:
- Ein causal Transformer mit 6 Layern, 8 Attention-Heads und 512 Embedding-Dimensionen.
- Die Maskierung der Attention erzwingt Kausalität.
- Das Training erfolgt mit einem Kreuzentropie-Verlust auf den gaußgeglätteten Zielen.
Datensatz und Evaluation:
- Der Datensatz umfasst 600.000 Läufer (5 Millionen Trainingsbeispiele) aus dem NYRR 9+1 Programm.
- Entity-Disjoint Split: Die Aufteilung in Trainings-, Validierungs- und Testsets erfolgt strikt nach Läufern (kein Overlap). Dies verhindert das Auswendiglernen individueller Läufer und testet die echte Generalisierungsfähigkeit auf unbekannte Entitäten.

3. Wichtige Beiträge

Architektonische Erkenntnis: Es wird gezeigt, dass nicht größere Transformer, sondern die explizite Behandlung diskreter Regime durch Diskretisierung der Schlüssel zur Leistungsfähigkeit von Transformer-Modellen auf tabellarischen Daten ist.
Adaptive Gaußsche Glättung: Eine neue Methode zur Skalierung der Glättungsstärke in Abhängigkeit von der Bin-Breite, die eine stabile Kalibrierung auch bei heterogenen Bin-Größen ermöglicht.
Explizite Zeit-Token: Die Einführung von „Time-Delta-Tokens" erlaubt es dem Modell, unregelmäßige zeitliche Abstände zwischen Ereignissen zu verarbeiten, was für die Vorhersage von Trajektorien entscheidend ist.
Kalibrierte PDFs: Im Gegensatz zu klassischen Regressionsmodellen liefert das System eine vollständige Wahrscheinlichkeitsdichtefunktion, die eine fundierte Unsicherheitsquantifizierung erlaubt.
Stratifizierte Kalibrierungsanalyse: Eine Methodik zur Diagnose von Fehlkalibrierungen in verschiedenen Konfidenzniveaus und Laufgruppen.

4. Ergebnisse

Auf dem Benchmark mit 600.000 Entitäten übertrifft RunTime den optimierten XGBoost-Standard signifikant:

Genauigkeit (MAE): RunTime erreicht einen Median-MAE von 35,94 Sekunden, was einer Verbesserung von 10,8 % gegenüber dem getunten XGBoost (40,31 s) entspricht. Auch im Vergleich zur physikalischen Riegel-Formel (49,74 s) ist die Leistung deutlich besser.
Kalibrierung: Das Modell erreicht einen Kolmogorov-Smirnov (KS)-Wert von 0,0045, was eine hervorragende Übereinstimmung zwischen vorhergesagten und tatsächlichen Verteilungen zeigt. Dies wird durch einen Checkpoint erreicht, der speziell zur Minimierung des KS-Werts ausgewählt wurde.
Ablationsstudien:
- Das Entfernen der Zeit-Delta-Tokens verschlechtert den Median-MAE um ca. 1,8 % und erhöht die Trainingszeit deutlich.
- Das Zufalls-Shuffeln der historischen Reihenfolge (Verlust der zeitlichen Ordnung) verschlechtert den MAE um ca. 2,0 %. Dies bestätigt, dass die Transformer-Architektur von der sequenziellen Struktur profitiert.
Kalibrierung vs. Punktvorhersage: Die Analyse zeigt, dass Optimierung auf den MAE und Optimierung auf die Kalibrierung (KS) unterschiedliche Ziele sind. Der best-kalibrierte Checkpoint hat einen leicht höheren MAE, liefert aber deutlich verlässlichere Unsicherheitsintervalle.

5. Bedeutung und Fazit

Das Paper demonstriert, dass Transformer-Modelle durch eine gezielte Diskretisierung und die Integration von zeitlichen Kontexten (Time-Deltas) in der Lage sind, Gradient-Boosting-Methoden auf tabellarischen Daten nicht nur einzuholen, sondern zu übertreffen.

Die wesentliche Erkenntnis ist, dass die „Diskretisierung" nicht nur eine Vorverarbeitung ist, sondern den Attention-Mechanismus befähigt, sich innerhalb diskreter Regime zu konzentrieren, anstatt über sie zu mitteln. Die Kombination aus diskreter Tokenisierung, adaptiver Gauß-Glättung und entity-disjoint Evaluation liefert Modelle, die sowohl präzise als auch gut kalibriert sind. Dies eröffnet neue Wege für die Anwendung von Transformer-Architekturen in Bereichen wie Risikomanagement, Finanzprognosen oder medizinischen Vorhersagen, wo nicht nur der erwartete Wert, sondern die gesamte Verteilung und ihre Zuverlässigkeit entscheidend sind.

Zukünftige Arbeiten könnten die Diskretisierung auch auf die Eingabe-Tokenierung ausweiten (learnable soft tokenization) und das Modell für generative Simulationen („Digital Twins") nutzen, um plausible Zukunftsszenarien zu erzeugen.

Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Das große Problem: Warum Bäume besser sind als „Superhirne"

Die Lösung: „RunTime" – Der neue Ansatz

1. Die Welt in Lego-Steine zerlegen (Diskretisierung)

2. Die Zeit als eigene Sprache (Zeit-Token)

3. Das „Weiche" Ziel (Gaußsche Glättung)

Was haben sie erreicht?

Warum ist das wichtig?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions