Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Each language version is independently generated for its own context, not a direct translation.

Het Grote Geheim: Waarom AI beter is met "blokken" dan met "lijnen"

Stel je voor dat je een superintelligente computer wilt leren hoe een atleet gaat presteren bij een marathon. Je geeft de computer alle gegevens: het weer, de afstand, de leeftijd van de atleet en hoe snel hij de vorige keren liep.

Tot nu toe was de beste manier om dit te doen met een heel specifieke, oude techniek (genaamd XGBoost). Deze techniek werkt als een slimme boom: hij maakt simpele keuzes. Bijvoorbeeld: "Als het warmer is dan 20 graden, loop je sneller. Als het kouder is, loop je langzamer." Het werkt goed, maar het is een beetje star.

De nieuwe methode in dit paper, genaamd RunTime, gebruikt een Transformer (de technologie achter ChatGPT). Normaal gesproken zijn deze "slimme" modellen slecht in tabellen met cijfers. Ze houden van taal en verhalen, niet van droge statistieken. Maar deze onderzoekers hebben een trucje bedacht om de Transformer te laten winnen.

De Drie Magische Trucs

De onderzoekers hebben drie dingen gedaan om de Transformer slim te maken voor deze taak:

1. Het "Blokken" van de Wereld (Discretisatie)

Stel je voor dat je een rechte lijn tekent van 0 tot 100. Dat is lastig om precies te voorspellen. Maar als je die lijn in bakken (blokken) verdeelt, wordt het makkelijker.

In plaats van te zeggen: "De atleet loopt precies 4:32:15", zegt de computer: "De atleet loopt in het blok tussen 4:30 en 4:35."
Dit klinkt simpel, maar het helpt de computer om patronen te zien die de oude "boom-techniek" ook ziet. Het is alsof je een wazige foto in scherpe pixels zet; plotseling zie je de details veel beter.

2. De "Zachte" Voorspelling (Gladde Glazen)

Normaal gesproken vraagt een computer: "Is het blok 4:30-4:35 of 4:35-4:40?" en moet hij één antwoord kiezen.
De onderzoekers zeggen: "Nee, geef ons een wolk van waarschijnlijkheid."

Stel je voor dat je een glas water hebt. Als je het glas een beetje kantelt, loopt het water over in de buren.
Als de atleet waarschijnlijk 4:32 loopt, geeft de computer niet alleen een punt voor dat blok, maar ook een beetje "water" (waarschijnlijkheid) naar de buren (4:30 en 4:35).
Ze gebruiken een slimme formule om te bepalen hoe breed die "wolk" moet zijn. Voor nauwkeurige blokken is de wolk smal, voor brede blokken is hij breder. Dit zorgt ervoor dat de voorspelling eerlijk en betrouwbaar is.

3. Het "Tijds-ritme" (De Klokketjes)

Atleten lopen niet elke week. Soms is het 2 weken geleden, soms 6 weken.
De computer krijgt speciale tijds-blokjes (tokens) die zeggen: "Het is 3 weken geleden."

Dit is als een muzikant die de pauzes tussen de noten hoort. Als je alleen de noten ziet, snap je het ritme niet. Door de pauzes expliciet te benoemen, leert de computer het ritme van de atleet. Dit helpt hem om te voorspellen hoe iemand presteert na een lange rustperiode.

Wat was het resultaat?

De onderzoekers hebben dit getest op 600.000 atleten (5 miljoen wedstrijden).

De winnaar: De nieuwe "RunTime" Transformer.
De verliezer: De beste versie van de oude "XGBoost" techniek.
Het verschil: De nieuwe AI was 10,8% nauwkeuriger.

Maar het allerbelangrijkste is niet alleen dat hij sneller is, maar dat hij beter weet wat hij niet weet.

De oude methoden gaven één getal: "Hij loopt in 4 uur en 10 minuten."
De nieuwe AI geeft een voorspellingsspectrum: "Hij loopt waarschijnlijk tussen 4:05 en 4:15, met de meeste kans op 4:10."
Dit is als een weersvoorspelling die zegt: "Het regent waarschijnlijk, maar misschien ook niet," in plaats van "Het gaat regenen." Dat is veel nuttiger voor mensen die risico's willen inschatten.

Waarom is dit belangrijk voor de rest van ons?

Tot nu toe dachten experts dat "slimme" AI-modellen (zoals die voor ChatGPT) niet goed werkten voor tabellen met cijfers (zoals financiën, medische data of sportstatistieken). Ze dachten dat je daarvoor de oude, simpele "boom-methoden" moest gebruiken.

Dit paper bewijst dat je die oude methoden kunt vervangen door moderne AI, als je de gegevens eerst in handige blokken stopt en de computer leert om met onzekerheid om te gaan.

Kort samengevat:
Ze hebben een dure, complexe auto (de Transformer) omgebouwd met simpele, blokachtige banden (discretisatie) en een zachte veer (gladde voorspelling). Hierdoor rijdt hij niet alleen sneller dan de oude, simpele fiets (XGBoost), maar hij glijdt ook niet uit op glad ijs (onzekerheid).

Het is een bewijs dat soms de simpelste trucjes (blokken maken) de krachtigste technologieën pas echt laten schitteren.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Transformer-modellen (zoals LLM's) dominant zijn in natuurlijke taalverwerking en tijdreeksvoorspelling, presteren ze op tabulaire data vaak slechter dan geoptimaliseerde Gradient Boosting-algoritmen (zoals XGBoost).

De oorzaak: XGBoost maakt gebruik van as-georiënteerde splitsen die natuurlijke, discrete regimes creëren in de data. Transformers zijn daarentegen van nature gladde functie-approximatoren die moeite hebben met deze onregelmatige, stuksgewijs constante patronen.
De uitdaging: Bestaande tabulaire Transformers missen vaak de discrete structuur van de data en leveren slechts punt-schattingen op, in plaats van goed gekalibreerde kansdichtheidsfuncties (PDF's), wat essentieel is voor onzekerheidskwantificering in voorspellingen.

Methodologie: RunTime

De auteurs introduceren RunTime, een Transformer-architectuur die specifiek is ontworpen voor tabulaire forecasting door het expliciet maken van discretisatie en het gebruik van adaptieve smoothing.

1. Discrete Tokenisatie en Architectuur

Discretisatie van Input en Output: In plaats van continue waarden direct te verwerken, worden zowel omgevingsvariabelen (temperatuur, wind, etc.) als de te voorspellen uitkomst (snelheid/pace) omgezet in discrete "bins" (vakken).
Token-grammatica: Elk evenement (bijv. een wedstrijd) wordt weergegeven als een sequentie van tokens:
- Kwantitatieve tokens: Gediscretiseerde numerieke bereiken (snelheid, weer).
- Categorische tokens: Semantische informatie (geslacht, weertype).
- Tijd-tokenen: Expliciete tokens voor tijdsverschillen (weken sinds de laatste wedstrijd, weken tot de doelwedstrijd) om de cadans en onregelmatige tijdsintervallen te modelleren.
Causale Transformer: Het model gebruikt een decoder-only Transformer (6 lagen, 8 heads) die causale masking toepast. Het leest de geschiedenis van een atleet als een taalsequentie en voorspelt de volgende snelheid-token autoregressief.

2. Adaptieve Gaussische Smoothing (Soft Targets)
In plaats van harde "one-hot" labels (zoals bij standaard classificatie), gebruikt het model Gaussische geïntegreerde soft targets.

Doel: Behoud van de ordinaal structuur. Een bin dicht bij de werkelijke waarde krijgt credit, wat zorgt voor een soepelere leercurve.
Adaptieve $\sigma$ : De breedte van de Gaussische verdeling ( $\sigma$ ) is niet constant. Deze wordt dynamisch aangepast op basis van de bin-breedte ( $w_i$ ):
$\sigma_i = \sqrt{\sigma_{floor}^2 + (k \cdot w_i)^2}$
Hierbij zorgt $\sigma_{floor}$ voor een minimale smoothing bij smalle bins, terwijl $k$ bepaalt hoe sterk de bin-breedte de smoothing beïnvloedt. Dit voorkomt dat brede bins onnodig veel massa verliezen en smalle bins te scherp worden.

3. Evaluatie en Data

Dataset: Gebaseerd op de NYRR 9+1-programma met 600.000 unieke lopers (5 miljoen trainingsvoorbeelden).
Entity-disjoint splits: De trainings-, validatie- en testsets bevatten geen overlappende lopers. Dit voorkomt dat het model individuele lopers "uit het hoofd leert" en test echt op generalisatie naar nieuwe lopers.
Doel: Voorspelling van een volledige kansdichtheidsfunctie (PDF) over de snelheidsbins, niet alleen een puntwaarde.

Belangrijkste Bijdragen

Architectueel Inzicht: Het bewijs dat het expliciet maken van discrete regimes (via tokenisatie) de prestaties van Transformers op tabulaire data aanzienlijk verbetert, zelfs zonder grotere modellen.
Adaptieve Smoothing: Een nieuwe methode voor Gaussische smoothing die zich aanpast aan heterogene bin-breedtes, wat leidt tot beter gekalibreerde PDF's.
Calibratie zonder Post-hoc: Het model produceert van nature goed gekalibreerde voorspellingen zonder de noodzaak van post-hoc temperatuur-schaling (temperature scaling).
Methodologie voor Analyse: Introductie van gestratificeerde calibratie-analyse om te diagnosticeren waar miscalibratie optreedt (bijv. per deciel of snelheidsklasse).

Resultaten

Het RunTime-model presteert significant beter dan de huidige state-of-the-art baselines:

Prestatie vs. XGBoost: RunTime verslaat een geoptimaliseerde XGBoost met 10,8% op de mediane MAE (Mean Absolute Error).
- RunTime: 35,94s
- XGBoost: 40,31s
Calibratie: Het model bereikt een Kolmogorov-Smirnov (KS) statistiek van 0,0045, wat aangeeft dat de voorspelde verdelingen extreem goed overeenkomen met de werkelijke verdelingen.
Ablatie Studies:
- Het verwijderen van tijdsverschil-tokens (time-delta tokens) leidt tot een prestatieverlies van ~1,8% en vertraagt het trainen aanzienlijk.
- Het willekeurig herschudden van de historische volgorde (verlies van chronologische orde) kost ongeveer 2,0% aan prestatie, wat aantoont dat de Transformer afhankelijk is van de juiste cadans.
Efficiëntie: Ondanks de complexiteit van een Transformer, is het model sneller in training en inferentie dan de geoptimaliseerde XGBoost-baseline in dit specifieke scenario.

Betekenis en Conclusie

Dit paper breekt het paradigma dat Gradient Boosting onverslaanbaar is voor tabulaire data. Door discretisatie te combineren met attention-mechanismen en adaptieve smoothing, kunnen Transformers niet alleen nauwkeurigere puntvoorspellingen leveren, maar ook goed gekalibreerde kansverdelingen genereren.

Dit is cruciaal voor toepassingen waar onzekerheid management essentieel is (zoals risicobeheer, medische prognoses of sportprestaties). De methode is niet beperkt tot hardlopen; de auteurs tonen aan dat deze aanpak (discretisatie + adaptieve smoothing) generaliseert naar elke taak met ordinaal regressie en heterogene bin-breedtes. Het paper biedt een blauwdruk voor het bouwen van toekomstige tabulaire modellen die zowel robuust als interpretabel zijn.

Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Het Grote Geheim: Waarom AI beter is met "blokken" dan met "lijnen"

De Drie Magische Trucs

1. Het "Blokken" van de Wereld (Discretisatie)

2. De "Zachte" Voorspelling (Gladde Glazen)

3. Het "Tijds-ritme" (De Klokketjes)

Wat was het resultaat?

Waarom is dit belangrijk voor de rest van ons?

Probleemstelling

Methodologie: RunTime

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions