Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Each language version is independently generated for its own context, not a direct translation.

🎲 Voorspellen is meer dan alleen een getal noemen

Stel je voor dat je een vriend vraagt: "Wat wordt de temperatuur morgen?"
De huidige standaard in de wereld van kunstmatige intelligentie (AI) is om te zeggen: "Het wordt precies 15 graden."

Dit artikel, geschreven door Jonas Landsgesell en Pascal Knoll, zegt: "Dat is niet genoeg!"

In de echte wereld is het weer niet altijd 15 graden. Het kan 10 graden zijn, maar ook 20. Als je alleen 15 graden zegt, geef je geen idee van het risico. Wat als het stormt? Wat als het vriest?

De auteurs zeggen dat moderne AI-modellen (zoals TabPFN en TabICL) eigenlijk al heel slim zijn. Ze kunnen niet alleen één getal voorspellen, maar een heel spectrum van mogelijkheden. Ze kunnen zeggen: "Er is 20% kans op 10 graden, 60% kans op 15 graden, en 20% kans op 20 graden." Dit noemen ze distributieel regressie (het voorspellen van een hele verdeling in plaats van één punt).

🎯 Het probleem: De verkeerde meetlat

Het probleem is dat we deze slimme modellen nog steeds beoordelen met de oude, saaie meetlat.
Stel je voor dat je een dartspeler beoordeelt.

De oude manier: Je kijkt alleen naar de afstand van de pijl tot het midden van het bord (de 'gemiddelde' score).
Het probleem: Als de speler drie keer in de rand van het bord zit (dicht bij het doel, maar niet precies in het midden), scoort hij volgens de oude meting slecht. Maar als hij één keer precies in het midden zit en twee keer ver naast het bord, scoort hij misschien 'gemiddeld' goed, terwijl hij onbetrouwbaar is.

De auteurs zeggen: "We moeten stoppen met alleen kijken naar het gemiddelde (zoals de 'gemiddelde fout' of MSE). We moeten kijken naar de hele voorspelling."

📏 De nieuwe meetlat: De "Proper Scoring Rules"

Om te weten of een AI goed is in het voorspellen van onzekerheid, gebruiken de auteurs speciale meetlaten die ze "Proper Scoring Rules" noemen.

Hier zijn twee belangrijke voorbeelden uit het artikel, vertaald naar analogieën:

1. De Log-Score (De "Perfecte Gokker")

Stel je voor dat je een dobbelsteen gooit.

Als je zegt: "Het wordt een 6" en er valt een 6, krijg je een enorme beloning.
Maar als er een 1 valt, krijg je een straf die oneindig groot is.
Gevolg: Deze meetlat is extreem streng. De AI probeert dan alles te doen om één specifiek getal perfect te voorspellen, en negeert de rest. Dit werkt goed als je alleen geïnteresseerd bent in één exacte uitkomst, maar gevaarlijk als je de hele situatie wilt begrijpen.

2. De CRPS (De "Eerlijke Rekenmeester")

Dit is de favoriete meetlat van de auteurs.
Stel je voor dat je een voorspelling doet over de lengte van mensen in een stad.

Als je zegt: "Iedereen is 180 cm" en er loopt een persoon van 150 cm voorbij, is dat een fout.
Maar als je zegt: "De meeste mensen zijn tussen de 160 en 190 cm", en er loopt iemand van 150 cm voorbij, is dat ook een fout, maar minder erg dan bij de eerste situatie.
Het idee: De CRPS straft je af op basis van hoe ver je voorspelling van de werkelijkheid af ligt, maar hij houdt rekening met de afstand. Als je voorspelt dat het 15 graden is en het is 16, is dat minder erg dan als je voorspelt dat het 10 graden is.
Waarom is dit beter? Het dwingt de AI om een eerlijk beeld te schetsen van de hele kansverdeling, inclusief de uitschieters.

🎨 Waarom maakt de keuze van de meetlat uit?

Dit is het meest interessante deel van het artikel. De auteurs tonen aan dat de meetlat bepaalt wat de AI leert.

Stel je voor dat je een schilderij laat maken.

Als je de schilder zegt: "Maak het zo realistisch mogelijk" (Log-Score), zal hij proberen elke penseelstreek perfect te zetten, maar hij kan gaan panikeren als er een vlekje verf op het doek valt.
Als je zegt: "Maak het zo dat het eruitziet alsof het een zonnige dag is" (CRPS), zal hij de hele sfeer vastleggen, inclusief de wolken en de schaduwen.

In het artikel laten ze zien dat als je een AI traint met de ene meetlat, hij beter wordt in het voorspellen van het gemiddelde. Als je hem traint met een andere meetlat, wordt hij beter in het voorspellen van de uitersten (zoals extreme stormen of crashen van de beurs).

De les: Er is geen "beste" AI voor alles. De beste AI hangt af van wat jij wilt bereiken.

Wil je weten wat de gemiddelde verkoop is? Gebruik dan de oude meetlat.
Wil je weten wat de risico's zijn (bijvoorbeeld: wat als de verkoop extreem laag is)? Dan moet je de AI trainen met de nieuwe meetlat (CRPS).

🚀 Wat betekent dit voor de toekomst?

De auteurs pleiten voor een revolutie in hoe we AI-modellen testen en gebruiken:

Stop met alleen kijken naar het gemiddelde: We moeten AI-modellen beoordelen op hoe goed ze de onzeekerheid voorspellen.
Gebruik de juiste meetlat: Als je een AI gebruikt voor een bank (waar een fout in de ene richting veel geld kost en in de andere richting niet), moet je de AI trainen met een meetlat die dat risico herkent.
Finetuning is nodig: De beste modellen (zoals TabPFN) zijn nu al slim, maar ze moeten misschien nog even "bijgespijkerd" worden (finetuning) met de juiste meetlat voor jouw specifieke probleem.

Samenvattend in één zin:

Het artikel zegt dat we stoppen met vragen aan AI: "Wat is het antwoord?" en beginnen te vragen: "Wat is de kans op elk mogelijk antwoord, en hoe goed past die kans bij de werkelijkheid?" Door de juiste meetlat te gebruiken, krijgen we AI's die niet alleen slim zijn, maar ook eerlijk over hun eigen onzekerheid.

Each language version is independently generated for its own context, not a direct translation.

Titel

Distributionale Regressie met Tabulaire Foundation Models: Het Evalueren van Probabilistische Voorspellingen via Proper Scoring Rules.

1. Het Probleem

Recente doorbraken in tabulaire deep learning, zoals Prior-Data Fitted Networks (PFN's) (bijv. TabPFN en TabICL), hebben de paradigma verschoven van gradient-boosted modellen naar in-context learning. Hoewel deze modellen ongeëvenaarde prestaties leveren op standaard benchmarks (gemeten via MSE of $R^2$ ), identificeeren de auteurs een fundamentele zwakte in de huidige evaluatiemethoden voor regressie:

Focus op punt-schattingen: Bestaande benchmarks (zoals TabArena en TALENT) evalueren voornamelijk de nauwkeurigheid van een enkel punt (de verwachting of het gemiddelde). Dit negeert de volledige kansverdeling en de aleatorische onzekerheid (de variabiliteit tussen datapunten).
Onvolledige evaluatie: Een punt-schatting (zoals het gemiddelde) kan in realistische scenario's (bijv. bimodale verdelingen) in gebieden vallen waar geen echte waarden voorkomen, waardoor de voorspelling nutteloos is voor besluitvorming.
Keuze van de Loss-functie: De keuze van de trainings- en evaluatiemetric (scoring rule) bepaalt de inductieve bias van het model. Verschillende proper scoring rules leiden tot verschillende optimale voorspellingen, zelfs als ze allemaal "goed" zijn in een theoretisch oneindig steekproef-sens.

2. Methodologie

De auteurs pleiten voor een verschuiving van punt-schattingen naar distributionele regressie, waarbij modellen een volledige kansdichtheidsfunctie (PDF) of een histogram voorspellen.

Proper Scoring Rules: In plaats van alleen MSE te gebruiken, worden strikt proper scoring rules ingezet. Een scoring rule $S$ is strikt proper als de verwachte score wordt geminimaliseerd als en slechts als de voorspelde verdeling overeenkomt met de ware verdeling.
Vergelijking van Scoring Rules:
- Log Score (Cross-Entropy): Strikt proper, maar zeer gevoelig voor de staarten van de verdeling. Bij eindige steekproeven kan één outlier de gradiënt domineren, wat leidt tot een overmatige focus op het aanpassen van de staarten ten koste van de centrale massa.
- Continuous Ranked Probability Score (CRPS): Robuuster voor eindige steekproeven. Het kan worden gezien als een integraal over "pinball losses" voor alle kwantielen. Het straft voorspellingen af op basis van de afstand tot de waarheid, wat geometrisch bewustzijn toevoegt (een voorspelling van 100 bij een waarheid van 10 wordt zwaarder gestraft dan 11).
- Beta Energy Score & CRLS: De auteurs testen ook de $\beta$ -energy score (waarbij $\beta=1$ overeenkomt met MAE/median en $\beta=2$ met MSE/mean) en de Continuous Ranked Logarithmic Scoring Rule (CRLS).
Experimenteel Opzet:
- Datasets: Een reeks OpenML datasets voor regressie.
- Modellen: Vergelijking tussen realTabPFNv2.5 (basis), finetuned TabPFN (met aangepaste loss functies), en TabICLv2.
- Validatie: 5-voudige cross-validatie op gesubsamplede datasets (3000 samples).
- Metrieken: Naast traditionele metrics (MAE, RMSE, $R^2$ ) worden probabilistische metrics gebruikt: CRPS, CRLS, Interval Score en Beta Energy Score.

3. Belangrijkste Bijdragen

Advies voor Benchmarking: De auteurs pleiten ervoor dat tabulaire regressie-benchmarks moeten evolueren om probabilistische metrics (voornamelijk CRPS) te omvatten in plaats van alleen punt-schattingen.
Evaluatie van State-of-the-Art: Eerste uitgebreide evaluatie van TabPFNv2.5 en TabICLv2 onder de lens van proper scoring rules.
Finetuning met Scoring Rules: Demonstratie dat het finetunen van foundation modellen met specifieke scoring rules (zoals Beta Energy Score of CRLS) de prestaties kan verbeteren ten opzichte van de basisversie, zelfs in eindige steekproef-scenario's.
Theoretisch Inzicht: Aantonen dat de keuze van de scoring rule de inductieve bias van het model verandert. Verschillende scoring rules belonen verschillende soorten fouten, wat betekent dat het "beste" model afhangt van de gekozen metric.
Toy Model Analyse: Een synthetisch experiment met een bimodale verdeling toont aan dat traditionele regressie (MSE) faalt om de verdeling te vangen, terwijl modellen getraind met CRPS de bimodaliteit correct modelleren.

4. Resultaten

Finetuning van TabPFN:
- Finetuning van realTabPFNv2.5 met de Beta(1.8)-Energy Score leidde tot gemiddelde verbeteringen in MAE (+4.28%), RMSE (+2.16%) en CRPS (+2.76%) ten opzichte van de basis.
- Finetuning met CRLS toonde vergelijkbare, soms sterkere verbeteringen in CRPS (+2.27%) en Interval Score (+3.87%).
TabICLv2 vs. TabPFN:
- TabICLv2 presteert over het algemeen beter dan realTabPFNv2.5 op probabilistische metrics.
- TabICLv2 wint op de meerderheid van de datasets in CRPS (+6.01% verbetering) en CRLS, hoewel de prestaties per dataset sterk variëren (bijv. grote winst op "Mercedes Benz", verliezen op "Puma8NH").
Afwijkingen: Hoewel de gemiddelde verbeteringen positief zijn, zijn ze in het mediane geval vaak bescheiden (< 2%). Dit benadrukt dat de keuze van de scoring rule en de datasetkarakteristieken cruciaal zijn.

5. Betekenis en Conclusie

Dit paper is een belangrijke waarschuwing en leidraad voor de gemeenschap van tabulaire machine learning:

Van Punt naar Verdeling: De overgang naar foundation modellen vereist een overgang in evaluatiemethoden. Het optimaliseren voor het gemiddelde (MSE) is niet langer voldoende voor complexe, real-world toepassingen waar onzekerheid en risico's een rol spelen.
Context is Koning: Er bestaat geen "beste" scoring rule voor alle doeleinden. De keuze hangt af van de risicostuctuur van het bedrijfsprobleem (bijv. in financiën is het onderschatten van verliezen vaak ernstiger dan het overschatten van winst).
Toekomstige Richting: De auteurs suggereren dat foundation modellen voor high-stakes toepassingen mogelijk moeten worden aangepast via finetuning of prompting (task-tokens) die specifiek zijn afgestemd op de gewenste scoring rule van de gebruiker, in plaats van een "one-size-fits-all" model te gebruiken.

Kortom, het paper stelt dat om de volle potentie van probabilistische tabulaire modellen te benutten, de evaluatie- en trainingsframeworks moeten worden herzien om rekening te houden met de volledige kansverdeling en de specifieke kosten van fouten in de toepassing.