Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superkrachtige voorspellingsmachine hebt. Deze machine kan zeggen of een patiënt ziek wordt, of een klant zal kopen, of een huis duur zal zijn. Maar er is een groot probleem: de machine is een "zwarte doos". Je ziet de uitkomst, maar je weet niet waarom hij tot die conclusie komt.

In de echte wereld willen we niet alleen weten wat er gaat gebeuren, maar ook welke factoren echt belangrijk zijn. Is het de leeftijd van de patiënt? Of is het het inkomen? En is dat inkomen echt belangrijk, of is het alleen belangrijk omdat mensen met een hoog inkomen vaak ook een bepaalde levensstijl hebben?

Dit artikel van Mohamed Salem lost precies dit probleem op. Het combineert twee dingen: een slimme, moderne AI (genaamd TabPFN) en een oude, betrouwbare statistische methode (de Conditional Randomization Test).

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Waarom"-Vraag

Stel je voor dat je een detective bent. Je hebt een verdachte (de voorspelling) en een lijst met mogelijke daders (de gegevens of features).

De oude manier (AI): De detective zegt: "Ik denk dat de dader de man met de rode hoed is." Maar hij kan niet bewijzen waarom. Misschien is de rode hoed alleen maar belangrijk omdat hij altijd samen met een paraplu wordt gedragen. Als je de paraplu weglaat, is de hoed misschien niets meer waard.
De statistische manier: Vroeger hadden detectives alleen maar simpele regels. Die waren betrouwbaar, maar ze konden geen complexe misdaden oplossen.
Het probleem nu: Moderne AI's zijn heel goed in het oplossen van complexe misdaden, maar ze geven geen "wettelijk bewijs" (p-waarden) dat je kunt gebruiken in de rechtbank. Ze geven alleen een gevoel van vertrouwen, maar geen harde feiten.

2. De Oplossing: De "Wisseltruc" (Conditional Randomization Test)

De auteurs gebruiken een slimme truc om te testen of een factor echt belangrijk is. Laten we het vergelijken met een kookwedstrijd.

Stel je voor dat je een gerecht proeft en het is heerlijk. Je wilt weten: Is de peper echt nodig voor deze smaak, of is het gewoon het zout?

De normale test: Je proeft het gerecht met peper en zout.
De "Wisseltruc" (CRT): Je neemt een kopie van het gerecht, maar je verwisselt de peper met willekeurige peperkorrels uit een andere pot (die je hebt gekozen op basis van wat er anders in het gerecht zit, zoals het zout).
- Als het gerecht na het verwisselen nog steeds even lekker smaakt, dan was de oorspronkelijke peper waarschijnlijk niet zo belangrijk.
- Als het gerecht na het verwisselen vies smaakt, dan was de peper essentieel.

In de statistiek doen ze dit met data. Ze nemen een variabele (bijv. "peper") en vervangen deze door willekeurige waarden die wel passen bij de andere variabelen (het "zout"), maar geen verband houden met het resultaat. Als de voorspelling dan kapotgaat, weet je: "Aha! Die variabele is echt belangrijk!"

3. De Helden: TabPFN (De "Super-Kok")

Om deze truc te doen, heb je iemand nodig die heel goed kan voorspellen hoe de "peper" eruit zou moeten zien als je alleen naar het "zout" kijkt. Dat is lastig als de relatie complex is (niet-lineair).

Hier komt TabPFN in het spel.

Wat is het? Stel je voor dat TabPFN een kok is die al duizenden kookboeken heeft gelezen voordat hij überhaupt in de keuken kwam. Hij heeft geen tijd nodig om te oefenen voor jouw specifieke gerecht. Hij komt binnen, kijkt even naar je ingrediënten, en zegt direct: "Als je dit zout hebt, is de kans 80% dat je deze peper nodig hebt."
Waarom is dit cool? Normaal moet je een AI eerst "trainen" (oefenen) voor elk nieuw probleem. TabPFN is al getraind op alles. Het werkt als een foundation model (een fundamenteel model): het is slim genoeg om direct te werken zonder extra training.

4. Wat levert dit op?

Door de "Wisseltruc" te combineren met de "Super-Kok" (TabPFN), krijgen we iets geweldigs:

Betrouwbare antwoorden: We krijgen nu een getal (de p-waarde) dat wiskundig bewijst of een factor belangrijk is. Het is geen gok meer.
Geen "schijnrelaties": Het kan onderscheid maken tussen iets dat alleen maar belangrijk lijkt omdat het samenhangt met iets anders (zoals de rode hoed en de paraplu), en iets dat echt de oorzaak is.
Werkt voor alles: Of het nu gaat om lijnen, kromme lijnen, of gekke interacties tussen variabelen; deze methode werkt.

Samenvatting in één zin

Deze paper zegt: "We hebben een manier gevonden om super-slimme AI's te gebruiken om niet alleen voorspellingen te doen, maar ook om met wiskundige zekerheid te zeggen welke gegevens echt belangrijk zijn, zelfs in complexe situaties, zonder dat we de AI hoeven te hervormen."

Het is alsof we aan de zwarte doos een raampje hebben geknipt, zodat we eindelijk kunnen zien wat er binnenin gebeurt, en we kunnen bewijzen dat het niet toeval is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Moderne machine learning-modellen (zoals neurale netwerken en foundation models) zijn uiterst expressief en presteren vaak uitstekend in voorspellingen, maar ze missen cruciale statistische inferentiële eigenschappen.

Gebrek aan geldige p-waarden: In tegenstelling tot klassieke statistische modellen (zoals lineaire regressie) die direct hypothesetoetsen en betrouwbaarheidsintervallen bieden, leveren "black-box" modellen doorgaans alleen voorspellingen.
Beperkingen van bestaande methoden: Bestaande methoden voor feature-importance, zoals Shapley-waarden (SHAP), zijn fundamenteel beschrijvend en niet inferentieel. Ze kwantificeren de bijdrage van een feature aan een specifiek model, maar testen niet of deze bijdrage statistisch significant is. Bovendien verwarren ze vaak marginale relevantie met conditionele relevantie, vooral bij gecorreleerde features.
De kernvraag: Hoe kunnen we rigoureus testen of een specifieke covariabele ( $X_j$ ) informatie bevat over het doelvariabele ( $Y$ ), geconditioneerd op alle andere covariabelen ( $X_{-j}$ )? Dit vereist een toets voor conditionele onafhankelijkheid, wat traditioneel moeilijk is bij niet-lineaire, kleine of gemengde tabulaire datasets zonder parametrische aannames.

Methodologie

Het artikel presenteert een procedure die de Conditional Randomization Test (CRT) combineert met TabPFN, een probabilistische foundation model voor tabulaire data.

Hypothese: De nulhypothese ( $H_0$ ) stelt dat $Y \perp \perp X_j \mid X_{-j}$ . Als deze wordt verworpen, is $X_j$ conditioneel relevant voor $Y$ .
Het CRT-Frame:
- De CRT vervangt de waargenomen waarden van een feature $X_j$ door nieuwe waarden getrokken uit de conditionele verdeling $p(X_j \mid X_{-j})$ .
- Hierdoor blijft de afhankelijkheidsstructuur tussen de covariabelen behouden, maar wordt de directe link tussen $X_j$ en $Y$ verbroken.
- Een teststatistiek wordt berekend op de originele data en vergeleken met de verdeling van deze statistiek op de gerandomiseerde data (de nulverdeling).
Rol van TabPFN:
- Een centrale uitdaging bij CRT is het nauwkeurig modelleren van $p(X_j \mid X_{-j})$ . Traditionele methoden vereisen vaak parametrische aannames of het trainen van aparte generatieve modellen.
- TabPFN (een transformer die is getraind via in-context learning op synthetische data) lost dit op. Het kan in één doorloop (forward pass) een geparametriseerde posterior predictieve verdeling genereren zonder taak-specifiek hertrainen.
- TabPFN wordt gebruikt voor twee doelen:
  1. Het schatten van $p(Y \mid X)$ om de voorspellende prestatie te evalueren.
  2. Het schatten van $p(X_j \mid X_{-j})$ om conditioneel geldige null-features te genereren.
Teststatistiek: De auteurs gebruiken de Expected Log Predictive Density (ELPD) als teststatistiek. Dit is een proper scoring rule die de kwaliteit van de voorspelling meet. De p-waarde wordt berekend als een Monte Carlo-schatting:
$p = \frac{1 + \sum_{b=1}^{B} I\{T^{(b)} \geq T_{obs}\}}{B + 1}$
Waarbij $T_{obs}$ de statistiek op de originele data is en $T^{(b)}$ de statistiek op de $B$ gerandomiseerde datasets.

Belangrijkste Bijdragen

Geldige Inferentie voor Black-Box Modellen: De methode levert geldig p-waarden voor eindige steekproeven (finite-sample valid) voor feature-relevantie, zelfs in niet-lineaire en gecorreleerde settings.
Geen Hertraining Nodig: Door gebruik te maken van een vooraf getrainde foundation model (TabPFN) hoeft er geen specifiek model te worden getraind voor elke dataset of feature, wat de procedure computatie-efficiënt maakt ten opzichte van iteratieve benaderingen.
Scheiding van Marginale en Conditionele Relevantie: De methode onderscheidt expliciet tussen features die alleen correlatie tonen met andere variabelen en features die daadwerkelijk extra informatie toevoegen aan het model.
Open Source Implementatie: De auteurs bieden een referentie-implementatie beschikbaar, inclusief alle experimenten.

Resultaten

De methode werd geëvalueerd op een breed scala aan synthetische datasets, variërend van lineaire tot complexe niet-lineaire en interactieve scenario's.

Type-I Foutcontrole: In de meeste benchmarks (lineair, niet-lineair, interacties) bleef het empirische type-I foutpercentage dicht bij of onder het nominale niveau van $\alpha = 0.05$ . Dit bevestigt dat de p-waarden goed gekalibreerd zijn.
Power (Detectievermogen): De methode toonde een hoog detectievermogen (power), met perfecte detectie (power = 1.00) in 8 van de 11 geteste datasets, waaronder complexe scenario's zoals XOR-interacties en drempelwaarden.
Uitzonderingen:
- Bij zeer zwakke signalen of specifieke complexe niet-lineaire vormen (zoals Friedman 2 en 3) was de power lager.
- Bij sterk gecorreleerde features werd een licht verhoogde type-I fout (0.10) waargenomen, wat suggereert dat de kwaliteit van de schatting van $p(X_j \mid X_{-j})$ cruciaal is voor de kalibratie.
Visualisatie: QQ-plots en cumulatieve verdelingsfuncties (ECDF) bevestigden dat de p-waarden voor irrelevante features de Uniform(0,1) verdeling volgen, terwijl relevante features sterk naar nul convergeren.

Betekenis en Conclusie

Dit werk vertegenwoordigt een zeldzame synthese van de flexibiliteit van moderne machine learning (foundation models) en de strenge garanties van klassieke statistische inferentie.

Praktische Impact: Voor datawetenschappers in domeinen zoals geneeskunde en economie biedt deze methode een manier om feature-importance niet alleen te beschrijven, maar statistisch te onderbouwen zonder de voorspellende kracht van complexe modellen op te offeren.
Toekomstperspectief: Hoewel de methode momenteel afhankelijk is van de kwaliteit van de conditionele schatting door TabPFN, opent het de weg voor robuuste, interpreteerbare AI in hoog-risico domeinen. Toekomstig werk richt zich op schaalbaarheid naar zeer grote datasets en integratie met causale inferentie-frameworks.

Kortom, de paper demonstreert dat foundation models zoals TabPFN kunnen worden ingezet als een "probabilistische motor" om strikte, geldige statistische toetsen uit te voeren op tabulaire data, een stap die essentieel is voor verantwoord data science.

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

1. Het Probleem: De "Waarom"-Vraag

2. De Oplossing: De "Wisseltruc" (Conditional Randomization Test)

3. De Helden: TabPFN (De "Super-Kok")

4. Wat levert dit op?

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions