Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Dit artikel introduceert een praktische methode die de Conditionele Randomisatietest combineert met het tabulaire foundationmodel TabPFN om geldige p-waarden te genereren voor het testen van de relevantie van individuele kenmerken, zelfs in complexe, niet-lineaire en gecorreleerde scenario's zonder dat hertraining of parametrische aannames nodig zijn.

Mohamed Salem

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superkrachtige voorspellingsmachine hebt. Deze machine kan zeggen of een patiënt ziek wordt, of een klant zal kopen, of een huis duur zal zijn. Maar er is een groot probleem: de machine is een "zwarte doos". Je ziet de uitkomst, maar je weet niet waarom hij tot die conclusie komt.

In de echte wereld willen we niet alleen weten wat er gaat gebeuren, maar ook welke factoren echt belangrijk zijn. Is het de leeftijd van de patiënt? Of is het het inkomen? En is dat inkomen echt belangrijk, of is het alleen belangrijk omdat mensen met een hoog inkomen vaak ook een bepaalde levensstijl hebben?

Dit artikel van Mohamed Salem lost precies dit probleem op. Het combineert twee dingen: een slimme, moderne AI (genaamd TabPFN) en een oude, betrouwbare statistische methode (de Conditional Randomization Test).

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Waarom"-Vraag

Stel je voor dat je een detective bent. Je hebt een verdachte (de voorspelling) en een lijst met mogelijke daders (de gegevens of features).

  • De oude manier (AI): De detective zegt: "Ik denk dat de dader de man met de rode hoed is." Maar hij kan niet bewijzen waarom. Misschien is de rode hoed alleen maar belangrijk omdat hij altijd samen met een paraplu wordt gedragen. Als je de paraplu weglaat, is de hoed misschien niets meer waard.
  • De statistische manier: Vroeger hadden detectives alleen maar simpele regels. Die waren betrouwbaar, maar ze konden geen complexe misdaden oplossen.
  • Het probleem nu: Moderne AI's zijn heel goed in het oplossen van complexe misdaden, maar ze geven geen "wettelijk bewijs" (p-waarden) dat je kunt gebruiken in de rechtbank. Ze geven alleen een gevoel van vertrouwen, maar geen harde feiten.

2. De Oplossing: De "Wisseltruc" (Conditional Randomization Test)

De auteurs gebruiken een slimme truc om te testen of een factor echt belangrijk is. Laten we het vergelijken met een kookwedstrijd.

Stel je voor dat je een gerecht proeft en het is heerlijk. Je wilt weten: Is de peper echt nodig voor deze smaak, of is het gewoon het zout?

  • De normale test: Je proeft het gerecht met peper en zout.
  • De "Wisseltruc" (CRT): Je neemt een kopie van het gerecht, maar je verwisselt de peper met willekeurige peperkorrels uit een andere pot (die je hebt gekozen op basis van wat er anders in het gerecht zit, zoals het zout).
    • Als het gerecht na het verwisselen nog steeds even lekker smaakt, dan was de oorspronkelijke peper waarschijnlijk niet zo belangrijk.
    • Als het gerecht na het verwisselen vies smaakt, dan was de peper essentieel.

In de statistiek doen ze dit met data. Ze nemen een variabele (bijv. "peper") en vervangen deze door willekeurige waarden die wel passen bij de andere variabelen (het "zout"), maar geen verband houden met het resultaat. Als de voorspelling dan kapotgaat, weet je: "Aha! Die variabele is echt belangrijk!"

3. De Helden: TabPFN (De "Super-Kok")

Om deze truc te doen, heb je iemand nodig die heel goed kan voorspellen hoe de "peper" eruit zou moeten zien als je alleen naar het "zout" kijkt. Dat is lastig als de relatie complex is (niet-lineair).

Hier komt TabPFN in het spel.

  • Wat is het? Stel je voor dat TabPFN een kok is die al duizenden kookboeken heeft gelezen voordat hij überhaupt in de keuken kwam. Hij heeft geen tijd nodig om te oefenen voor jouw specifieke gerecht. Hij komt binnen, kijkt even naar je ingrediënten, en zegt direct: "Als je dit zout hebt, is de kans 80% dat je deze peper nodig hebt."
  • Waarom is dit cool? Normaal moet je een AI eerst "trainen" (oefenen) voor elk nieuw probleem. TabPFN is al getraind op alles. Het werkt als een foundation model (een fundamenteel model): het is slim genoeg om direct te werken zonder extra training.

4. Wat levert dit op?

Door de "Wisseltruc" te combineren met de "Super-Kok" (TabPFN), krijgen we iets geweldigs:

  1. Betrouwbare antwoorden: We krijgen nu een getal (de p-waarde) dat wiskundig bewijst of een factor belangrijk is. Het is geen gok meer.
  2. Geen "schijnrelaties": Het kan onderscheid maken tussen iets dat alleen maar belangrijk lijkt omdat het samenhangt met iets anders (zoals de rode hoed en de paraplu), en iets dat echt de oorzaak is.
  3. Werkt voor alles: Of het nu gaat om lijnen, kromme lijnen, of gekke interacties tussen variabelen; deze methode werkt.

Samenvatting in één zin

Deze paper zegt: "We hebben een manier gevonden om super-slimme AI's te gebruiken om niet alleen voorspellingen te doen, maar ook om met wiskundige zekerheid te zeggen welke gegevens echt belangrijk zijn, zelfs in complexe situaties, zonder dat we de AI hoeven te hervormen."

Het is alsof we aan de zwarte doos een raampje hebben geknipt, zodat we eindelijk kunnen zien wat er binnenin gebeurt, en we kunnen bewijzen dat het niet toeval is.