Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Detektiv, der versucht herauszufinden, welche Zeugen in einem Fall wirklich wichtig sind und welche nur zufällig anwesend sind.

In der Welt der modernen künstlichen Intelligenz (KI) passiert oft Folgendes: Ein riesiger, super-schneller Computer (ein sogenanntes „Black-Box"-Modell) sagt Ihnen, was passieren wird. Er ist extrem gut darin, Vorhersagen zu treffen. Aber wenn Sie ihn fragen: „Warum hast du das gesagt? Ist dieser eine spezifische Hinweis wirklich wichtig?", antwortet er oft nur: „Ich weiß es nicht genau, aber es sieht gut aus."

Das ist das Problem, das dieser Artikel löst.

Das Problem: Der „Rauschen"-Effekt

Stellen Sie sich vor, Sie versuchen zu erraten, ob es morgen regnet. Sie haben zwei Hinweise:

Der Himmel ist grau.
Ihre Nachbarin trägt einen gelben Regenschirm.

Wenn Sie nur auf den gelben Schirm schauen, denken Sie vielleicht: „Aha! Gelber Schirm = Regen!" Aber warten Sie mal. Ihre Nachbarin trägt den Schirm nur, weil der Himmel grau ist. Der Schirm selbst bringt keine neue Information. Er ist nur ein Begleiter des eigentlichen Grundes (der graue Himmel).

In der Datenanalyse nennen wir das Korrelation. Viele KI-Modelle verwechseln diese Begleiter mit den wahren Ursachen. Sie sagen: „Der gelbe Schirm ist wichtig!", obwohl er nur ein Spiegelbild des wahren Grundes ist. Bisher gab es keine verlässliche Methode, um KI-Modelle zu zwingen, den Unterschied zwischen „wichtig" und „nur zufällig da" statistisch zu beweisen.

Die Lösung: Ein cleverer Trick mit einem „Zauberwürfel"

Die Autoren dieses Papers haben eine neue Methode entwickelt, die zwei Dinge kombiniert:

Den Conditional Randomization Test (CRT): Das ist wie ein wissenschaftlicher „Was-wäre-wenn"-Test.
TabPFN: Das ist ein spezielles, vorgefertigtes KI-Modell (ein sogenanntes „Foundation Model"), das wie ein Genie ist, das schon alles über Tabellen gelernt hat, bevor es überhaupt Ihren Datensatz gesehen hat.

Wie funktioniert der Trick? (Die Analogie)

Stellen Sie sich vor, Sie haben einen Teller mit 100 Zutaten für einen Kuchen. Sie wollen wissen, ob das Zimt wirklich für den Geschmack verantwortlich ist oder ob es nur zufällig mit dem Zucker zusammenkommt.

Der Test läuft so ab:

Der Original-Versuch: Sie backen den Kuchen mit den echten Zutaten und schmecken ihn. (Das ist Ihre echte Vorhersage).
Der „Was-wäre-wenn"-Versuch: Jetzt nehmen Sie den Zimt weg. Aber statt ihn einfach zu löschen, mischen Sie ihn neu ein! Sie nehmen den Zimt aus dem Teller und tauschen ihn gegen einen Zimt aus, der genau so aussieht wie der echte, aber zufällig ausgewählt wurde, basierend auf den anderen Zutaten (Zucker, Mehl, Eier).
- Wichtig: Dieser neue Zimt hat keine Verbindung mehr zum echten Geschmack, aber er passt trotzdem perfekt zu den anderen Zutaten.
Der Vergleich: Sie backen den Kuchen mit dem „gefälschten" Zimt und schmecken ihn.
- Wenn der Kuchen mit dem echten Zimt viel besser schmeckt als mit dem gefälschten, dann war der echte Zimt wirklich wichtig.
- Wenn beide Kuchen gleich gut schmecken, dann war der Zimt nur ein Begleiter und nicht der Grund für den Geschmack.

Diesen Vorgang wiederholen sie tausendfach. Wenn der echte Zimt in fast allen Fällen besser abschneidet, können Sie mit mathematischer Sicherheit sagen: „Ja, Zimt ist wichtig!" und einen p-Wert (eine Art Wahrscheinlichkeits-Ausweis) dafür ausstellen.

Warum ist das neu und toll?

Bisherige Methoden hatten zwei große Schwächen:

Sie waren zu starr: Alte Statistiken gingen davon aus, dass Daten wie eine gerade Linie aussehen (wie bei einer Waage). Aber die Welt ist oft krumm und verworren (nicht-linear).
Sie waren nur Beschreibungen: Methoden wie „SHAP-Werte" sagen Ihnen nur: „Dieser Faktor hat 20% zum Ergebnis beigetragen." Sie sagen aber nicht: „Ist das Zufall oder ist es echt?"

Die Magie von TabPFN:
Das verwendete Modell, TabPFN, ist wie ein erfahrener Koch, der schon Millionen von Rezepten probiert hat. Er muss nicht erst lernen, wie man backt. Er kann sofort sagen: „Wenn ich den Zimt gegen einen zufälligen austausche, wie verändert sich der Geschmack?"
Dadurch können die Autoren:

Komplexe, krumme Zusammenhänge testen.
Keine neuen Modelle trainieren müssen (es geht schnell).
Einen verlässlichen Beweis (p-Wert) liefern, der auch bei kleinen Datenmengen funktioniert.

Das Ergebnis im echten Leben

Die Autoren haben ihren Trick an vielen verschiedenen „Szenarien" getestet:

Wo nur wenige Dinge wichtig waren (wie ein Nadel im Heuhaufen).
Wo alles miteinander verwoben war (wie ein Knäuel Wollfäden).
Wo die Zusammenhänge völlig verrückt waren (wie ein Zauberkunststück).

Das Ergebnis:
Der Test hat fast immer richtig erkannt, wer der echte „Schuldige" (wichtige Variable) ist und wer nur ein „Begleiter" (zufällige Korrelation) war. Er hat dabei fast nie einen Fehler gemacht, indem er einen Unschuldigen verurteilt hat (das nennt man „Typ-I-Fehler").

Fazit

Dieser Artikel zeigt uns, wie wir moderne, super-mächtige KI-Modelle mit alter, bewährter mathematischer Strenge verbinden können.

Stellen Sie sich vor, Sie haben einen Wahrsager, der immer richtig liegt. Früher konnten Sie ihm nicht trauen, weil Sie nicht wussten, warum er recht hatte. Mit dieser neuen Methode können Sie ihm jetzt eine Brille aufsetzen, die ihm zeigt: „Hey, dieser eine Hinweis ist wirklich der Grund, warum du recht hast. Die anderen sind nur Ablenkung."

Das ist ein riesiger Schritt hin zu KI, der wir nicht nur blind vertrauen, sondern die wir auch verstehen und verifizieren können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne Machine-Learning-Modelle (z. B. neuronale Netze, Ensemble-Methoden und Foundation Models) erreichen oft hervorragende Vorhersageleistungen, bieten jedoch kaum statistisch valide Inferenzmöglichkeiten. Ein zentrales Defizit ist die Unfähigkeit, gültige p-Werte für die Frage zu liefern, ob einzelne Merkmale (Features) konditionell relevant für die Zielvariable sind.

Herausforderung: Herkömmliche Methoden wie Shapley-Werte sind deskriptiv, aber nicht inferentiell; sie quantifizieren den Beitrag eines Merkmals, testen aber nicht auf statistische Signifikanz.
Limitationen bestehender Ansätze: Klassische statistische Tests (z. B. partielle Korrelation) setzen oft Linearität oder Normalverteilung voraus. Heuristische Methoden (Permutation Importance, SHAP, LIME) liefern keine formalen Garantien für den Fehler 1. Art (Type-I-Error), insbesondere bei korrelierten Merkmalen oder nichtlinearen Zusammenhängen.
Ziel: Die Entwicklung eines Verfahrens, das konditionale Unabhängigkeitstests ( $Y \perp\!\!\perp X_j | X_{-j}$ ) für beliebige tabellarische Daten durchführt, ohne parametrische Annahmen zu treffen und mit gültigen p-Werten auch bei kleinen Stichprobengrößen (finite-sample validity).

2. Methodik

Der vorgeschlagene Ansatz kombiniert den Conditional Randomization Test (CRT) mit TabPFN, einem probabilistischen Transformer-Modell für tabellarische Daten.

A. Der Conditional Randomization Test (CRT)

Der CRT testet die Nullhypothese, dass ein Merkmal $X_j$ keine zusätzlichen Informationen über $Y$ liefert, sobald alle anderen Merkmale $X_{-j}$ bekannt sind.

Nullverteilung: Anstatt die Daten zu permutieren, werden die beobachteten Werte von $X_j$ durch Stichproben aus der bedingten Verteilung $p(X_j | X_{-j})$ ersetzt. Dies erhält die Abhängigkeitsstruktur der Kovariaten, bricht aber den direkten Zusammenhang mit $Y$ .
Teststatistik: Es wird die Expected Log Predictive Density (ELPD) verwendet. Diese misst, wie gut ein Modell die Zielvariable vorhersagt.
$T_{obs} = \frac{1}{n} \sum_{i=1}^n \log p(y_i | x_i)$
p-Wert-Berechnung: Der beobachtete Teststatistik-Wert wird mit den Werten aus $B$ bedingt randomisierten Datensätzen verglichen. Der p-Wert wird als Anteil der Null-Statistiken berechnet, die größer oder gleich dem beobachteten Wert sind. Dies garantiert gültige p-Werte für endliche Stichproben.

B. Integration von TabPFN

Die größte Herausforderung beim CRT ist die genaue Modellierung der bedingten Verteilung $p(X_j | X_{-j})$ . Hier kommt TabPFN ins Spiel:

Probabilistischer Foundation Model: TabPFN ist ein vortrainierter Transformer, der auf synthetischen Daten trainiert wurde und Bayesian-Inferenz in einem einzigen Forward-Pass durchführt.
Doppelte Rolle:
1. Vorhersagemodell: Schätzung von $p(Y | X)$ zur Berechnung der Teststatistik (ELPD).
2. Bedingter Sampler: Schätzung von $p(X_j | X_{-j})$ zur Generierung der Null-Stichproben.
Vorteil: Da TabPFN keine taskspezifische Neu-Training erfordert, ist das Verfahren flexibel und rechnerisch effizient im Vergleich zu Methoden, die für jedes Null-Sample ein neues Modell trainieren müssen.

3. Wichtige Beiträge

Validität ohne Parametrisierung: Das Verfahren liefert gültige p-Werte für konditionale Feature-Relevanz in nichtlinearen, korrelierten und gemischten Datentypen, ohne parametrische Annahmen (z. B. Linearität) zu treffen.
Kombination von Foundation Models und Inferenz: Es wird erstmals gezeigt, wie ein Foundation Model (TabPFN) als probabilistische Engine für rigorose statistische Tests genutzt werden kann, ohne die Flexibilität moderner ML-Modelle zu opfern.
Unterscheidung von marginaler und konditionaler Relevanz: Im Gegensatz zu Shapley-Werten kann die Methode korrekt zwischen Merkmalen unterscheiden, die nur marginal korreliert sind, und solchen, die konditionell relevant sind.
Open Source: Eine Referenzimplementierung mit allen Experimenten ist verfügbar.

4. Ergebnisse

Die Methode wurde an einem umfassenden Satz synthetischer Datensätze evaluiert, die lineare, nichtlineare, interaktionsbasierte und korrelierte Szenarien abdecken.

Kontrolle des Fehlers 1. Art (Type-I Error): In den meisten Szenarien (linear, Friedman-Datensätze, XOR-Interaktionen) liegt der empirische Type-I-Error nahe am nominalen Niveau ( $\alpha = 0.05$ ) oder darunter. Die p-Werte für irrelevante Merkmale folgen annähernd der Gleichverteilung $U(0,1)$ .
Teststärke (Power): Die Methode zeigt eine hohe Power (Erkennungswahrscheinlichkeit relevanter Merkmale). In 8 von 11 Datensätzen wurde eine perfekte Detektion (Power = 1.00) erreicht.
Herausforderungen:
- Bei stark korrelierten Merkmalen oder sehr schwachen Signalen (z. B. "Weak Signal", "Correlated Linear") trat ein moderat erhöhter Type-I-Error auf (bis 0.10). Dies deutet darauf hin, dass die Genauigkeit der Approximation von $p(X_j | X_{-j})$ durch TabPFN kritisch für die Kalibrierung ist.
- Bei komplexen nichtlinearen Interaktionen (Friedman 2 & 3) sank die Power, blieb aber signifikant über Null.
Kalibrierung: QQ-Plots bestätigten eine stabile Kalibrierung der Nullverteilung über verschiedene Datengenerierungsprozesse hinweg.

5. Bedeutung und Ausblick

Dieses Paper stellt einen wichtigen Schritt dar, um Black-Box-Modelle in einen rigorosen statistischen Rahmen zu integrieren.

Praktische Relevanz: Für Anwendungen in Medizin, Wirtschaft und Naturwissenschaften, wo interpretierbare und statistisch fundierte Entscheidungen erforderlich sind, bietet die Methode eine Alternative zu rein heuristischen Feature-Importance-Maßen.
Effizienz: Da TabPFN kein taskspezifisches Training benötigt, ist das Verfahren effizienter als Ansätze, die auf wiederholtem Retraining oder adversariellen Trainings basieren.
Zukünftige Arbeiten:
- Skalierung auf sehr große Datensätze und hochdimensionale Feature-Räume (derzeitige Limitierung von TabPFN).
- Integration mit kausalen Inferenz-Frameworks (z. B. DAGs) für kausale Aussagen.
- Entwicklung von Diagnosewerkzeugen, um die Qualität der bedingten Modellierung zu überwachen und die Zuverlässigkeit der p-Werte in der Praxis zu bewerten.

Fazit: Die Arbeit demonstriert erfolgreich, dass moderne Foundation Models genutzt werden können, um gültige, finite-sample Inferenz für tabellarische Daten zu ermöglichen, ohne dabei die Modellflexibilität zu opfern. Dies ist ein entscheidender Baustein für verantwortungsvolle Data Science in hochriskanten Domänen.