The Role of Feature Interactions in Graph-based Tabular Deep Learning

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom de 'Grote Brein' van AI soms de verkeerde vrienden kiest (en hoe we dat kunnen fixen)

Stel je voor dat je een superintelligente robot wilt bouwen die goed kan voorspellen wat er morgen gaat gebeuren, bijvoorbeeld of het gaat regenen of of een klant een product zal kopen. De robot krijgt een enorme lijst met gegevens (zoals temperatuur, luchtvochtigheid, de dag van de week, de prijs van de koffie, etc.). Dit noemen we tabulaire data.

Tot nu toe waren de slimste methoden om dit te doen eigenlijk heel oude, bewezen technieken (zoals beslissingsbomen, vergelijkbaar met een 'ja-nee' stroomdiagram). Nieuwe, diepe neurale netwerken (de 'hype' van AI) doen het hier vaak niet beter dan die oude methoden. Waarom?

De auteurs van dit paper zeggen: "Omdat die nieuwe robots de vriendschappen tussen de gegevens niet goed begrijpen."

Hier is wat ze hebben ontdekt, vertaald in simpele taal:

1. Het probleem: De robot ziet alles als één grote kluwen

Stel je voor dat je een detective bent die een moord moet oplossen. Je hebt 10 getuigen.

Getuige A zag de dader.
Getuige B zag Getuige A.
Getuige C zag Getuige B.

De echte relatie is dus: A → B → C. Getuige C heeft niets te maken met Getuige A, tenzij je via B gaat.

De huidige AI-modellen (die ze GTDL noemen) proberen deze vriendschappen te leren door een netwerk te tekenen. Ze zeggen: "Laten we aannemen dat iedereen met iedereen kan praten." Ze tekenen dus lijntjes tussen alle getuigen.

Het probleem is dat deze modellen, ondanks dat ze heel slim zijn in het voorspellen van het antwoord, helemaal niet weten welke lijntjes echt bestaan.

Ze tekenen een lijn tussen A en C, terwijl die er niet zou moeten zijn.
Ze tekenen een lijn tussen B en D, terwijl die ook niet bestaat.

Het is alsof de detective denkt dat iedereen met iedereen heeft gepraat. Ze kunnen het antwoord wel raden (misschien door geluk of door te veel informatie te verwerken), maar hun verhaal over hoe ze tot dat antwoord kwamen, is volledig verzonnen. Ze hebben de "waarheid" van de vriendschappen niet begrepen.

2. De test: De 'Gouden Kaart'

Om dit te bewijzen, hebben de onderzoekers een speciaal spel bedacht.
In plaats van echte, rommelige data, maakten ze synthetische data (kunstmatige data) waarbij ze precies wisten wie met wie bevriend was. Ze hadden een "Gouden Kaart" (de waarheid) in handen.

Ze lieten de AI-modellen spelen en vroegen: "Kunnen jullie de lijntjes op je kaart tekenen die overeenkomen met onze Gouden Kaart?"

Het resultaat was schokkend:
De AI-modellen deden het net zo goed als een muntje opgooien. Ze tekenden willekeurige lijntjes. Het was alsof ze blind doolden. Ze konden het antwoord voorspellen, maar ze hadden geen idee waarom. Hun interne "vriendschapskaart" was puur toeval.

3. De oplossing: De 'Tuinman'

Vervolgens deden ze iets interessants. Ze gaven de AI-modellen de Gouden Kaart zelf. Ze zeiden: "Oké, robot, vergeet je eigen verzonnen lijntjes. Gebruik alleen de lijntjes die wij je geven. Tuin je netwerk op."

Wat gebeurde er?
De voorspellingen werden beter.
Wanneer de AI gedwongen werd om alleen de echte, belangrijke relaties te gebruiken, werd hij slimmer en nauwkeuriger.

De les:
Het is niet genoeg om alleen het antwoord te voorspellen. Als je de onderliggende structuur (de vriendschappen tussen de gegevens) niet correct begrijpt, maak je fouten. Door de AI te dwingen de juiste structuur te respecteren, wordt hij niet alleen eerlijker (je kunt beter zien waarom hij iets zegt), maar ook slimmer.

4. Waarom doet de AI dit dan?

De onderzoekers zeggen dat de huidige AI-modellen te veel focus hebben op het voorspellen en te weinig op het leren van de structuur.

Het is alsof een student die voor een examen leert alleen de antwoorden uit het hoofd leert, zonder de theorie te begrijpen. Hij haalt misschien een 6, maar als de vragen iets anders zijn, faalt hij.
De AI probeert alle mogelijke wegen te nemen om het antwoord te vinden, in plaats van de kortste, echte weg te vinden.

Conclusie in één zin

Deze paper zegt: "Stop met alleen kijken naar hoe goed de AI het antwoord voorspelt. Kijk ook of de AI echt begrijpt hoe de gegevens met elkaar verbonden zijn. Als we de AI dwingen om de 'waarheid' van die verbindingen te leren, wordt hij niet alleen eerlijker, maar ook veel slimmer."

Kortom: Een goede voorspelling is leuk, maar een voorspelling gebaseerd op de juiste vriendschappen tussen de gegevens is pas echt krachtig.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "The Role of Feature Interactions in Graph-based Tabular Deep Learning" in het Nederlands.

Titel: De Rol van Feature-interacties in Graph-based Tabular Deep Learning (GTDL)

Publicatie: Transactions on Machine Learning Research (02/2026)
Auteurs: Elias Dubbeldam, Reza Mohammadi, Marit Schoonhoven, Ilker Birbil (Universiteit van Amsterdam)

1. Het Probleem

Hoewel deep learning succesvol is in domeinen zoals computer vision en NLP, blijft het op tabulaire data vaak onderpresteren ten opzichte van traditionele, boomgebaseerde methoden (zoals XGBoost of Random Forests). Een belangrijke oorzaak is de complexe aard van tabulaire data: features hebben vaak verschillende semantics en onderlinge relaties (feature-interacties) die dataset-specifiek, indirect en niet-lineair zijn.

Recente benaderingen, genaamd Graph-based Tabular Deep Learning (GTDL), proberen deze interacties te modelleren door features als knopen en hun relaties als randen in een graaf voor te stellen. Dit omvat zowel attention-based methoden (zoals Transformers) als Graph Neural Networks (GNN's).

De kernproblematiek:
Bestaande GTDL-methoden focussen bijna uitsluitend op het maximaliseren van de voorspellende nauwkeurigheid. Hierbij wordt de accurate modellering van de onderliggende graafstructuur verwaarloosd. De leerprocessen worden niet gestuurd om de ware interacties tussen features te ontdekken, maar alleen om de fout op de target te minimaliseren. Dit leidt tot twee risico's:

De geleerde graafstructuur (bijv. de attention map of de adjacency matrix) is vaak willekeurig en geeft geen zinvolle inzicht in de data.
De interpretatie van deze modellen (explainability) is onbetrouwbaar omdat de "geleerde" relaties niet overeenkomen met de werkelijkheid.

2. Methodologie

De auteurs introduceren een rigoureus evaluatiekader om te testen of GTDL-methoden daadwerkelijk de onderliggende graafstructuur van de data kunnen leren.

A. Synthetische Data Generatie
Omdat real-world datasets zelden een "ground truth" graafstructuur hebben, gebruiken de auteurs twee methoden om synthetische datasets te genereren met bekende onderliggende structuren:

Multivariate Normale Verdelingen (MVN): Gebaseerd op Probabilistische Grafische Modellen (PGM's). Hierbij wordt een graaf getrokken uit een Bernoulli-verdeling, gevolgd door een covariantiematrix uit een G-Wishart-verdeling.
Structural Causal Models (SCM): Gebaseerd op gerichte acyclische grafen (DAG's). De data wordt gegenereerd via niet-lineaire functies tussen knopen. De onderliggende ongerichte graaf wordt verkregen door moralisatie en marginalisatie van de DAG.

In beide gevallen is de ware graafstructuur ( $G_{true}$ ) bekend, wat een directe vergelijking mogelijk maakt.

B. Evaluatiemetrics
De auteurs evalueren de kwaliteit van de geleerde graaf ( $A_{pred}$ ) door deze te vergelijken met de ware graaf ( $A_{true}$ ) met behulp van de ROC AUC (Receiver Operating Characteristic Area Under Curve).

Een ROC AUC van 0,5 betekent willekeurige voorspelling.
Een waarde dicht bij 1,0 betekent dat het model de ware interacties perfect heeft leren onderscheiden van niet-interacties.

C. Experimenteel Ontwerp
De auteurs testen meerdere bestaande GTDL-methoden (zowel expliciete GNN's als impliciete attention-methoden) in twee scenario's:

Volledig verbonden graaf (Fully Connected): De standaardinstelling waarbij het model alle mogelijke interacties moet leren filteren.
Geprepareerde graaf (Pruned Graph): De graaf wordt beperkt tot alleen de ware randen ( $G_{true}$ ). Hierdoor wordt het model gedwongen om alleen op de juiste interacties te vertrouwen.

De prestaties worden vergeleken met baselines zoals BDgraph (een PGM-methode), XGBoost en TabPFN.

3. Belangrijkste Bijdragen

Kritische Analyse van GTDL: Het artikel toont aan dat bestaande state-of-the-art GTDL-methoden (zoals FT-Transformer, FiGNN, T2G-Former, INCE) niet in staat zijn om betekenisvolle feature-interacties te leren. Hun ROC AUC-score ligt rond de 0,5, wat neerkomt op willekeur.
Validatiekader: De auteurs bieden een nieuw, kwantitatief evaluatiekader met synthetische data en ROC AUC-metrics om de structuurleer van tabulaire modellen te testen, in plaats van alleen te vertrouwen op kwalitatieve visualisaties.
Het belang van Structurele Fideliteit: Het experiment toont aan dat het forceren van de ware graafstructuur (door pruning) de voorspellende prestaties significant verbetert, vooral bij kleinere datasetgroottes. Dit bewijst dat de huidige methoden de structuur niet goed leren, maar dat het wel essentieel is voor goede prestaties.
Onderscheid tussen Attention en GNN: Het werk benadrukt dat zowel attention-mechanismen als message-passing in GNN's op tabulaire data momenteel niet effectief werken voor het ontdekken van de onderliggende graafstructuur.

4. Resultaten

Slecht herstel van structuur: Alle geteste GTDL-modellen behaalden een ROC AUC van ongeveer 0,5 op zowel MVN- als SCM-datasets. Dit betekent dat ze niet kunnen onderscheiden welke features met elkaar interageren en welke niet. Zelfs het verhogen van het aantal trainingsdata (tot $10^5$ samples) verbeterde dit niet significant.
Vergelijking met PGM: De probabilistische grafische model-methode (BDgraph) presteerde uitstekend (ROC AUC $\approx$ 1,0) op lineaire data en redelijk op niet-lineaire data, wat aantoont dat het probleem ligt bij de deep learning-architecturen en niet bij de complexiteit van de data.
Verbetering door Pruning: Wanneer de graaf werd beperkt tot de ware randen (pruning), verbeterde de voorspellende nauwkeurigheid ( $R^2$ $R^{2}$ score) van de GTDL-modellen aanzienlijk.
- Dit effect is het sterkst bij weinig trainingsdata. Bij grote datasets kunnen modellen de structuur impliciet leren, maar bij schaarste is een correcte inductieve bias (de juiste graaf) cruciaal.
- Modellen die de taak als een "node-level" probleem behandelen (met een target token), profiteerden meer van pruning dan modellen die het als een "graph-level" probleem behandelen.

5. Betekenis en Conclusie

De studie concludeert dat de huidige focus op puur voorspellende nauwkeurigheid in GTDL ten koste gaat van de structurele fideliteit.

Interpretatie: De attention maps of adjacency matrices die door deze modellen worden gegenereerd, zijn momenteel niet betrouwbaar voor interpretatie of explainability, omdat ze geen echte causale of conditionele afhankelijkheden weergeven.
Toekomst: Om GTDL effectief te maken, moeten toekomstige methoden prioriteit geven aan het correct modelleren van de graafstructuur, niet alleen aan het minimaliseren van de voorspellingsfout.
Richting: Er is een noodzaak voor methoden die in staat zijn om de onderliggende graaf te induceren (zoals PGM's doen) maar tegelijkertijd de expressieve kracht van deep learning voor niet-lineaire relaties behouden.

Kortom: Structuur is niet alleen een kwestie van uitlegbaarheid; het is een drijvende kracht voor prestaties. Zonder een correcte graafstructuur kunnen deep learning-modellen op tabulaire data hun volledige potentieel niet bereiken.

The Role of Feature Interactions in Graph-based Tabular Deep Learning

1. Het probleem: De robot ziet alles als één grote kluwen

2. De test: De 'Gouden Kaart'

3. De oplossing: De 'Tuinman'

4. Waarom doet de AI dit dan?

Conclusie in één zin

Titel: De Rol van Feature-interacties in Graph-based Tabular Deep Learning (GTDL)

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models