TabStruct: Measuring Structural Fidelity of Tabular Data

Each language version is independently generated for its own context, not a direct translation.

TabStruct: De "Waarheidsmeter" voor Kunstmatige Tabellen

Stel je voor dat je een kok bent die een perfecte kopie van een beroemd gerecht moet maken voor een restaurant. Je hebt de originele recepten (de echte data) en je wilt een nieuwe versie maken (de synthetische data) die er precies zo uitziet en smaakt, maar dan zonder de echte ingrediënten te gebruiken.

Tot nu toe keken experts alleen naar de uitstraling van het gerecht. Ziet het eruit als het origineel? Is de kleur goed? (Dit noemen ze dichtheidsestimering). En: als je het serveert aan klanten, vinden ze het lekker? (Dit noemen ze ML-efficacy).

Maar er is een groot probleem: je kunt een gerecht maken dat er perfect uitziet en lekker smaakt, maar dat fysisch onmogelijk is. Bijvoorbeeld: een ijsje dat niet smelt in de zon, of een taart die zwaarder is dan de lucht. In de wereld van tabellen (rijen en kolommen met cijfers) betekent dit dat de verbanden tussen de getallen niet kloppen. Als je bijvoorbeeld de temperatuur verhoogt, moet de druk ook stijgen. Als een AI dit niet snapt, is de data "vals", ook al ziet hij er goed uit.

Dit is waar TabStruct en de nieuwe Global Utility (een nieuwe meetlat) om de hoek komen kijken.

Het Probleem: De "Valse Vrienden"

De auteurs van dit paper zeggen: "Kijk eens naar SMOTE, een populaire methode om data te maken."

SMOTE is als een kok die alle ingrediënten uit het originele gerecht in een blender gooit en er een nieuwe soep van maakt. De soep smaakt misschien prima (goed voor machine learning), maar de verhoudingen zijn verkeerd. Als je de temperatuur verhoogt, daalt de druk in de blender. Dat is in de echte wereld onmogelijk.
Eerdere tests keken alleen of de soep eruit zag als het origineel. Ze zagen niet dat de natuurwetten werden geschonden.

De Oplossing: De "Waarheidsmeter"

De onderzoekers van de Universiteit van Cambridge en Télécom Paris hebben TabStruct bedacht. Dit is een enorme testbank met 29 verschillende "keukens" (datasets) en 13 verschillende "koks" (AI-modellen).

Ze introduceren twee belangrijke concepten:

1. De "Lokale" vs. "Globale" Waarheid

Lokale Waarheid (Local Utility): Dit is alsof je alleen kijkt of de soep goed smaakt als je er een lepel van eet. Veel AI-modellen zijn hier heel goed in. Ze kunnen een specifieke voorspelling (bijvoorbeeld: "zal deze klant kopen?") heel goed doen.
Globale Waarheid (Global Utility): Dit is de nieuwe, revolutionaire meetlat. Het kijkt naar het hele recept. Als je één ingrediënt verandert, kloppen alle andere reacties in de pan nog wel?
- Analogie: Stel je een zonnestelsel voor. Als je de massa van de aarde verandert, moet de zwaartekracht op de maan ook veranderen. Een goede AI (zoals TabDiff of TabSyn, de winnaars in deze test) begrijpt dit complexe web van oorzaak en gevolg. Een slechte AI (zoals SMOTE) denkt dat de maan gewoon blijft hangen, ongeacht wat je met de aarde doet.

2. Waarom is dit zo moeilijk?

In de echte wereld hebben we vaak geen "recept" (geen grondwaarheid) om te checken of de data klopt. We weten niet precies hoe de natuurwetten van een ziekenhuisdossier of een beursgrafiek werken.

De slimme truc: De auteurs hebben een nieuwe methode bedacht, Global Utility, die werkt zonder dat je het recept kent.
Hoe werkt het? Ze spelen een spelletje "gokken". Ze nemen één variabele (bijvoorbeeld: "leeftijd") en vragen de AI: "Kun jij deze variabele voorspellen op basis van alle andere variabelen?" Als de AI dit goed doet voor alle variabelen in de tabel, betekent dit dat de onderliggende structuur (de natuurwetten) correct is nagebootst.

Wat hebben ze ontdekt?

Na het testen van 13 verschillende AI-modellen op 29 datasets, kwamen ze tot verrassende conclusies:

De oude favorieten falen: Methoden die al jaren als de beste werden beschouwd (zoals SMOTE en CTGAN) zijn vaak goed in het nabootsen van de "smaak" (lokale voorspellingen), maar ze breken de "natuurwetten" (globale structuur). Ze maken data die er goed uitziet, maar die in de diepte onzin is.
De nieuwe sterren: Modellen die gebaseerd zijn op Diffusie (een techniek die ook wordt gebruikt om prachtige kunst te maken, zoals bij DALL-E) bleken de beste te zijn. Ze begrijpen dat tabellen een complex, wisselend netwerk van verbanden zijn. Ze maken data die niet alleen goed lijkt, maar ook goed is.
Talenmodellen (LLM's) zijn nog niet klaar: Modellen die geweldig zijn in het schrijven van teksten (zoals GPT), doen het verrassend slecht in tabellen. Waarom? Omdat taal een volgorde heeft (eerst dit woord, dan dat woord), maar in een tabel is de volgorde van kolommen vaak willekeurig. Een AI die denkt dat "Leeftijd" altijd voor "Naam" moet komen, maakt een fout.

Waarom is dit belangrijk voor jou?

Stel je voor dat een ziekenhuis synthetische patiëntdata gebruikt om een nieuw medicijn te testen.

Als ze een model gebruiken dat alleen de "lokale waarheid" kent, denken ze misschien dat het medicijn werkt, terwijl de data eigenlijk fysisch onmogelijke scenario's bevat.
Met TabStruct en Global Utility kunnen ze nu controleren of de data de echte verbanden respecteert. Het is als een waarheidsdetector die zegt: "Dit gerecht is niet alleen lekker, het is ook biologisch mogelijk."

Kortom: TabStruct is de nieuwe standaard om te checken of kunstmatige data niet alleen mooi is om naar te kijken, maar ook eerlijk en waarheidsgetrouw in zijn onderliggende logica. Het zorgt ervoor dat we niet worden bedrogen door mooie, maar valse cijfers.

Each language version is independently generated for its own context, not a direct translation.

Titel: TabStruct: Het Meten van Structurele Fideliteit van Tabulaire Data

Auteurs: Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik (Universiteit van Cambridge & Télécom Paris)
Publicatie: ICLR 2026

1. Het Probleem

Het evalueren van generatieve modellen voor tabulaire data blijft een uitdagend probleem. Bestaande evaluatieparadigma's vertonen drie belangrijke tekortkomingen:

Onvoldoende specifieke fideliteit: Huidige benchmarks richten zich voornamelijk op dimensies zoals dichtheidsschatting (density estimation), ML-effectiviteit (ML efficacy) en privacybehoud. Deze methoden evalueren vaak niet expliciet de unieke causale structuur van tabulaire data. Generatoren kunnen synthetische data produceren die statistisch lijkt op de echte data (hoge dichtheidsschatting), maar de onderliggende causale relaties (bijv. fysieke wetten of domeinkennis) schenden.
Bias in evaluatie: Veel benchmarks prioriteren ML-effectiviteit (hoe goed presteert een downstream-model op synthetische data?). Dit is echter sterk afhankelijk van de specifieke taak en het doelvariabele, waardoor het geen holistische maatstaf is voor de kwaliteit van de datastructuur.
Beperkte schaal en realisme: Bestaande benchmarks voor structurele fideliteit (zoals CauTabBench) zijn beperkt tot "toy" datasets (kunstmatige datasets met bekende causale structuren). Voor echte werelddata zijn de grondwaarheid (ground-truth) causale structuren zelden bekend, waardoor het onmogelijk is om structurele fideliteit direct te meten met bestaande methoden.

2. Methodologie

De auteurs introduceren TabStruct, een uitgebreid evaluatiekader dat structurele fideliteit integreert met conventionele evaluatiedimensies. Het kader bestaat uit de volgende kerncomponenten:

A. Evaluatiekader en Datasets

Datasets: Het kader test 13 generatoren op 29 uitdagende datasets. Dit omvat:
- 6 expert-gevalideerde SCM-datasets (Structural Causal Models) met bekende grondwaarheid.
- 23 real-world datasets (14 classificatie, 9 regressie) uit de TabZilla-suite en andere bronnen, variërend van 345 tot 100.000 samples en 6 tot 145 features.
Generatoren: 13 modellen uit 9 categorieën, waaronder Interpolation (SMOTE), Bayesian Networks, VAE (TVAE, GOGGLE), GAN (CTGAN), Normalizing Flows, Tree-based (ARF), Diffusion (TabDDPM, TabSyn, TabDiff), Energy-based (TabEBM, NRGBoost) en LLM-based (GReaT).

B. Meten van Structurele Fideliteit (met Ground-Truth)

Voor datasets met bekende SCM's gebruiken de auteurs Conditionele Onafhankelijkheid (CI) tests.

Concept: Een SCM definieert een set van conditionele onafhankelijkheidsrelaties (bijv. $X \perp Y | Z$ ).
Metriek: Ze berekenen een CI-score door te testen of de synthetische data dezelfde CI-relaties respecteert als de echte data.
Niveaus:
- Lokaal: CI-relaties die direct relevant zijn voor de doelvariabele (predictie-taak).
- Globaal: CI-relaties over het volledige dataset (alle variabelen onderling).
Niveau van evaluatie: Ze evalueren op het niveau van de Markov-equivalentieklasse (CPDAG) in plaats van de volledige gerichte acyclische graaf (DAG). Dit is een compromis tussen berekeningskosten en validiteit, aangezien het bepalen van exacte causale richtingen in tabulaire data vaak onbetrouwbaar is.

C. Global Utility: Een SCM-vrije Metriek

Voor real-world datasets waar geen grondwaarheid SCM beschikbaar is, introduceren de auteurs Global Utility.

Principe: Elke variabele in de dataset wordt achtereenvolgens behandeld als een voorspellingstarget. Een ensemble van downstream-predictors wordt getraind om deze variabele te voorspellen op basis van de andere variabelen.
Berekening: De prestatie van de synthetische data wordt vergeleken met die van de referentie-data (real data).
- Voor categorische variabelen: Gebalanceerde nauwkeurigheid.
- Voor numerieke variabelen: RMSE.
Normalisatie: De scores worden genormaliseerd om bias door verschillende taakmoeilijkheden te verminderen.
Definitie: Global Utility is het gemiddelde van de genormaliseerde utility-scores over alle variabelen.
Redenering: Een generator met hoge structurele fideliteit moet in staat zijn om elke variabele accuraat te voorspellen vanuit de andere variabelen (gebaseerd op het Markov-kleed-concept).

3. Belangrijkste Bijdragen

Conceptueel: Een unificerend evaluatiekader dat structurele fideliteit combineert met conventionele dimensies (dichtheid, privacy, ML-effectiviteit).
Technisch: De introductie van Global Utility, een nieuwe metriek die structurele fideliteit kan kwantificeren zonder toegang tot grondwaarheid causale structuren.
Empirisch: De release van TabStruct, een open-source benchmark-suite met datasets, implementaties, evaluatiepipelines en ruwe resultaten voor 13 generatoren op 29 datasets (totaal >150.000 evaluaties).

4. Resultaten

De experimentele resultaten leveren belangrijke inzichten op:

Complementariteit: Structurele fideliteit is niet uitwisselbaar met conventionele metrieken. Modellen die goed scoren op ML-effectiviteit (zoals SMOTE) presteren vaak slecht op het behoud van de globale structuur.
Validiteit van Global Utility: Er is een sterke correlatie ( $r_s = 0.84$ ) tussen Global Utility en de Global CI-score (de "gouden standaard" bij bekende SCM's). Dit bevestigt dat Global Utility een betrouwbare proxy is voor structurele fideliteit in real-world scenario's.
Prestaties van Generatoren:
- Diffusiemodellen (TabDDPM, TabSyn, TabDiff) presteren consistent het beste op het behoud van de globale structuur. Dit wordt toegeschreven aan hun permutatie-invariante generatieproces, dat beter aansluit bij de aard van tabulaire data dan autoregressieve benaderingen.
- Interpolatiemethoden (SMOTE) en Energy-based modellen presteren goed op lokale structuur (ML-effectiviteit), maar falen vaak in het modelleren van de globale causale relaties.
- Autoregressieve modellen (zoals GReaT/LLMs) presteren slecht omdat de noodzaak om features te lineariseren (in een vaste volgorde) bias introduceert die strijdig is met de permutatie-invariantie van tabulaire data.
Efficiëntie: Global Utility is robuust en stabiel, zelfs met een klein ensemble van predictors (bijv. "Tiny-default"), wat het computatie-efficiënt maakt voor snelle modelselectie.

5. Betekenis en Impact

Nieuwe Standaard: TabStruct biedt een gestandaardiseerde manier om tabulaire generatoren te evalueren, waarbij de nadruk ligt op de authenticiteit van de onderliggende datastructuur, niet alleen op de bruikbaarheid voor één specifieke voorspellingstask.
Toepassingsgebied: Voor domeinen zoals gezondheidszorg en wetenschappelijk onderzoek, waar de causaliteit en relaties tussen variabelen cruciaal zijn (en niet alleen de voorspellingsnauwkeurigheid), biedt Global Utility een essentieel hulpmiddel om de kwaliteit van synthetische data te verifiëren.
Toekomstige Richting: Het paper suggereert dat toekomstige generatieve modellen expliciet geoptimaliseerd moeten worden voor structurele fideliteit (bijv. door inductieve biases voor causale structuren in te bouwen), in plaats van alleen te focussen op likelihood-maximalisatie.

Kortom, dit paper stelt dat "interpolatie alleen niet genoeg is" voor hoogwaardige tabulaire data-generatie en introduceert een robuust, SCM-vrij kader om de waarheid van synthetische datastructuren te meten.