TabStruct: Measuring Structural Fidelity of Tabular Data

Deze paper introduceert TabStruct, een uitgebreid evaluatiekader met de nieuwe 'global utility'-metriek om de structurele betrouwbaarheid van synthetische tabulaire data te beoordelen zonder afhankelijk te zijn van grondwaarheid causale structuren, en presenteert een benchmark met resultaten van 13 generatoren over 29 datasets.

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

TabStruct: De "Waarheidsmeter" voor Kunstmatige Tabellen

Stel je voor dat je een kok bent die een perfecte kopie van een beroemd gerecht moet maken voor een restaurant. Je hebt de originele recepten (de echte data) en je wilt een nieuwe versie maken (de synthetische data) die er precies zo uitziet en smaakt, maar dan zonder de echte ingrediënten te gebruiken.

Tot nu toe keken experts alleen naar de uitstraling van het gerecht. Ziet het eruit als het origineel? Is de kleur goed? (Dit noemen ze dichtheidsestimering). En: als je het serveert aan klanten, vinden ze het lekker? (Dit noemen ze ML-efficacy).

Maar er is een groot probleem: je kunt een gerecht maken dat er perfect uitziet en lekker smaakt, maar dat fysisch onmogelijk is. Bijvoorbeeld: een ijsje dat niet smelt in de zon, of een taart die zwaarder is dan de lucht. In de wereld van tabellen (rijen en kolommen met cijfers) betekent dit dat de verbanden tussen de getallen niet kloppen. Als je bijvoorbeeld de temperatuur verhoogt, moet de druk ook stijgen. Als een AI dit niet snapt, is de data "vals", ook al ziet hij er goed uit.

Dit is waar TabStruct en de nieuwe Global Utility (een nieuwe meetlat) om de hoek komen kijken.

Het Probleem: De "Valse Vrienden"

De auteurs van dit paper zeggen: "Kijk eens naar SMOTE, een populaire methode om data te maken."

  • SMOTE is als een kok die alle ingrediënten uit het originele gerecht in een blender gooit en er een nieuwe soep van maakt. De soep smaakt misschien prima (goed voor machine learning), maar de verhoudingen zijn verkeerd. Als je de temperatuur verhoogt, daalt de druk in de blender. Dat is in de echte wereld onmogelijk.
  • Eerdere tests keken alleen of de soep eruit zag als het origineel. Ze zagen niet dat de natuurwetten werden geschonden.

De Oplossing: De "Waarheidsmeter"

De onderzoekers van de Universiteit van Cambridge en Télécom Paris hebben TabStruct bedacht. Dit is een enorme testbank met 29 verschillende "keukens" (datasets) en 13 verschillende "koks" (AI-modellen).

Ze introduceren twee belangrijke concepten:

1. De "Lokale" vs. "Globale" Waarheid

  • Lokale Waarheid (Local Utility): Dit is alsof je alleen kijkt of de soep goed smaakt als je er een lepel van eet. Veel AI-modellen zijn hier heel goed in. Ze kunnen een specifieke voorspelling (bijvoorbeeld: "zal deze klant kopen?") heel goed doen.
  • Globale Waarheid (Global Utility): Dit is de nieuwe, revolutionaire meetlat. Het kijkt naar het hele recept. Als je één ingrediënt verandert, kloppen alle andere reacties in de pan nog wel?
    • Analogie: Stel je een zonnestelsel voor. Als je de massa van de aarde verandert, moet de zwaartekracht op de maan ook veranderen. Een goede AI (zoals TabDiff of TabSyn, de winnaars in deze test) begrijpt dit complexe web van oorzaak en gevolg. Een slechte AI (zoals SMOTE) denkt dat de maan gewoon blijft hangen, ongeacht wat je met de aarde doet.

2. Waarom is dit zo moeilijk?

In de echte wereld hebben we vaak geen "recept" (geen grondwaarheid) om te checken of de data klopt. We weten niet precies hoe de natuurwetten van een ziekenhuisdossier of een beursgrafiek werken.

  • De slimme truc: De auteurs hebben een nieuwe methode bedacht, Global Utility, die werkt zonder dat je het recept kent.
  • Hoe werkt het? Ze spelen een spelletje "gokken". Ze nemen één variabele (bijvoorbeeld: "leeftijd") en vragen de AI: "Kun jij deze variabele voorspellen op basis van alle andere variabelen?" Als de AI dit goed doet voor alle variabelen in de tabel, betekent dit dat de onderliggende structuur (de natuurwetten) correct is nagebootst.

Wat hebben ze ontdekt?

Na het testen van 13 verschillende AI-modellen op 29 datasets, kwamen ze tot verrassende conclusies:

  1. De oude favorieten falen: Methoden die al jaren als de beste werden beschouwd (zoals SMOTE en CTGAN) zijn vaak goed in het nabootsen van de "smaak" (lokale voorspellingen), maar ze breken de "natuurwetten" (globale structuur). Ze maken data die er goed uitziet, maar die in de diepte onzin is.
  2. De nieuwe sterren: Modellen die gebaseerd zijn op Diffusie (een techniek die ook wordt gebruikt om prachtige kunst te maken, zoals bij DALL-E) bleken de beste te zijn. Ze begrijpen dat tabellen een complex, wisselend netwerk van verbanden zijn. Ze maken data die niet alleen goed lijkt, maar ook goed is.
  3. Talenmodellen (LLM's) zijn nog niet klaar: Modellen die geweldig zijn in het schrijven van teksten (zoals GPT), doen het verrassend slecht in tabellen. Waarom? Omdat taal een volgorde heeft (eerst dit woord, dan dat woord), maar in een tabel is de volgorde van kolommen vaak willekeurig. Een AI die denkt dat "Leeftijd" altijd voor "Naam" moet komen, maakt een fout.

Waarom is dit belangrijk voor jou?

Stel je voor dat een ziekenhuis synthetische patiëntdata gebruikt om een nieuw medicijn te testen.

  • Als ze een model gebruiken dat alleen de "lokale waarheid" kent, denken ze misschien dat het medicijn werkt, terwijl de data eigenlijk fysisch onmogelijke scenario's bevat.
  • Met TabStruct en Global Utility kunnen ze nu controleren of de data de echte verbanden respecteert. Het is als een waarheidsdetector die zegt: "Dit gerecht is niet alleen lekker, het is ook biologisch mogelijk."

Kortom: TabStruct is de nieuwe standaard om te checken of kunstmatige data niet alleen mooi is om naar te kijken, maar ook eerlijk en waarheidsgetrouw in zijn onderliggende logica. Het zorgt ervoor dat we niet worden bedrogen door mooie, maar valse cijfers.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →