Improving TabPFN's Synthetic Data Generation by Integrating Causal Structure

Dit paper verbetert de kwaliteit en causaliteit van synthetische tabulaire data gegenereerd door TabPFN door de autoregressieve generatie te integreren met causale structuren via DAG-gerichte conditionering en CPDAG-strategieën.

Davide Tugnoli, Andrea De Lorenzo, Marco Virgolin, Giovanni Cinà

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde kok hebt: TabPFN. Deze kok is een "foundation model" voor tabellen (rijen en kolommen met data), zoals je die ziet in medische dossiers of financiële verslagen. Hij is getraind op miljoenen voorbeelden en kan fantastisch nieuwe, nep-data genereren die eruitziet als echt. Dit is handig als je echte data niet mag delen vanwege privacywetten, of als je gewoon te weinig data hebt om iets te leren.

Maar er is een groot probleem met deze kok: hij is autoregressief. Dat betekent dat hij rijtjes data niet allemaal tegelijk bedenkt, maar één voor één, van links naar rechts, zoals je een zin schrijft.

Het Probleem: De verkeerde volgorde

Stel je voor dat je een verhaal schrijft over een ongeluk.

  • De echte oorzaak: Iemand rijdt te snel (Oorzaak) \rightarrow de auto schuurt over de weg (Gevolg).
  • De verkeerde volgorde: Als de kok eerst het schuurgeluid hoort en daarna de snelheid moet bedenken, denkt hij misschien: "Ah, omdat er geschuurd wordt, moet de auto wel snel hebben gereden."

In de echte wereld is dat logisch. Maar in de data kan dit leiden tot nep-verbanden. Als de volgorde van de kolommen in je tabel niet overeenkomt met de echte oorzaak-gevolg-relaties (de "causale structuur"), gaat de kok dingen aan elkaar koppelen die niets met elkaar te maken hebben. Hij creëert "spookrelaties".

Voorbeeld uit de paper:
Stel je een situatie voor met twee onafhankelijke factoren, Regen en Verkeersdrukte, die allebei leiden tot een natte straat.

  • Als de kok eerst de "natte straat" ziet en daarna moet bedenken of het regende of dat er veel auto's waren, denkt hij: "Als de straat nat is, moet het óf regenen óf er veel verkeer zijn."
  • Hierdoor denkt hij dat Regen en Verkeersdrukte met elkaar te maken hebben. Maar in werkelijkheid heeft regen niets te maken met verkeer! De kok heeft een nep-verband gecreëerd.

De Oplossing: Een Kaart van Oorzaken

De auteurs van dit paper zeggen: "Laten we de kok een landkaart geven."

In plaats van dat de kok zomaar kolommen in willekeurige volgorde bedenkt, geven we hem kennis over wie de "ouders" zijn van wie.

  1. DAG-aware (De perfecte kaart): Als we precies weten welke factoren welke veroorzaken (een zogenaamde DAG), laten we de kok alleen kijken naar de directe oorzaken (de ouders) van het item dat hij nu bedenkt. Hij kijkt niet naar alles wat er eerder stond, maar alleen naar wat er echt voor nodig is.
  2. CPDAG (De onvolledige kaart): Vaak weten we niet alles. Misschien weten we dat A invloed heeft op B, maar niet of C nu een oorzaak of een gevolg is. Dan gebruiken we een kaart met pijlen en lijnen zonder richting. De kok gebruikt dan zijn kennis waar hij die heeft, en vult de rest in met zijn oude, standaard manier.

Wat vonden ze?

De onderzoekers hebben dit getest op verschillende scenario's, van simpele wiskundige puzzels tot complexe medische data (zoals suikerziekte-simulaties).

  • De volgorde telt: Zelfs zonder een perfecte kaart, helpt het al enorm om de kolommen in de juiste volgorde te zetten (oorzaken eerst, gevolgen later).
  • De kaart is beter: Met de "DAG-aware" methode (waar we de kaart volledig kennen) wordt de gegenereerde data veel betrouwbaarder. De nep-verbanden verdwijnen.
  • Behoud van effecten: Dit is het belangrijkste: als je deze nep-data gebruikt om te testen of een medicijn werkt, krijg je met de oude methode vaak een verkeerd antwoord. Met de nieuwe methode blijft het effect van het medicijn (de "behandeling") goed bewaard in de nep-data.

Samenvattend in één zin

Deze paper leert een slimme AI-kok om niet zomaar rijtjes te bedenken, maar om eerst te kijken naar de "familiebanden" tussen de gegevens, zodat hij geen nep-verbanden creëert en we kunnen vertrouwen op de data die hij voor ons maakt.

Het is alsof je iemand vraagt om een verhaal te schrijven: als je zegt "Begin met het einde en werk terug", krijg je een rommelig verhaal. Maar als je zegt "Begin met de oorzaak en werk naar het gevolg", krijg je een verhaal dat logisch klopt. De onderzoekers hebben de AI geleerd om die juiste volgorde te volgen.