ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een chef-kok bent die een nieuw, populair gerecht moet leren koken. Maar er is een groot probleem: je hebt maar één receptboekje, en dat boekje is half weggegeten door een muis. Bovendien zijn de meeste pagina's over "vegetarische gerechten" en maar één pagina over "vleesgerechten".

Normale AI-modellen (de "koks") proberen het hele receptboekje uit hun hoofd te leren, inclusief elke kleine detail over hoe de groenten eruitzien, hoe de pan eruitziet, en hoe de lucht er ruikt. Omdat ze zo weinig informatie hebben, raken ze in de war. Ze maken een vleesgerecht dat eruitziet als een groentepannetje, of ze laten de kok een CEO een salaris van €500 per maand geven. Dit is wat er gebeurt met huidige AI's die data nabootsen: ze zijn te druk met het kopiëren van alles, waardoor ze de belangrijke regels vergeten.

ReTabSyn is een nieuwe, slimme manier om deze "koks" op te leiden. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Te veel details, te weinig logica

Stel je voor dat je een kunstenaar bent die portretten moet maken van mensen. Als je maar één foto hebt van een leraar, probeert een gewone AI misschien de exacte kleur van de bril, de vouwen in het overhemd en de achtergrond na te bootsen. Maar als je die AI vraagt om een nieuwe leraar te maken, kan het gebeuren dat ze een leraar tekent die een CEO-pak draagt en een CEO-salaris heeft. De AI heeft de details goed, maar de logica (dat leraren meestal niet CEO-salarissen hebben) is verkeerd.

De auteurs zeggen: "Wacht even! We hoeven niet het hele portret perfect na te bootsen. We moeten vooral zorgen dat de relatie tussen de persoon en zijn baan klopt."

2. De Oplossing: ReTabSyn (De Slimme Coach)

ReTabSyn is als een slimme coach die de AI niet zegt: "Kijk, probeer dit hele plaatje perfect na te bootsen."
In plaats daarvan zegt de coach: "Kijk naar deze twee situaties. In situatie A is de persoon een CEO en verdient hij veel geld. In situatie B is dezelfde persoon een CEO, maar verdient hij heel weinig geld. Welke situatie is logisch?"

De AI leert hieruit: "Ah! Als iemand een CEO is, moet hij veel geld verdienen. Dat is de belangrijkste regel."

3. Hoe werkt het? (Zonder menselijke hulp)

Normaal gesproken zou een menselijke expert moeten komen en zeggen: "Nee, dit is fout, dat is goed." Maar dat is duur en lastig.
ReTabSyn is slim genoeg om dit zelf te doen door verwarring te creëren:

De AI neemt een echte rij data (bijv. een CEO met een hoog salaris).
De AI verandert zelf het salaris naar een laag bedrag (een "verkeerd" antwoord).
De AI leert dan: "Hé, ik heb net een fout gemaakt! De originele rij was beter."

Dit noemen ze "Direct Preference Optimization". Het is alsof je een spiegel voorhoudt aan de AI: "Kijk, dit is logisch, dat is onlogisch. Leer het verschil."

4. Waarom is dit zo goed?

Bij weinig data: Zelfs als je maar heel weinig voorbeelden hebt, leert de AI de belangrijkste regels (de "logica") in plaats van zich te verliezen in details.
Bij onbalans: Als je maar één voorbeeld hebt van een zeldzame ziekte, leert de AI niet hoe de ziekte eruitziet (details), maar leert hij wel: "Als deze symptomen er zijn, is het deze ziekte."
Privacy: Omdat de AI leert op de regels en niet op de exacte kopieën van mensen, is het veiliger. Het maakt geen exacte kopieën van echte mensen, maar genereert nieuwe, realistische scenario's die wel logisch zijn.

Samenvattend

Stel je voor dat je een stad wilt bouwen.

De oude methode probeert elke steen in de stad exact na te bootsen, maar omdat ze weinig blauwdrukken hebben, bouwen ze een school met een zwembad op het dak en een fabriek zonder muren.
ReTabSyn zegt: "Laten we eerst zorgen dat de school een school is en de fabriek een fabriek." Ze bouwen de stad op basis van de functie van de gebouwen.

Het resultaat? Een stad (of dataset) die er misschien niet 100% hetzelfde uitziet als het origineel, maar waar alles logisch werkt en waar je echt op kunt vertrouwen om beslissingen te nemen. Dat is de kracht van ReTabSyn: het leert de AI om verstandig te zijn, niet alleen om te kopiëren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning" in het Nederlands.

Probleemstelling

Diepe generatieve modellen (DGM's) worden steeds vaker gebruikt om synthetische trainingsdata te genereren, wat helpt bij data-schaarste en privacyproblemen. Echter, in praktische scenario's met kleine steekproeven, ongebalanceerde klassen (bijv. zeldzame ziektes of fraude) en distributieveranderingen, presteren bestaande tabulaire generatoren vaak slecht.

De kern van het probleem ligt in de fundamentele misalignement tussen het generatieve doel en de vereisten voor downstream-toepassingen:

Onnodige complexiteit: Standaard DGM's proberen de volledige gezamenlijke verdeling $P(X, y)$ te leren. In data-schaarse regimes is dit een data-intensieve taak die leidt tot overfitting of het genereren van onrealistische data (bijv. een CEO met een laag inkomen).
Theoretisch inzicht: Recent onderzoek toont aan dat voor downstream-taken (zoals classificatie) het perfect modelleren van de marginale verdeling van de kenmerken ( $P(X)$ ) minder cruciaal is dan het nauwkeurig modelleren van de conditionele verdeling $P(y | X)$ . Als de relatie tussen kenmerken en het doel (label) correct wordt gemodelleerd, kan de downstream-prestatie gelijk zijn aan die van echte data, zelfs als de marginale verdeling imperfect is.

Bestaande methoden verliezen vaak de beslissingsgrens uit het oog omdat ze alle correlaties gelijkwaardig behandelen, wat leidt tot synthetische data met lage bruikbaarheid voor machine learning-taken.

Methodologie: ReTabSyn

ReTabSyn (Reinforced Tabular Synthesis) is een framework dat gebruikmaakt van Direct Preference Optimization (DPO) om een vooraf getrainde tabulaire generator (gebaseerd op een taalmodel, zoals GPT-2) te fine-tunen. Het doel is om de generator direct te aligneren met de conditionele verdeling $P(y | X)$ zonder gebruik te maken van externe beloningmodellen of menselijke labels.

De werking van ReTabSyn omvat de volgende stappen:

Theoretische Basis (Utility Gap):
Het paper toont aan dat de "utility gap" (het verschil in prestatie tussen synthetische en echte data) voornamelijk wordt bepaald door de fout in de conditionele verdeling (regression mismatch), en minder door de fout in de marginale kenmerkverdeling. Daarom moet de training prioriteit geven aan het behoud van de beslissingsgrens.
Oracle-vrije Voorkeursconstructie (Preference Labeling):
In plaats van een externe classifier (oracle) te gebruiken om synthetische data te scoren, creëert ReTabSyn "chosen-rejected" (gekozen-afgewezen) paren door perturbaties toe te passen op echte rijen:
- Type I: Target Perturbation: De kenmerken ( $X$ ) blijven gelijk, maar het label ( $y$ ) wordt veranderd naar een andere waarde. De originele rij wordt "gekozen" en de gerendeerde rij met het verkeerde label wordt "afgewezen". Dit straft de generator voor het hallucineren van onjuiste labels gegeven een set kenmerken.
- Type II: Feature Perturbation: Een kenmerk in een sterk gecorreleerd paar wordt gewijzigd terwijl het partnerkenmerk gelijk blijft. Dit straft onrealistische co-voorkomens van kenmerken.
- Sampling: Er wordt een mix gebruikt (70% Target, 30% Feature perturbatie) om zowel de beslissingsgrens als de structuur te waarborgen.
Direct Preference Optimization (DPO):
De generator wordt gefine-tuned met DPO. De "prompt" bestaat uit de overige kenmerken en de "response" is het perturbede variabele (label of kenmerk). De loss-functie maximaliseert de log-likelihood-marge tussen de gekozen (realistische) en afgewezen (irrealistische) rijen, terwijl een regularisatieterm voorkomt dat het model te ver afwijkt van de geldige kenmerkmanifold.
Data Augmentatie:
Om overfitting bij kleine datasets te voorkomen, wordt eerst een SMOTE-achtige interpolatie toegepast binnen categorische buckets om de trainingsdata te verrijken voordat de DPO-fase begint.

Belangrijkste Bijdragen

Oracle-vrije, tabulaire native voorkeursconstructie: ReTabSyn elimineert de noodzaak van externe reward-modellen of menselijke annotatie. Het gebruikt schema-goldene perturbaties (type-checks, logische regels) om zuivere supervisie te genereren.
Decision-focused conditionele alignering: Door DPO toe te passen op specifieke perturbatieparen, prioriteert het model expliciet de conditionele verdeling $P(y | X)$ , wat theoretisch onderbouwd is als de optimale strategie voor data-schaarste.
Robuuste benchmarks: De methode is getest op uitdagende scenario's (zeer kleine datasets, extreme class-imbalance, en distributieveranderingen) en presteert consistent beter dan state-of-the-art baselines.

Resultaten

ReTabSyn is geëvalueerd op 10 benchmark datasets (zoals Adult, Churn, Titanic) en overtreft bestaande methoden zoals GReaT, TVAE, TabSyn, SMOTE en RL-gestuurde methoden (PTA, SynRL) in diverse scenario's:

Kleine Data: Bij zeer kleine trainingssets (32-128 rijen) behaalt ReTabSyn de hoogste AUROC-scores voor downstream-classifiers. Het presteert zelfs beter dan modellen getraind op de beperkte echte data, dankzij de hoge kwaliteit van de gegenereerde synthetische data.
Ongelijke Klassen (Imbalance): Bij een prevalentie van slechts 1% voor de minderheidsklasse, behaalt ReTabSyn de beste PR-AUC scores, wat aangeeft dat het de signalen van de minderheidsklasse beter behoudt dan concurrenten.
Distributieverandering (Shift): Bij het trainen op een subgroep en testen op een andere, behoudt ReTabSyn de beste AUC, wat wijst op een betere generalisatie van de feature-target relaties.
Statistische Fideliteit: ReTabSyn behoudt zowel de marginaal verdeling als de correlaties tussen kenmerken beter dan andere methoden, zonder dat dit ten koste gaat van de privacy.
Privacy: In tegenstelling tot interpolatiemethoden zoals SMOTE (die hoge privacyrisico's hebben door het kopiëren van bestaande punten), toont ReTabSyn een lager risico op lidmaatschaps-inferentie-aanvallen (Membership Inference Attacks) en behoudt het een goede balans tussen privacy en nut.

Betekenis en Impact

ReTabSyn biedt een praktische oplossing voor de synthese van tabulaire data in kritieke sectoren zoals gezondheidszorg, financiën en sociale wetenschappen, waar data vaak schaars, onbalans en gevoelig is.

Efficiëntie: Door te focussen op wat er echt toe doet voor machine learning-taken (de conditionele verdeling), wordt het statistische budget niet verspild aan het perfect modelleren van marginale verdelingen.
Toepasbaarheid: De methode is "oracle-free", wat de kosten verlaagt en bias door externe modellen elimineert.
Controle: Het framework maakt het mogelijk om domeinspecifieke constraints (bijv. logische regels) in te bouwen zonder complexe reward-modellen te hoeven trainen.

Kortom, ReTabSyn bewijst dat het heroriënteren van generatieve modellen op conditionele alignering via reinforcement learning (DPO) leidt tot synthetische data die niet alleen realistisch is, maar vooral ook bruikbaar is voor het trainen van betrouwbare machine learning-modellen in realistische, data-schaarse omgevingen.

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

1. Het Probleem: Te veel details, te weinig logica

2. De Oplossing: ReTabSyn (De Slimme Coach)

3. Hoe werkt het? (Zonder menselijke hulp)

4. Waarom is dit zo goed?

Samenvattend

Probleemstelling

Methodologie: ReTabSyn

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM