TabStruct: Measuring Structural Fidelity of Tabular Data

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler creare un giardino digitale. Hai un giardino reale (i dati veri) con fiori, alberi e arbusti che crescono secondo regole precise: alcune piante amano l'ombra, altre il sole, e se sposti un albero, potrebbe cambiare l'ombra che dà alle piante vicine.

Il problema è che oggi abbiamo molti "giardinieri robot" (i generatori di dati sintetici) che cercano di copiare il tuo giardino. Ma come facciamo a sapere se il loro giardino finto è davvero buono?

Il Problema: Copiare solo l'aspetto, non la vita

Fino a poco tempo fa, per giudicare questi robot, guardavamo solo cose superficiali:

Il colore dei fiori: Hanno lo stesso numero di rose rosse e blu? (Questo si chiama stima della densità).
L'uso del giardino: Se uso il giardino finto per allenare un giardiniere umano, funziona bene? (Questo si chiama efficacia ML).

Ma c'è un grosso difetto: un robot potrebbe creare un giardino che sembra perfetto e funziona bene per un compito specifico, ma che non rispetta le leggi della natura.
Esempio: Potrebbe creare un giardino dove, se sposti una pianta, il sole cambia direzione. Nella realtà è impossibile, ma per il robot che guarda solo i colori, potrebbe sembrare normale.

La Soluzione: TabStruct e la "Fedeltà Strutturale"

Gli autori di questo paper hanno creato TabStruct, un nuovo modo per giudicare i giardinieri robot. Non si limitano a guardare i fiori, ma controllano le radici e le connessioni (la struttura causale).

Hanno introdotto due concetti chiave:

1. La "Fedeltà Strutturale" (Structural Fidelity)

Immagina di avere una mappa segreta delle regole del tuo giardino reale (chi influenza chi). TabStruct controlla se il giardino finto rispetta queste regole.

Il test: Se nel giardino reale, quando piove, l'erba si bagna, nel giardino finto deve succedere la stessa cosa. Se il robot crea un giardino dove l'erba si bagna anche se non piove, ha fallito la "fedeltà strutturale".

2. La "Utilità Globale" (Global Utility) - Il vero trucco

Qui arriva la parte geniale. Spesso, nei giardini reali, non abbiamo la mappa segreta (non sappiamo esattamente quali sono le regole fisiche di quel mondo). Come facciamo a controllare il robot?

Gli autori hanno inventato un nuovo metro di giudizio chiamato Utilità Globale.

L'analogia: Invece di chiedere "Il giardino finto è uguale a quello reale?", chiedono: "Se prendo una qualsiasi pianta del giardino finto e cerco di prevedere come crescerà basandomi sulle altre piante, riesco a farlo?"
Se il giardino finto è ben costruito, ogni pianta sarà collegata logicamente alle altre. Se provi a prevedere il futuro di una pianta usando le altre, la tua previsione sarà buona.
Se il giardino è fatto male (le piante sono messe a caso), non riuscirai a prevedere nulla.

Questo metodo è magico perché non ha bisogno della mappa segreta. Funziona anche per i giardini reali dove non conosciamo le leggi fisiche esatte.

Cosa hanno scoperto? (I Risultati)

Gli autori hanno messo alla prova 13 diversi giardinieri robot su 29 giardini diversi (dalla medicina alla finanza). Ecco cosa è emerso:

I vecchi metodi ingannano: Molti robot famosi (come SMOTE) sono bravissimi a copiare i colori e a funzionare bene per compiti specifici, ma falliscono miseramente nel rispettare le regole nascoste del giardino. Creano giardini "belli ma falsi".
I nuovi robot (Diffusion Models) vincono: I modelli basati sulla tecnologia "Diffusion" (come TabDDPM o TabSyn) sono stati i migliori. Perché? Perché sono come giardinieri che capiscono che ogni pianta è collegata a tutte le altre. Non guardano una pianta alla volta, ma pensano all'intero ecosistema contemporaneamente.
I linguaggi (LLM) faticano: I robot basati sui linguaggi (come GReaT, che usa l'IA conversazionale) hanno fatto fatica. È come se provassimo a scrivere un manuale di giardinaggio leggendo solo frasi a caso: non catturano bene le relazioni complesse tra le piante.

Perché è importante?

Se usiamo dati falsi per prendere decisioni importanti (ad esempio, in medicina per prevedere malattie o in finanza per i prestiti), e quei dati non rispettano le leggi della realtà, potremmo prendere decisioni disastrose.

TabStruct ci dice: "Non fermarti alla superficie. Controlla se il giardino finto ha le radici giuste". E ci offre uno strumento semplice (Utilità Globale) per farlo anche quando non abbiamo la mappa perfetta.

In sintesi: Non basta che i dati sintetici sembrino veri; devono comportarsi come veri. E ora abbiamo un modo migliore per scoprirlo.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La generazione di dati tabulari sintetici è fondamentale per compiti come l'aumento dei dati, l'imputazione di valori mancanti e la privacy. Tuttavia, valutare la qualità di questi generatori rimane una sfida complessa.

Limitazioni delle metriche attuali: Le valutazioni convenzionali si basano su dimensioni come la stima della densità, l'efficacia nel Machine Learning (ML) e la preservazione della privacy. Queste metriche, spesso adattate da modal omogenee (come testo o immagini), non catturano adeguatamente il prior strutturale causale unico dei dati tabulari eterogenei.
Mancanza di fedeltà strutturale: Molti generatori (es. SMOTE) possono produrre dati che sembrano statisticamente simili ai reali o che funzionano bene in compiti di classificazione specifici, ma violano le relazioni causali sottostanti (es. leggi fisiche o dipendenze logiche tra variabili).
Dipendenza dalle strutture causali vere (Ground-Truth): I metodi esistenti per valutare la fedeltà strutturale (come CauTabBench) richiedono l'accesso alla struttura causale vera (SCM - Structural Causal Model) dei dati. Poiché queste strutture sono raramente disponibili nei dataset reali, le valutazioni sono spesso limitate a dataset "giocattolo" sintetici, offrendo scarse intuizioni sul mondo reale.

2. Metodologia

Gli autori propongono TabStruct, un framework di valutazione olistico che integra la fedeltà strutturale con le dimensioni convenzionali.

A. Framework di Valutazione

Il benchmark valuta 13 generatori tabulari (appartenenti a 9 categorie: interpolazione, Bayesian Network, GAN, VAE, Flussi Normalizzanti, Alberi, Diffusione, EBM, LLM) su 29 dataset (6 con SCM validati da esperti e 23 dataset reali di classificazione e regressione).

B. Metriche di Fedeltà Strutturale

Conditional Independence (CI) Scores (per dataset con SCM):
- Per i dataset con struttura causale nota, la fedeltà è misurata confrontando le dichiarazioni di indipendenza condizionale (CI) tra dati reali e sintetici.
- Viene valutata sia la struttura locale (relazioni direttamente rilevanti per un obiettivo di previsione) che la struttura globale (l'intera rete di dipendenze causali).
- La valutazione avviene a livello di CPDAG (Completed Partially Directed Acyclic Graph), un compromesso tra efficienza computazionale e ricchezza semantica, evitando la necessità di orientare tutte le frecce del grafo causale (che è computazionalmente costoso e instabile).
Global Utility (Metrica Proposta - SCM-Free):
- Per i dataset reali privi di SCM nota, gli autori introducono la Global Utility.
- Concetto: Ogni variabile del dataset viene trattata temporaneamente come un obiettivo di previsione. Vengono addestrati ensemble di predittori supervisionati per prevedere ogni variabile $x_j$ utilizzando tutte le altre variabili $X \setminus \{x_j\}$ .
- Calcolo: La utility è definita come la performance relativa ottenuta sui dati sintetici rispetto ai dati reali di riferimento.
- Ipotesi: Un generatore ad alta fedeltà dovrebbe permettere una previsione accurata di ogni variabile dalle altre, riflettendo la "copertura" del Markov Blanket. La media di queste utility su tutte le variabili fornisce un indicatore della fedeltà strutturale globale senza bisogno di conoscere la causalità vera.

C. Configurazione Sperimentale

Dataset: 29 dataset (17 classificazione, 12 regressione) con dimensioni variabili (da 345 a 100.000 campioni, da 6 a 145 feature).
Generatori: Include metodi classici (SMOTE, CTGAN, TVAE) e stati dell'arte (TabDDPM, TabSyn, TabDiff, GReaT, ecc.).
Valutazione: Utilizza la strategia "train-on-synthetic, test-on-real" per l'efficacia ML e ensemble di predittori (AutoGluon) per calcolare le utility.

3. Risultati Chiave

Correlazione tra Global Utility e CI Globale: È stata trovata una forte correlazione monotona ( $r_s = 0.84$ ) tra la Global Utility e il punteggio Global CI sui dataset con SCM nota. Questo conferma che la Global Utility è un proxy efficace per la fedeltà strutturale anche in assenza di ground-truth causale.
Inadeguatezza delle metriche convenzionali: Metriche come la stima della densità o l'efficacia ML locale (Local Utility) non sono correlate con la fedeltà strutturale globale. Ad esempio, SMOTE eccelle nella Local Utility (preserva bene la struttura attorno all'obiettivo di previsione) ma fallisce miseramente nel catturare la Global Structure, violando spesso le leggi causali sottostanti.
Performance dei Modelli:
- I modelli basati su Diffusione (TabDDPM, TabSyn, TabDiff) si sono dimostrati i migliori nel catturare la struttura globale, grazie alla loro capacità di apprendere distribuzioni condizionali permuta-invarianti senza imporre un ordine fisso sulle feature.
- I modelli autoregressivi (es. GReaT) e le Bayesian Networks hanno mostrato prestazioni inferiori nella fedeltà strutturale globale, spesso a causa di bias introdotti dall'ordinamento delle feature o dalla difficoltà di scoprire strutture causali accurate in spazi ad alta dimensionalità.
- I metodi di interpolazione (SMOTE) e energy-based tendono a preservare la struttura locale a scapito di quella globale.

4. Contributi Principali

Concettuale: Introduzione di un framework di valutazione unificato che integra la fedeltà strutturale come dimensione core, proponendo la Global Utility come metrica innovativa, indipendente dallo SCM, per valutare la struttura dei dati tabulari reali.
Tecnico: Rilascio di TabStruct, un benchmark open-source completo che include 29 dataset, 13 generatori, pipeline di valutazione e tutti i risultati grezzi, permettendo analisi comparative su larga scala.
Empirico: Uno studio quantitativo su larga scala (oltre 150.000 valutazioni) che dimostra come l'ottimizzazione esclusiva per l'efficacia ML o la densità sia insufficiente e che la fedeltà strutturale globale sia un indicatore cruciale per la qualità dei dati sintetici.

5. Significato e Impatto

Il lavoro di TabStruct cambia il paradigma di valutazione dei generatori tabulari:

Oltre l'efficacia ML: Dimostra che un generatore può essere utile per un compito di classificazione specifico (alta ML efficacy) ma produrre dati "bugiardi" dal punto di vista causale, rendendoli inaffidabili per scopi scientifici o di simulazione.
Strumento per il mondo reale: La Global Utility risolve il problema della mancanza di ground-truth causale, offrendo uno strumento pratico per valutare la qualità strutturale in scenari reali (es. sanità, finanza) dove le leggi causali non sono esplicitamente note.
Guida per la ricerca: I risultati suggeriscono che i modelli basati su diffusione sono attualmente l'approccio più promettente per la generazione di dati tabulari ad alta fedeltà, spingendo la comunità a sviluppare generatori "consapevoli della struttura" (structure-aware).

In sintesi, TabStruct fornisce le basi per una generazione di dati sintetici che non solo "sembra" reale, ma rispetta anche le relazioni causali fondamentali che governano i dati del mondo reale.