TabStruct: Measuring Structural Fidelity of Tabular Data

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres crear una falsa moneda (datos sintéticos) que sea tan perfecta que nadie pueda distinguir la diferencia con la moneda real, pero sin revelar los secretos del banco (privacidad). Esto es lo que hacen los generadores de datos tabulares: crean tablas de datos falsas para entrenar a la inteligencia artificial cuando no tenemos suficientes datos reales.

El problema es: ¿Cómo sabemos si nuestra "moneda falsa" es realmente buena?

Hasta ahora, los expertos solo miraban si la moneda falsa tenía el mismo peso o el mismo tamaño que la real (medidas estadísticas simples). Pero, como explica este paper, eso no es suficiente. Una moneda falsa podría tener el peso correcto, pero si la leyenda dice "Rey de Marte" en lugar de "Rey de España", es una falsificación terrible, aunque pese lo mismo.

Aquí entra en juego TabStruct, el nuevo sistema de evaluación propuesto por los autores.

1. El Problema: La "Falsificación Perfecta" que no respeta las leyes de la física

Imagina que tienes una tabla de datos sobre gravedad y planetas.

La realidad: Si cambias la masa de un planeta, la fuerza de gravedad cambia. Si cambias la distancia, la fuerza cambia. Hay una relación causal (una ley física) que conecta todo.
El generador malo: Crea una tabla falsa donde los números parecen aleatorios pero tienen el mismo promedio que la real. Si usas esta tabla para entrenar a un robot, el robot aprenderá que la gravedad es un caos y fallará al intentar aterrizar en Marte.

Los métodos antiguos decían: "¡Mira! Los promedios son iguales, ¡es un buen generador!".
TabStruct dice: "¡Espera! Tu generador rompió las leyes de la física. Aunque los promedios sean iguales, la estructura causal está rota".

2. La Solución: "Utilidad Global" (Global Utility)

El mayor desafío es que, en el mundo real, a menudo no tenemos la "receta secreta" (la estructura causal real) para comparar. No sabemos exactamente cómo se conectan todas las variables en un dataset médico o financiero.

Para resolver esto, los autores inventaron una métrica genial llamada "Utilidad Global".

La analogía del "Juego de las Sillas Musicales":
Imagina que tienes una mesa llena de variables (columnas de datos).

Método antiguo (Utilidad Local): Solo te preguntan: "¿Puedes predecir el precio de la casa (una sola variable) usando el resto de datos?". Si el generador es bueno para eso, aprueba. Pero puede ser malo para todo lo demás.
Método TabStruct (Utilidad Global): Les dicen al generador: "Ahora, intenta predecir CADA columna de la tabla usando el resto. Primero predice el precio, luego predice el tamaño, luego predice la edad, luego predice el color... ¡y hazlo con todos!".

Si el generador es realmente bueno, podrá predecir cualquier cosa basándose en lo demás, porque ha entendido la estructura profunda de los datos. Si falla en predecir una variable, significa que no entendió la relación causal entre ellas.

Es como si un estudiante de física no solo pudiera resolver un problema de gravedad, sino que pudiera resolver cualquier problema de física sin mirar el libro de texto. Eso demuestra que realmente entendió las leyes, no solo memorizó fórmulas.

3. ¿Qué descubrieron? (Los Resultados)

Los autores probaron 13 tipos de generadores de datos (desde métodos antiguos hasta modelos de Inteligencia Artificial muy modernos) en 29 tablas de datos diferentes.

Los "Tramposos" (como SMOTE): Son muy buenos para engañar en las pruebas tradicionales (parecen reales en promedios y ayudan a predecir el objetivo principal), pero rompen la estructura causal. Son como un actor que sabe su línea pero olvida la trama de la película.
Los "Maestros" (Modelos de Difusión como TabDDPM o TabSyn): Estos modelos, que funcionan como si "desenredaran" el ruido poco a poco, son los que mejor entienden la estructura global. Son capaces de capturar las leyes ocultas que conectan los datos.
Los "Confundidos" (Modelos de Lenguaje como GReaT): Aunque son geniales para escribir textos, se les da mal entender tablas porque las tablas no tienen un orden fijo (no importa si lees la columna A antes que la B, pero el lenguaje sí tiene un orden).

4. ¿Por qué es importante esto?

Imagina que un hospital usa datos falsos para entrenar a un IA que diagnostica enfermedades.

Si el generador solo copia los promedios (método viejo), la IA podría aprender que "comer helado causa cáncer" porque en los datos falsos esos dos números subieron juntos por azar.
Si usas TabStruct y Utilidad Global, aseguras que la IA entienda que el helado y el cáncer no están causalmente relacionados, porque el generador respetó la estructura real de los datos.

En resumen

Este paper nos dice: "Dejen de solo mirar si los datos falsos se 'ven' iguales a los reales. ¡Miren si se 'comportan' igual!".

Presentan TabStruct, una caja de herramientas que nos ayuda a medir si los generadores de datos han aprendido las "leyes del universo" de nuestros datos, no solo a copiar sus números. Y lo mejor de todo, lo hacen sin necesitar saber de antemano cuáles son esas leyes, usando un truco inteligente de "predecir todo con todo".

Es un paso gigante para que la Inteligencia Artificial sea más segura, confiable y útil en el mundo real.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "TABSTRUCT: MEASURING STRUCTURAL FIDELITY OF TABULAR DATA", presentado en la conferencia ICLR 2026.

1. El Problema

La evaluación de generadores de datos tabulares sigue siendo un desafío crítico debido a la naturaleza única de estos datos. A diferencia de modalidades homogéneas como el texto (que siguen hipótesis distribucionales) o las imágenes, los datos tabulares son heterogéneos y poseen un prior estructural causal complejo.

Las limitaciones de los enfoques de evaluación existentes incluyen:

Falta de evaluación específica de fidelidad estructural: Las métricas convencionales (estimación de densidad, eficacia en aprendizaje automático -ML- y preservación de privacidad) no evalúan explícitamente si los datos sintéticos preservan las estructuras causales subyacentes (interacciones entre características).
Sesgo hacia la eficacia local: Muchos benchmarks priorizan la capacidad de los datos sintéticos para entrenar modelos predictivos en tareas específicas (ML efficacy), lo que a menudo ignora la estructura global de los datos. Por ejemplo, un generador puede funcionar bien en una tarea de clasificación pero violar leyes físicas o relaciones causales fundamentales.
Dependencia de estructuras causales de verdad (Ground-Truth): Las métricas existentes para medir la fidelidad estructural (como las pruebas de independencia condicional) requieren conocer la estructura causal real (SCM), la cual rara vez está disponible en conjuntos de datos del mundo real.
Alcance limitado: Los benchmarks anteriores suelen utilizar conjuntos de datos "toy" (sintéticos simples) o un número reducido de generadores, lo que impide una comparación generalizable.

2. Metodología

Los autores proponen TabStruct, un marco de evaluación integral que integra la fidelidad estructural con las dimensiones de evaluación convencionales.

A. Marco de Evaluación Unificado

El benchmark evalúa 13 generadores de datos tabulares (cubriendo 9 categorías: interpolación, Bayesianos, GAN, VAE, Flows, Árboles, Difusión, EBM y LLM) en 29 conjuntos de datos desafiantes (14 de clasificación y 15 de regresión), incluyendo tanto datos del mundo real como datos SCM validados por expertos.

B. Métricas de Fidelidad Estructural

El núcleo de la propuesta es la evaluación de la fidelidad estructural a dos niveles:

Fidelidad Estructural Global y Local (con SCM de verdad):
- Se utilizan Puntos de Independencia Condicional (CI) derivados de los Gráficos Acíclicos Dirigidos Completos (CPDAG).
- Se evalúa si las declaraciones de independencia condicional del SCM de verdad se mantienen en los datos sintéticos.
- Estructura Local: Se enfoca en las relaciones entre las características y la variable objetivo (útil para tareas predictivas).
- Estructura Global: Evalúa la independencia condicional entre todas las variables, capturando la estructura causal completa del sistema.
Utilidad Global (Global Utility) - La Contribución Clave:
- Diseñada para escenarios sin SCM de verdad (datos del mundo real).
- Concepto: Trata cada variable del conjunto de datos como una variable objetivo de predicción. Se entrena un conjunto (ensemble) de predictores para predecir cada variable $x_j$ utilizando el resto de variables ( $X \setminus \{x_j\}$ ).
- Cálculo: Se mide el rendimiento predictivo en los datos sintéticos en comparación con los datos de referencia. La métrica se normaliza para ser agnóstica al tipo de tarea (clasificación/regresión) y al dominio.
- Hipótesis: Un generador de alta fidelidad debe permitir la predicción precisa de cualquier variable a partir de las demás, lo que refleja una preservación de la estructura causal global (relacionado con el concepto de "Markov blanket").

C. Configuración Experimental

Datos: 29 conjuntos de datos (6 SCM validados por expertos y 23 del mundo real de TabZilla y UCI).
Generadores: 13 modelos de última generación (incluyendo TabDDPM, TabSyn, TabDiff, SMOTE, CTGAN, TVAE, GReaT, etc.).
Procesos: Validación cruzada anidada, ajuste de hiperparámetros (Optuna) y uso de un ensemble de 9 predictores (AutoGluon) para mitigar sesgos de modelos específicos.

3. Contribuciones Clave

Marco Conceptual: Introducción de la fidelidad estructural como una dimensión central de evaluación, complementaria a la densidad, privacidad y eficacia ML.
Métrica Innovadora (Global Utility): Propuesta de una métrica libre de SCM que cuantifica la fidelidad estructural global en datos reales sin necesidad de conocer la causalidad subyacente.
Benchmark TabStruct: La suite de benchmark más amplia hasta la fecha, con 13 generadores, 9 categorías y 29 conjuntos de datos, junto con pipelines de evaluación estandarizados y resultados crudos públicos.
Análisis Empírico a Gran Escala: Más de 150,000 evaluaciones que revelan patrones de rendimiento antes desconocidos en la generación de datos tabulares.

4. Resultados Principales

Ineficacia de las métricas convencionales: Se demostró que métricas como la estimación de densidad o la eficacia ML no correlacionan fuertemente con la fidelidad estructural global. Por ejemplo, SMOTE suele obtener los mejores resultados en eficacia ML (estructura local) pero falla estrepitosamente en preservar la estructura global, violando leyes causales.
Correlación de Utilidad Global: La Utilidad Global propuesta muestra una correlación de Spearman muy fuerte ( $r_s = 0.84$ ) con la puntuación de Independencia Condicional Global (Global CI) en datos con SCM de verdad. Esto valida su uso como proxy fiable en datos reales.
Rendimiento de los Generadores:
- Modelos de Difusión (TabDDPM, TabSyn, TabDiff): Dominan consistentemente en la fidelidad estructural global. Su capacidad para aprender distribuciones condicionales permutables (sin orden fijo de características) se alinea naturalmente con la estructura de los datos tabulares.
- Modelos Autoregresivos (GReaT/LLMs): Tienen un rendimiento limitado. La necesidad de linearizar las características en una secuencia introduce un sesgo direccional que contradice la naturaleza permutacional de los datos tabulares, degradando la estructura global.
- Métodos de Interpolación (SMOTE): Excelentes para preservar la estructura local (cerca de la variable objetivo) pero pobres en la estructura global.
Robustez: La Utilidad Global es estable y computacionalmente eficiente, incluso con un conjunto pequeño de predictores no ajustados ("Tiny-default"), a diferencia de la utilidad local que requiere un ajuste exhaustivo.

5. Significado e Impacto

Cambio de Paradigma: El trabajo desafía la noción de que optimizar para la eficacia en tareas de ML (predictibilidad) es suficiente para generar datos tabulares de alta calidad. Demuestra que un modelo puede ser "útil" para una tarea específica pero estructuralmente falso.
Herramienta Práctica: La Utilidad Global ofrece a investigadores y practicantes una herramienta viable para evaluar la calidad estructural de datos sintéticos en dominios donde la causalidad es desconocida (ej. salud, finanzas), asegurando que los datos generados respeten las relaciones subyacentes del dominio.
Avance en la Comunidad: Al liberar TabStruct como código abierto, se establece un estándar reproducible para la evaluación de generadores tabulares, fomentando el desarrollo de modelos que no solo imiten la distribución de datos, sino que capturen su estructura causal intrínseca.

En resumen, el paper establece que la fidelidad estructural es una métrica indispensable para la generación de datos tabulares y proporciona la primera metodología robusta y escalable para medir esta propiedad en el mundo real.