Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes que organizar una gran fiesta (un modelo de Inteligencia Artificial) para predecir cosas importantes, como si un cliente comprará un producto o si un paciente tendrá un problema de salud. Para esto, necesitas una lista de invitados (tus datos) con muchas características: nombre, edad, profesión, gustos, etc.

El problema es que, en la vida real, la gente olvida llenar algunos campos. A veces no saben su edad, a veces no quieren decir su profesión, o simplemente el formulario se rompió. A estos campos vacíos los llamamos "valores faltantes".

Hasta ahora, la forma tradicional de manejar esto era como si fueras un chef que, al ver un ingrediente faltante en una receta, lo inventaba.

"¿No sé la edad de Juan? Bueno, pondré la edad promedio de todos los invitados".
"¿No sé su profesión? Pondré 'desempleado' por defecto".

A este proceso de inventar datos se le llama imputación. El problema es que a veces esos datos inventados son mentiras que confunden al chef (el modelo) y arruinan la fiesta. Además, tienes que decidir cómo inventarlos antes de empezar, lo cual es un dolor de cabeza.

La Solución: NAIM (El Modelo que No Necesita Inventar Nada)

Los autores de este paper crearon algo llamado NAIM ("No es otro método de imputación", en inglés). Imagina que NAIM es un chef genio que tiene una habilidad especial: sabe cocinar perfectamente incluso si faltan ingredientes, sin tener que inventarlos.

¿Cómo lo hace? Usa dos trucos mágicos basados en una tecnología llamada Transformers (la misma que usan las IAs para escribir textos o traducir idiomas):

Etiquetas Inteligentes (Embeddings):
Imagina que cada ingrediente (dato) tiene una etiqueta especial. Si falta un ingrediente, en lugar de poner un "falso" en la lista, NAIM le pone una etiqueta que dice: "¡Oye, esto está vacío!". El modelo entiende perfectamente que ese espacio está vacío y no intenta adivinar qué debería haber ahí. Solo trabaja con lo que tiene.
El Ojo que Ignora (Mecanismo de Atención enmascarada):
Normalmente, cuando un chef mezcla ingredientes, prueba todo junto. Si falta uno, el sabor se arruina. NAIM tiene un "ojo mágico" (un mecanismo de atención) que, al mezclar los ingredientes, cubre con la mano los espacios vacíos.
- Analogía: Es como si estuvieras leyendo un libro con algunas páginas arrancadas. Un lector normal se frustraría o intentaría inventar lo que falta. NAIM es como un lector que salta esas páginas, sigue leyendo el resto del libro y saca conclusiones perfectas basándose solo en lo que sí puede leer.

El Entrenamiento: El Gimnasio de la IA

Para que este chef sea tan bueno, los autores le hicieron un entrenamiento especial. Imagina que le dicen: "Cada día, voy a tapar aleatoriamente algunos ingredientes de tu receta, y tú tendrás que cocinar el plato igual de rico".

Esto se llama regularización. Al entrenarlo así, el modelo aprende a ser resiliente. Aprende que no necesita que todo esté perfecto para funcionar. Se vuelve fuerte y capaz de manejar situaciones caóticas donde faltan datos, algo que los modelos antiguos no podían hacer bien.

¿Qué pasó en la prueba?

Los autores probaron a NAIM contra 11 modelos famosos (desde árboles de decisión hasta redes neuronales complejas) en 5 bases de datos reales (como predicción de ingresos, compras en línea o riesgos sísmicos).

El resultado: NAIM ganó casi siempre.
La clave: Mientras que los otros modelos necesitaban que alguien les dijera "rellena los huecos con X" antes de empezar, NAIM simplemente ignoró los huecos y usó todo lo demás.

En resumen

Imagina que tienes un rompecabezas.

Los métodos antiguos: Intentan pintar las piezas faltantes para que el cuadro se vea completo antes de armarlo. A veces, las piezas pintadas no encajan y arruinan la imagen.
NAIM: Toma el rompecabezas tal cual está, con los huecos visibles, y lo arma perfectamente usando solo las piezas que tiene, sin necesidad de pintar nada extra.

Conclusión: NAIM es una herramienta más limpia, más rápida y más inteligente para trabajar con datos del mundo real, donde la información incompleta es la norma, no la excepción. Ya no necesitas gastar tiempo "arreglando" tus datos antes de analizarlos; la IA puede hacerlo sola.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets" (NAIM), presentado en español:

1. El Problema

El manejo de valores faltantes en conjuntos de datos tabulares es un desafío crítico para el entrenamiento y prueba de modelos de inteligencia artificial. Tradicionalmente, la industria se ha basado en técnicas de imputación (rellenar los huecos con medias, KNN, MICE, etc.) antes de alimentar los datos al modelo. Sin embargo, este enfoque presenta varias limitaciones:

Pérdida de información: La imputación puede introducir ruido o sesgos al inventar datos que no existen.
Dependencia del preprocesamiento: Requiere seleccionar la técnica de imputación óptima para cada tarea específica, lo cual es un desafío en sí mismo.
Falta de robustez: La mayoría de los modelos de Deep Learning (DL) y Machine Learning (ML) actuales no pueden manejar entradas incompletas directamente; necesitan datos completos.
Brecha en la literatura: Aunque los Transformers han tenido éxito en texto, visión y audio, su aplicación a datos tabulares con valores faltantes ha sido limitada, ya que carecían de mecanismos específicos para ignorar entradas faltantes sin imputarlas.

2. Metodología: La Arquitectura NAIM

Los autores proponen NAIM ("Not Another Imputation Method"), un modelo basado en la arquitectura Transformer diseñado específicamente para aprender directamente de datos incompletos sin necesidad de imputación previa. La arquitectura se compone de tres innovaciones clave:

A. Embeddings Específicos por Característica (Feature Embeddings)

El modelo utiliza tablas de búsqueda (lookup tables) para codificar tanto características categóricas como numéricas.

Categóricas: Se utiliza un índice de relleno (padding index) asignado a un vector fijo de ceros no entrenable para los valores faltantes.
Numéricas: Se introduce una tabla de búsqueda con dos entradas posibles: "presente" y "faltante". Si el valor está faltante, se selecciona el vector asociado a "faltante" (no entrenable); si está presente, se escala el vector "presente" multiplicándolo por el valor numérico real.
Resultado: Esto permite que el modelo reciba una representación vectorial coherente donde los valores faltantes tienen una identidad clara pero no entrenable, evitando que el gradiente se propague a través de ellos.

B. Mecanismo de Atención Auto-Mascarada Modificado (Modified Masked Self-Attention)

El mecanismo de atención estándar en Transformers no ignora automáticamente los valores faltantes en tablas. NAIM introduce una modificación crucial:

Se utiliza una matriz de máscara $M$ que asigna $-\infty$ a las columnas y filas correspondientes a los valores faltantes.
Innovación: A diferencia de la atención enmascarada tradicional (que a menudo solo oculta la influencia de un token sobre otros), NAIM aplica la máscara dos veces (en la matriz de atención y en su transpuesta) y utiliza una función de activación ReLU después de la suma.
Ecuación clave: $Attention(Q, K, V) = ReLU(\text{softmax}(\frac{QK^T}{\sqrt{d_k}} + M) + M^T)V$ .
Efecto: Esto asegura que las filas y columnas asociadas a valores faltantes reciban una atención estrictamente cero, eliminando completamente su contribución en el cálculo de la representación del vector de salida.

C. Técnica de Regularización (Simulación de Datos Faltantes)

Para garantizar que el modelo aprenda a generalizar incluso si los datos de entrenamiento no tienen valores faltantes (o tienen menos que los de prueba), se introduce una técnica de regularización inspirada en Cutout:

En cada época de entrenamiento, se selecciona aleatoriamente un subconjunto de valores no faltantes en cada muestra y se "enmascaran" artificialmente (se convierten en faltantes).
Esto fuerza al modelo a aprender representaciones robustas que no dependan de la presencia de características específicas, mejorando su capacidad para inferir en escenarios con datos incompletos.

3. Contribuciones Clave

Modelo sin Imputación: Desarrollo de un Transformer que ignora los valores faltantes en lugar de rellenarlos, preservando la integridad de los datos originales.
Mecanismo de Atención Novel: Una adaptación matemática del mecanismo de auto-atención para anular completamente la influencia de las entradas faltantes en la matriz de atención.
Estrategia de Regularización: Un método de enmascaramiento aleatorio durante el entrenamiento que mejora la resiliencia del modelo ante diferentes niveles de incompletitud en los datos.
Evaluación Exhaustiva: Comparación contra un amplio espectro de modelos (11 modelos de ML y DL) combinados con 3 técnicas de imputación estándar (Media constante, KNN, MICE) y modelos intrínsecos (como GRAPE).

4. Resultados Experimentales

El modelo fue evaluado en 5 conjuntos de datos públicos (Adult, BankMarketing, OnlineShoppers, SeismicBumps, Spambase) con variaciones de valores faltantes (MCAR) desde 0% hasta 75% tanto en entrenamiento como en prueba.

Rendimiento Superior: NAIM superó a los modelos competidores en 23 de 36 escenarios diferentes (combinaciones de modelos y porcentajes de datos faltantes).
Estadística: En promedio, NAIM obtuvo un rendimiento estadísticamente superior en el 58.7% de los casos, mientras que solo fue inferior en el 1.6% de los casos.
Robustez: El modelo mantuvo un alto rendimiento incluso cuando los datos de entrenamiento estaban completos (0% faltantes) pero los de prueba tenían muchos faltantes, demostrando la eficacia de la técnica de regularización.
Comparación: Superó consistentemente a modelos de DL como TabNet, TabTransformer y FTTransformer cuando estos se combinaban con imputación, y también superó a modelos intrínsecos como GRAPE.
Análisis de Ablación: Se demostró que sin la regularización, el rendimiento caía drásticamente, confirmando que la exposición a datos faltantes durante el entrenamiento es vital.

5. Significado e Impacto

El trabajo de NAIM representa un cambio de paradigma en el procesamiento de datos tabulares:

Simplificación del Pipeline: Elimina la necesidad de etapas complejas de preprocesamiento e imputación, reduciendo el riesgo de introducir sesgos artificiales.
Eficiencia en Datos Reales: Es especialmente valioso en dominios donde la recolección de datos es imperfecta (salud, finanzas, sensores), permitiendo utilizar toda la información disponible sin descartar muestras ni inventar valores.
Validación de Transformers en Tablas: Demuestra que, con las adaptaciones correctas (embedding y atención), los Transformers pueden superar a los métodos tradicionales de ML y DL en tareas de clasificación con datos tabulares incompletos.

En conclusión, NAIM ofrece una solución robusta y elegante para el problema de los datos faltantes, estableciendo un nuevo estado del arte que prioriza el aprendizaje directo de la información disponible sobre la imputación.

Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

La Solución: NAIM (El Modelo que No Necesita Inventar Nada)

El Entrenamiento: El Gimnasio de la IA

¿Qué pasó en la prueba?

En resumen

1. El Problema

2. Metodología: La Arquitectura NAIM

A. Embeddings Específicos por Característica (Feature Embeddings)

B. Mecanismo de Atención Auto-Mascarada Modificado (Modified Masked Self-Attention)

C. Técnica de Regularización (Simulación de Datos Faltantes)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Multimodal Explainability via Latent Shift applied to COVID-19 stratification

A Deep Learning Approach for Overall Survival Prediction in Lung Cancer with Missing Values

Effectively Leveraging Momentum Terms in Stochastic Line Search Frameworks for Fast Optimization of Finite-Sum Problems

BEFANA: A Tool for Biodiversity-Ecosystem Functioning Assessment by Network Analysis

Riemannian Laplace Approximation with the Fisher Metric