Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

Este artículo presenta NAIM, un modelo basado en transformadores que elimina la necesidad de técnicas de imputación tradicionales al utilizar embeddings específicos de características y un mecanismo de atención enmascarada modificado para aprender directamente de datos tabulares incompletos, demostrando un rendimiento superior frente a otros modelos de última generación.

Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi

Publicado 2026-03-13
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes que organizar una gran fiesta (un modelo de Inteligencia Artificial) para predecir cosas importantes, como si un cliente comprará un producto o si un paciente tendrá un problema de salud. Para esto, necesitas una lista de invitados (tus datos) con muchas características: nombre, edad, profesión, gustos, etc.

El problema es que, en la vida real, la gente olvida llenar algunos campos. A veces no saben su edad, a veces no quieren decir su profesión, o simplemente el formulario se rompió. A estos campos vacíos los llamamos "valores faltantes".

Hasta ahora, la forma tradicional de manejar esto era como si fueras un chef que, al ver un ingrediente faltante en una receta, lo inventaba.

  • "¿No sé la edad de Juan? Bueno, pondré la edad promedio de todos los invitados".
  • "¿No sé su profesión? Pondré 'desempleado' por defecto".

A este proceso de inventar datos se le llama imputación. El problema es que a veces esos datos inventados son mentiras que confunden al chef (el modelo) y arruinan la fiesta. Además, tienes que decidir cómo inventarlos antes de empezar, lo cual es un dolor de cabeza.

La Solución: NAIM (El Modelo que No Necesita Inventar Nada)

Los autores de este paper crearon algo llamado NAIM ("No es otro método de imputación", en inglés). Imagina que NAIM es un chef genio que tiene una habilidad especial: sabe cocinar perfectamente incluso si faltan ingredientes, sin tener que inventarlos.

¿Cómo lo hace? Usa dos trucos mágicos basados en una tecnología llamada Transformers (la misma que usan las IAs para escribir textos o traducir idiomas):

  1. Etiquetas Inteligentes (Embeddings):
    Imagina que cada ingrediente (dato) tiene una etiqueta especial. Si falta un ingrediente, en lugar de poner un "falso" en la lista, NAIM le pone una etiqueta que dice: "¡Oye, esto está vacío!". El modelo entiende perfectamente que ese espacio está vacío y no intenta adivinar qué debería haber ahí. Solo trabaja con lo que tiene.

  2. El Ojo que Ignora (Mecanismo de Atención enmascarada):
    Normalmente, cuando un chef mezcla ingredientes, prueba todo junto. Si falta uno, el sabor se arruina. NAIM tiene un "ojo mágico" (un mecanismo de atención) que, al mezclar los ingredientes, cubre con la mano los espacios vacíos.

    • Analogía: Es como si estuvieras leyendo un libro con algunas páginas arrancadas. Un lector normal se frustraría o intentaría inventar lo que falta. NAIM es como un lector que salta esas páginas, sigue leyendo el resto del libro y saca conclusiones perfectas basándose solo en lo que puede leer.

El Entrenamiento: El Gimnasio de la IA

Para que este chef sea tan bueno, los autores le hicieron un entrenamiento especial. Imagina que le dicen: "Cada día, voy a tapar aleatoriamente algunos ingredientes de tu receta, y tú tendrás que cocinar el plato igual de rico".

Esto se llama regularización. Al entrenarlo así, el modelo aprende a ser resiliente. Aprende que no necesita que todo esté perfecto para funcionar. Se vuelve fuerte y capaz de manejar situaciones caóticas donde faltan datos, algo que los modelos antiguos no podían hacer bien.

¿Qué pasó en la prueba?

Los autores probaron a NAIM contra 11 modelos famosos (desde árboles de decisión hasta redes neuronales complejas) en 5 bases de datos reales (como predicción de ingresos, compras en línea o riesgos sísmicos).

  • El resultado: NAIM ganó casi siempre.
  • La clave: Mientras que los otros modelos necesitaban que alguien les dijera "rellena los huecos con X" antes de empezar, NAIM simplemente ignoró los huecos y usó todo lo demás.

En resumen

Imagina que tienes un rompecabezas.

  • Los métodos antiguos: Intentan pintar las piezas faltantes para que el cuadro se vea completo antes de armarlo. A veces, las piezas pintadas no encajan y arruinan la imagen.
  • NAIM: Toma el rompecabezas tal cual está, con los huecos visibles, y lo arma perfectamente usando solo las piezas que tiene, sin necesidad de pintar nada extra.

Conclusión: NAIM es una herramienta más limpia, más rápida y más inteligente para trabajar con datos del mundo real, donde la información incompleta es la norma, no la excepción. Ya no necesitas gastar tiempo "arreglando" tus datos antes de analizarlos; la IA puede hacerlo sola.