Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha tentando preparar um prato delicioso (um modelo de Inteligência Artificial) usando uma receita que vem de um livro de culinária (os dados). O problema é que, às vezes, o livro está rasgado, manchado ou faltam páginas inteiras. Alguns ingredientes não foram anotados, outros estão ilegíveis.

No mundo tradicional de Inteligência Artificial, quando o livro de receitas tem buracos, o cozinheiro tem duas opções ruins:

Jogar fora a receita inteira e tentar fazer de novo com outro livro (perdendo dados valiosos).
Adivinhar o que falta (chamar isso de "imputação"). O cozinheiro olha para o que sobrou e diz: "Bom, como faltou o sal, vou colocar um pouco de pimenta e torcer para ficar bom". O problema é que essa "pimenta" pode estragar o prato, porque é apenas um palpite, não a verdade.

A Solução: O "NAIM" (Não é Outro Método de Adivinhação)

Os autores deste paper criaram um novo tipo de cozinheiro chamado NAIM. A grande sacada dele é: "Eu não preciso adivinhar o que falta. Eu aprendo a cozinhar apenas com o que está na mesa."

O NAIM é um modelo baseado em uma tecnologia chamada Transformer (a mesma usada em chatbots inteligentes como o que você está usando agora), mas adaptado para funcionar com tabelas de dados (como planilhas de Excel).

Aqui está como ele funciona, usando analogias simples:

1. O Cartão de Identidade Inteligente (Feature Embeddings)

Imagine que cada ingrediente (dado) tem um cartão de identidade.

Se o ingrediente está presente, o cartão mostra a foto real dele.
Se o ingrediente está faltando, o cartão não fica em branco ou com um ponto de interrogação. Ele mostra um cartão especial, um "cartão de ausência".
O NAIM sabe exatamente o que fazer com esse cartão de ausência. Ele não tenta inventar o ingrediente; ele simplesmente reconhece: "Ok, este ingrediente não está aqui, mas vou continuar a receita usando os outros."

2. O Filtro Mágico (Masked Self-Attention)

A parte mais genial é como o NAIM "olha" para os dados. Imagine que você está em uma sala cheia de pessoas conversando (os dados).

Nos métodos antigos, se alguém faltasse, o sistema tentava simular a voz dessa pessoa para não deixar o silêncio.
O NAIM usa um Filtro Mágico. Se uma pessoa (um dado) não está na sala, o filtro faz com que o sistema não ouça absolutamente nada vindo dela. É como se aquela cadeira estivesse vazia e o sistema soubesse ignorar o espaço vazio, focando apenas nas vozes reais que estão presentes. Ele não deixa o "vazio" atrapalhar a conversa.

3. O Treino de "Caça ao Tesouro" (Regularização)

Aqui está o segredo para ele ser tão bom: durante o treino, os criadores do NAIM fazem uma brincadeira. Eles pegam uma receita completa e, de repente, escondem alguns ingredientes aleatoriamente e perguntam: "Agora, cozinhe apenas com o que sobrou!".
Eles fazem isso milhares de vezes, escondendo coisas diferentes. Isso treina o NAIM para ser super resistente. Quando ele vai para a "vida real" (o teste), se encontrar dados faltando, ele não entra em pânico. Ele já praticou isso exaustivamente. Ele aprendeu a extrair o máximo de sabor possível, mesmo com metade dos ingredientes sumidos.

Por que isso é importante?

O paper testou o NAIM contra 11 outros modelos famosos (como árvores de decisão e redes neurais comuns) em 5 conjuntos de dados reais (como prever se alguém vai comprar um produto ou se um tremor de terra vai acontecer).

O resultado?
O NAIM venceu a maioria das vezes. Ele mostrou que:

Não precisamos gastar tempo e energia tentando "consertar" dados faltantes (o que muitas vezes introduz erros).
Podemos usar os dados "sujos" ou incompletos diretamente.
O modelo é mais robusto e preciso, especialmente quando os dados de teste têm muitas falhas.

Resumo Final

Pense no NAIM como um aluno superinteligente que não precisa de cola.
Enquanto os outros alunos tentam preencher as lacunas da prova com palpites (imputação) e muitas vezes erram, o NAIM olha para as perguntas que ele consegue responder, ignora as que estão em branco e usa sua inteligência para deduzir a resposta correta baseada apenas no que ele sabe.

É uma abordagem mais limpa, mais honesta e, segundo os testes, muito mais eficiente para lidar com o caos do mundo real, onde os dados raramente são perfeitos.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O tratamento de valores faltantes (missing values) em conjuntos de dados tabulares representa um desafio significativo para o treinamento e teste de modelos de Inteligência Artificial. Diferente de dados sequenciais (texto) ou espaciais (imagens), os dados tabulares são heterogêneos (mistura de características categóricas e numéricas) e frequentemente contêm lacunas devido a erros humanos, não respostas, corrupção de dados ou perda de atrito.

As abordagens atuais enfrentam duas limitações principais:

Imputação Tradicional: A maioria dos métodos preenche os valores faltantes antes do treinamento (usando médias, KNN, MICE, etc.). Isso pode introduzir viés, perda de informação ou ruído, especialmente quando a melhor estratégia de imputação não é conhecida a priori.
Incapacidade de Modelos de DL: Embora modelos baseados em Transformers tenham tido sucesso em outras áreas, as adaptações existentes para dados tabulares (como TabNet, TabTransformer e FTTransformer) não possuem mecanismos nativos robustos para ignorar completamente entradas faltantes, exigindo geralmente imputação prévia.

2. Metodologia: O Modelo NAIM

Os autores propõem o NAIM ("Not Another Imputation Method"), uma arquitetura baseada em Transformer projetada especificamente para aprender diretamente de dados incompletos, eliminando a necessidade de etapas de imputação. O modelo utiliza uma arquitetura encoder-only seguida por uma camada totalmente conectada (FC) para classificação.

As inovações técnicas centrais são:

A. Embeddings Específicos para Características (Feature-Specific Embeddings)

O NAIM utiliza tabelas de busca (lookup tables) distintas para características categóricas e numéricas:

Categóricas: Utiliza uma tabela de embedding específica para cada característica.
Numéricas: Utiliza uma tabela com duas entradas possíveis: "presente" e "faltante".
Mecanismo de Preenchimento (Padding): Quando um valor está faltante, o modelo mapeia para um índice de preenchimento (padding index) associado a um vetor de zeros não treinável. Isso permite que o modelo reconheça a ausência de dados sem tentar aprender um valor falso.

B. Mecanismo de Auto-Atenção Mascarada Modificado (Novel Masked Self-Attention)

O mecanismo padrão de atenção mascarada em Transformers (usado em NLP) não é suficiente para dados tabulares, pois pode ainda permitir que informações de colunas faltantes influenciem as linhas de saída.

O NAIM propõe uma modificação onde a matriz de atenção $A$ é calculada aplicando a máscara $M$ (que contém $-\infty$ nas posições faltantes) duas vezes: uma vez antes da função softmax e outra vez após (transposta).
A fórmula proposta é:
$\text{Attention}(Q, K, V) = \text{ReLU}\left( \text{softmax}\left( \frac{QK^T}{\sqrt{d_h}} + M \right) + M^T \right)V$
Isso garante que tanto as linhas quanto as colunas relacionadas a valores faltantes tenham atenção zero, eliminando completamente a contribuição de dados ausentes no cálculo da representação final.

C. Técnica de Regularização Inovadora

Para garantir que o modelo generalize bem mesmo quando os dados de teste possuem padrões de falta diferentes dos dados de treinamento, os autores introduzem uma técnica de regularização inspirada no Cutout:

Durante o treinamento, a cada época, o modelo aplica um mascaramento aleatório em uma porcentagem das entradas não faltantes de cada amostra.
Isso força o modelo a aprender representações robustas que não dependem da presença de características específicas, simulando cenários de dados incompletos mesmo quando o conjunto de treinamento original está completo.

3. Contribuições Principais

Arquitetura Sem Imputação: Desenvolvimento de um modelo Transformer que aprende exclusivamente das informações disponíveis, sem necessidade de pré-processamento de imputação.
Mecanismo de Atenção Robusto: Proposta de um novo mecanismo de auto-atenção que isola matematicamente os valores faltantes, impedindo que eles contaminem o processo de aprendizado.
Regularização para Dados Incompletos: Introdução de uma estratégia de mascaramento aleatório durante o treinamento para melhorar a resiliência do modelo a variações na completude dos dados.
Avaliação Abrangente: Testes extensivos em 5 conjuntos de dados públicos (Adult, BankMarketing, OnlineShoppers, SeismicBumps, Spambase) contra 35 configurações de competidores (6 modelos de ML e 5 de DL, cada um combinado com 3 técnicas de imputação).

4. Resultados

O NAIM foi avaliado em 6.480 experimentos, variando as porcentagens de dados faltantes no treinamento e teste (0%, 5%, 10%, 25%, 50%, 75%).

Desempenho Superior: O NAIM obteve o melhor desempenho em 23 dos 36 cenários testados.
Comparação com Competidores: Em média, o NAIM superou os competidores em 58,7% dos casos, enquanto perdeu apenas em 1,6% dos casos (testado via teste de postos sinalizados de Wilcoxon).
Robustez: O modelo demonstrou uma degradação de desempenho mínima (0,88% no treinamento e 5,27% no teste) à medida que a quantidade de dados faltantes aumentava, superando significativamente modelos tradicionais e outros Transformers que dependem de imputação.
Estudo de Ablação: A remoção da técnica de regularização ou do mecanismo de atenção mascarada resultou em queda significativa de desempenho, confirmando que ambos os componentes são essenciais para o sucesso do modelo.

5. Significado e Conclusão

O trabalho do NAIM representa um avanço significativo no domínio de aprendizado de máquina para dados tabulares. Ele demonstra que os modelos baseados em Transformers podem ser adaptados para lidar nativamente com dados incompletos, superando a necessidade de estratégias de imputação que muitas vezes introduzem viés ou perdem informação.

A principal implicação prática é que, em cenários do mundo real onde a coleta de dados é imperfeita (comum em saúde, finanças e indústria), o NAIM oferece uma solução "plug-and-play" que extrai o máximo de informação dos dados disponíveis sem a complexidade de escolher e ajustar algoritmos de imputação. O código do projeto está disponível publicamente, facilitando a adoção e pesquisa futura na área.