FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante cheia de livros de receitas (dados estruturados). Cada livro é uma receita (uma amostra) e cada ingrediente é um detalhe (uma característica).

Até hoje, os "super-inteligentes" (modelos de IA) que tentavam aprender com esses livros tinham dois grandes problemas:

O Problema da Memória Quadrática: Para aprender, eles tentavam ler todas as receitas e compará-las duas a duas ao mesmo tempo. Se você tivesse 100 receitas, eram 10.000 comparações. Se tivesse 1 milhão de receitas, o computador precisaria fazer 1 trilhão de comparações! Isso faz o computador "explodir" de calor e memória muito rápido. É como tentar encontrar um amigo em uma multidão olhando para cada pessoa e perguntando a cada outra pessoa se elas se conhecem.
O Problema da Ordem: Alguns modelos tentaram simplificar a leitura, lendo apenas uma receita de cada vez, como se fosse uma fila. Mas em dados estruturados (como uma planilha), a ordem das linhas não importa! Uma receita de bolo é a mesma receita, seja ela a primeira ou a última da lista. Ler em fila forçava o modelo a esquecer o começo da lista quando chegava no final, perdendo informações importantes.

A Solução: O FEAT

Os autores deste paper criaram o FEAT (Foundation Model for Extremely Large Structured Data). Pense no FEAT como um bibliotecário super-rápido e organizado que consegue ler milhões de receitas sem ficar louco.

Aqui está como ele funciona, usando analogias simples:

1. A Arquitetura de "Dois Eixos" (O Sistema de Dupla Via)

O FEAT não lê a planilha de um jeito só. Ele usa duas ferramentas ao mesmo tempo, como se tivesse dois assistentes trabalhando juntos:

O Assistente Local (AFBM): Imagine um grupo de vizinhos conversando na varanda. Eles trocam informações rápidas sobre o que está acontecendo agora e com os vizinhos próximos. No FEAT, essa parte olha para os dados de forma bidirecional (para frente e para trás), entendendo as relações locais sem se prender a uma ordem rígida. É como se o modelo pudesse "olhar para trás" na fila, algo que modelos antigos não conseguiam fazer bem.
O Assistente Global (Conv-GLA): Imagine um quadro negro gigante na sala da biblioteca. Enquanto o assistente local conversa, este assistente vai anotando resumos importantes no quadro. Ele cria uma "memória externa" estável. Assim, mesmo que a lista de receitas seja de 1 milhão de páginas, o modelo não precisa guardar tudo na cabeça (o que causaria o "esquecimento"); ele consulta o quadro negro para lembrar do contexto geral.

Resultado: O FEAT consegue ler milhões de linhas de dados com uma velocidade linear (se você dobrar os dados, o tempo dobra, não quadruplica). É como trocar de andar de carro em um engarrafamento (lento e caro) para usar um trem de alta velocidade (rápido e eficiente).

2. O Treinamento "Anti-Caos"

Muitos modelos são treinados apenas com dados perfeitos e sintéticos (como receitas de um livro de culinária idealizado). Mas o mundo real é bagunçado: tem dados faltando, valores extremos (como uma receita que pede 100kg de açúcar por engano) e distribuições estranhas.

O FEAT foi treinado com uma "dieta" especial:

Dados Híbridos: Ele estudou tanto receitas perfeitas quanto receitas reais e bagunçadas.
Escudo contra Erros: O sistema de aprendizado do FEAT é como um "amortecedor". Se ele encontrar um valor extremo (um outlier), em vez de entrar em pânico e tentar corrigir tudo com força bruta (o que quebraria o modelo), ele suaviza o impacto. É como dirigir um carro com suspensão de luxo em uma estrada cheia de buracos: você sente o solavanco, mas não quebra o carro.

3. O Resultado na Vida Real

O papel mostra testes com 11 conjuntos de dados reais (saúde, finanças, comércio). O FEAT conseguiu:

Velocidade: Foi até 40 vezes mais rápido que os modelos antigos quando lidava com contextos gigantes (500.000 amostras).
Precisão: Mesmo sendo mais rápido e usando menos memória, ele não perdeu inteligência. Ele acertou as previsões (classificação e regressão) tão bem quanto os modelos gigantes e lentos.
Zero-Treinamento: O melhor de tudo? Você pode jogar um novo conjunto de dados nele (como uma nova lista de clientes) e ele já sabe o que fazer, sem precisar ser re-treinado do zero. É como ter um consultor que já viu de tudo e está pronto para trabalhar na hora.

Resumo da Ópera:
O FEAT é a evolução necessária para lidar com a era dos "Big Data" estruturados. Ele resolveu o gargalo de memória (não precisa comparar tudo com tudo) e o problema de ordem (não esquece o início da lista), permitindo que computadores analisem milhões de registros de forma rápida, estável e inteligente, como um bibliotecário que consegue ler a biblioteca inteira em um piscar de olhos sem perder um único detalhe.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os modelos de dados estruturados (LDMs - Large Structured-Data Models) baseados em Foundation Models (Modelos de Fundação) têm mostrado grande potencial para tarefas como classificação e regressão via In-Context Learning (ICL). No entanto, ao serem aplicados a conjuntos de dados reais e massivos, eles enfrentam três limitações críticas:

Complexidade Quadrática ( $O(N^2)$ ): A maioria dos modelos atuais utiliza mecanismos de self-attention completos (como Transformers) para modelar interações entre amostras. Isso resulta em um custo computacional e de memória que cresce quadraticamente com o número de amostras ( $N$ ), limitando o processamento a cerca de 50.000 amostras antes de ocorrerem erros de memória (out-of-memory).
Colapso de Representação em Modelos Lineares: Tentativas de substituir a attention por modelos de sequência de complexidade linear (como SSMs/Mamba ou Linear Attention) falham em dados estruturados. Isso ocorre porque:
- Viés Causal Artificial: Modelos sequenciais assumem uma ordem temporal, mas dados estruturados (tabelas) são permutação-invariantes (a ordem das linhas não importa). A imposição de uma causalidade artificial degrada a representação.
- Compressão de Estado Oculto: Modelos lineares comprimem todo o contexto histórico em um estado oculto de tamanho fixo, o que leva ao "colapso de representação" e perda de informações globais em sequências longas e ruidosas.
Instabilidade na Otimização com Dados Reais: A pré-treinagem geralmente ocorre em dados sintéticos com distribuições i.i.d. (independentes e identicamente distribuídas). Dados reais, no entanto, são heterocedásticos e possuem caudas pesadas (heavy-tailed), com muitos outliers. Isso causa explosão de gradientes e instabilidade numérica durante o treinamento com funções de perda estáticas (como MSE).

2. Metodologia: FEAT

O FEAT (Foundation model for Extremely large structured data) é um modelo de fundação projetado para resolver esses problemas com complexidade estritamente linear $O(N)$ .

Arquitetura de Codificação Dual-Eixo

O núcleo do FEAT é uma arquitetura que evita a matriz de atenção $N \times N$ , dividindo o aprendizado em dois eixos ortogonais:

Codificação de Nível de Célula (Cell-level Embedding):
- Projeta cada célula da tabela em um espaço de embeddings denso.
- Utiliza S-DFE (Subspace Orthogonal Discriminative Feature Encoding) para identificar colunas (features) de forma dinâmica e ortogonal, garantindo invariância à permutação das colunas sem introduzir viés posicional artificial.
Codificação Multi-camada Dual-Eixo:
- Eixo de Features (Intra-amostra): Utiliza Multi-Head Self-Attention (MHSA) apenas ao longo das dimensões de features ( $D$ ) para cada amostra individualmente. Isso captura correlações não lineares entre atributos de uma mesma linha.
- Eixo de Amostras (Inter-amostra): Substitui a atenção quadrática por uma arquitetura híbrida de complexidade linear composta por duas camadas complementares:
  - AFBM (Adaptive-Fusion bi-Mamba-2): Três camadas que modelam dependências locais dinâmicas bidirecionais entre as amostras. Ao processar a sequência em ambas as direções (frente e trás), mitiga o viés causal unidirecional típico de modelos SSM.
  - Conv-GLA (Convolutional Gated Linear Attention): Uma camada final que mantém uma memória global explícita. Utiliza convolução 1D para suavizar ruídos locais e um mecanismo de gating para acumular uma matriz de covariância global. Isso permite que o modelo retenha dependências de longo alcance sem comprimir excessivamente o estado oculto, evitando o colapso de representação.

Pipeline de Pré-treinamento Híbrido

Para lidar com a instabilidade de dados reais:

Geração de Dados Híbrida (SCM): Combina dados sintéticos gerados por Modelos Causais Estruturais (SCM) com dados reais. O pipeline sintético introduz causalidade realista, ruído heterocedástico (dependente da magnitude do sinal) e warping de caudas pesadas (Kumaraswamy) para simular outliers.
Função de Perda Robusta: Substitui o MSE por uma perda baseada em Huber (Smooth L1), que é menos sensível a outliers extremos.
Balanceamento Dinâmico de Perda: Ajusta automaticamente os pesos das tarefas (classificação, regressão, imputação) dentro de um batch para evitar que uma tarefa domine o gradiente devido a desequilíbrios de amostras.

3. Principais Contribuições

Primeiro Modelo de Fundação Industrial com Complexidade Linear: O FEAT é o primeiro modelo capaz de realizar modelagem cruzada entre amostras com complexidade estritamente $O(N)$ , permitindo o processamento de milhões de registros sem estourar a memória.
Arquitetura Híbrida AFBM + Conv-GLA: Uma solução inovadora que combina a modelagem de dependências locais bidirecionais com memória global explícita, preservando a expressividade semântica em dados permutação-invariantes.
Estratégia de Pré-treinamento Robusta: A combinação de SCMs híbridos com uma função de perda Huber e balanceamento dinâmico garante estabilidade de otimização em distribuições de dados reais pesadas e ruidosas.
Desempenho Zero-Shot: O modelo é capaz de realizar inferência em novas tarefas (classificação/regressão) sem ajuste fino (fine-tuning) específico para o dataset, utilizando apenas o contexto fornecido.

4. Resultados Experimentais

Os experimentos foram realizados em 11 conjuntos de dados reais de benchmarks diversos (TabPFN, Tabzilla, TALENT, TabArena, etc.), cobrindo classificação e regressão.

Escalabilidade e Eficiência (RQ1):
- O FEAT demonstrou crescimento linear na latência de inferência.
- Em contextos de 500.000 amostras, o FEAT manteve uma latência estável (~564 ms), enquanto modelos baseados em attention (TabICL, LimiX) falharam com erros de memória ou apresentaram latências superiores a 22 segundos.
- O FEAT foi até 40 vezes mais rápido na inferência em contextos extremos comparado aos baselines de estado da arte.
Paridade Preditiva (RQ2):
- O FEAT manteve desempenho competitivo (e muitas vezes superior) em relação a modelos quadráticos (TabPFN, LimiX) e métodos tradicionais (XGBoost, CatBoost).
- Em classificação, alcançou o melhor AUC (0.9251) no benchmark Tabzilla-CLS.
- Em regressão, superou modelos lineares puros e manteve robustez em ambientes esparsos e com ruído, provando que não sofre de colapso de representação.

5. Significado e Impacto

O FEAT representa um avanço significativo na aplicação de Foundation Models a dados estruturados industriais. Ao quebrar a barreira da complexidade quadrática, ele permite que modelos de IA aprendam distribuições globais verdadeiras de grandes conjuntos de dados (milhões de linhas), algo impossível para Transformers padrão.

Sua capacidade de operar em modo zero-shot com alta eficiência computacional torna-o uma ferramenta viável para cenários do mundo real onde:

Os dados são massivos e heterogêneos.
A latência de inferência é crítica.
A re-treinagem específica para cada tarefa é inviável.

O trabalho estabelece um novo padrão para modelagem de dados tabulares, demonstrando que é possível combinar a escalabilidade de modelos lineares com a expressividade necessária para capturar interações complexas em dados estruturados.

FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

1. A Arquitetura de "Dois Eixos" (O Sistema de Dupla Via)

2. O Treinamento "Anti-Caos"

3. O Resultado na Vida Real

1. O Problema

2. Metodologia: FEAT

Arquitetura de Codificação Dual-Eixo

Pipeline de Pré-treinamento Híbrido

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Sparse Goodness: How Selective Measurement Transforms Forward-Forward Learning

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking