FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre une ville entière en regardant chaque habitant, une par une, pour prédire leurs habitudes. C'est ce que font les intelligences artificielles actuelles avec les données structurées (comme les tableaux Excel géants des banques, des hôpitaux ou des sites e-commerce).

Le problème ? Les modèles actuels sont comme des détectives qui doivent comparer chaque personne à chaque autre personne. Si la ville a 100 habitants, c'est gérable. Mais si elle en a 1 million ? Le détective doit faire 1 billion de comparaisons ! C'est trop lent, trop cher en énergie, et cela fait planter l'ordinateur. C'est le "mur de la complexité quadratique".

Voici FEAT, le nouveau super-héros présenté dans cet article, conçu pour résoudre ce problème. Voici comment il fonctionne, expliqué simplement :

1. Le Problème : Le "Mur de l'Attention"

Les anciens modèles (comme les Transformers) utilisent une technique appelée "Self-Attention". Imaginez un chef d'orchestre qui doit écouter chaque musicien et discuter avec tous les autres musiciens en même temps pour jouer une symphonie.

Avantage : Très précis.
Inconvénient : Si vous avez 50 000 musiciens, le chef ne peut plus gérer les conversations. Il faut des années pour répéter la pièce. De plus, si on essaie de simplifier en ne parlant qu'à son voisin (modèles linéaires), on oublie le contexte global et la musique devient nulle.

2. La Solution FEAT : Le "Système de Double Fil"

FEAT est comme un nouveau type de chef d'orchestre qui utilise une astuce géniale : il ne compare plus tout le monde à tout le monde. Il utilise une architecture à deux axes (deux filtres) qui fonctionne en temps linéaire (si vous doublez la ville, le temps double, il ne quadruple pas).

Voici ses deux super-pouvoirs :

Le Filtre Local (AFBM - Le "Gardien de Quartier") :
Imaginez des gardiens de quartier qui parlent à leurs voisins immédiats. Ils comprennent rapidement les dynamiques locales (qui est ami avec qui, qui fait du bruit). C'est rapide et efficace pour les détails. FEAT utilise une technologie appelée Mamba (inspirée de la biologie) pour faire cela dans les deux sens (gauche-droite et droite-gauche), car dans un tableau de données, l'ordre n'a pas d'importance (contrairement à une phrase).
Le Filtre Global (Conv-GLA - Le "Mémoire Collective") :
Le gardien de quartier ne peut pas se souvenir de tout l'histoire de la ville. FEAT ajoute donc une "mémoire collective" sous forme d'un grand tableau blanc géant. Au lieu de tout stocker dans la tête (ce qui est limité), il écrit les tendances globales sur ce tableau. Cela permet de garder le contexte de millions de personnes sans s'épuiser.

L'analogie : Au lieu de faire une réunion géante où tout le monde parle à tout le monde (l'ancien modèle), FEAT organise des réunions de quartier rapides (local) et met un résumé des décisions importantes sur un panneau d'affichage central (global). Résultat : tout le monde est informé, mais la réunion est ultra-rapide.

3. L'Entraînement : Apprendre avec des "Faux" et des "Vrais"

Pour devenir intelligent, FEAT doit s'entraîner.

Le problème habituel : Les modèles s'entraînent souvent sur des données "parfaites" et artificielles (comme des exercices de maths). Mais la vraie vie est chaotique, pleine d'erreurs et d'extrêmes (des gens très riches, des gens très pauvres, des données manquantes).
La solution FEAT : Il utilise un mélange intelligent. Il s'entraîne sur des données artificielles générées par des simulateurs de causalité (pour comprendre la logique) ET sur de vraies données industrielles. De plus, il utilise une "règle de jeu" spéciale (une fonction de perte robuste) qui ne panique pas quand il rencontre des données bizarres ou extrêmes. C'est comme un entraîneur sportif qui prépare ses athlètes non seulement pour les Jeux Olympiques, mais aussi pour courir sous la pluie et dans la boue.

4. Les Résultats : La Vitesse de l'Éclair

Les tests montrent que FEAT est incroyable :

Vitesse : Il est jusqu'à 40 fois plus rapide que les meilleurs modèles actuels quand on lui donne des données massives (500 000 lignes).
Précision : Il ne perd pas en qualité. Il devine aussi bien que les modèles lents, mais sans faire planter l'ordinateur.
Zéro-shot : Il peut être lancé sur un nouveau problème (par exemple, prédire la météo ou le risque de crédit) sans avoir besoin d'être réentraîné spécifiquement pour ça. Il s'adapte instantanément, comme un expert qui lit un nouveau livre et comprend le sujet immédiatement.

En Résumé

FEAT, c'est comme passer d'un détective qui doit interviewer chaque personne individuellement à un système de surveillance intelligent qui comprend à la fois les détails de la rue et la tendance globale de la ville, le tout en une fraction de seconde.

C'est une avancée majeure pour permettre aux ordinateurs de gérer les énormes bases de données du monde réel (santé, finance, science) sans exploser les coûts de calcul, tout en restant aussi intelligents que les géants actuels.

Each language version is independently generated for its own context, not a direct translation.

Titre : FEAT : Un modèle fondation à complexité linéaire pour des données structurées extrêmement volumineuses

1. Problématique et Contexte

Les données structurées (tableaux, matrices) sont omniprésentes dans des domaines critiques tels que la santé, la finance et le commerce électronique. Bien que les modèles fondation (Foundation Models) aient révolutionné le traitement du langage et de la vision, leur application aux données structurées se heurte à trois défis majeurs :

Complexité Quadratique ( $O(N^2)$ ) : Les modèles existants (comme TabPFN ou LimiX) reposent sur des mécanismes d'attention complète (Self-Attention) pour modéliser les interactions entre les échantillons. Cela entraîne une complexité computationnelle et mémoire quadratique par rapport au nombre d'échantillons $N$ , limitant la taille des contextes à environ 50 000 échantillons avant des erreurs de mémoire ou de noyau.
Effondrement des Représentations Linéaires : Les approches tentant de réduire la complexité à $O(N)$ en utilisant des modèles séquentiels linéaires (comme les SSMs ou Mamba) échouent souvent sur les données structurées. En effet, ces modèles sont conçus pour des données séquentielles temporelles (biais causal), alors que les données structurées sont invariantes par permutation (l'ordre des lignes n'a pas de sens). Cela provoque un "biais de récence" et une compression excessive de l'état caché, détruisant les informations globales.
Instabilité de l'Optimisation : Les données réelles suivent souvent des distributions à queue lourde (heavy-tailed) avec des valeurs aberrantes (outliers). Les fonctions de perte standard (comme le MSE) et les pré-entraînements uniquement synthétiques (basés sur des hypothèses i.i.d.) conduisent à des explosions de gradient et à une instabilité lors de l'apprentissage sur de vastes ensembles de données hétérogènes.

2. Méthodologie : L'Architecture FEAT

Pour surmonter ces limitations, les auteurs proposent FEAT, un modèle fondation conçu pour gérer des millions d'échantillons avec une complexité strictement linéaire tout en préservant la richesse des représentations.

A. Architecture d'Encodage Dual-Axe Multi-Couche
FEAT décompose l'apprentissage des représentations en deux axes orthogonaux pour éviter la construction d'une matrice d'attention $N \times N$ :

Encodage Cellulaire (Cell-level Embedding) :
- Transformation des données brutes en tenseurs 3D ( $N \times D \times d$ ).
- Utilisation d'un S-DFE (Subspace Orthogonal Discriminative Feature Encoding) : Au lieu de positions fixes, chaque colonne (feature) reçoit une identité orthogonale aléatoire à chaque passage, garantissant l'invariance par permutation des caractéristiques.
Modélisation de l'Axe des Caractéristiques (Feature-axis) :
- Utilisation de l'attention multi-têtes (MHSA) standard uniquement sur la dimension des features ( $D$ ) pour chaque échantillon individuellement. Cela capture les corrélations locales entre les variables sans coût quadratique sur $N$ .
Modélisation de l'Axe des Échantillons (Sample-axis) - Le Cœur de l'Innovation :
Pour modéliser les interactions entre les échantillons ( $N$ ) en $O(N)$ , FEAT combine deux mécanismes complémentaires dans une topologie hybride :
1. AFBM (Adaptive-Fusion Bi-Mamba-2) : Trois couches de Mamba bidirectionnel. Elles capturent les dépendances locales dynamiques entre les échantillons et résolvent le problème du "biais causal" en traitant les données dans les deux sens (avant et arrière).
2. Conv-GLA (Convolutional Gated Linear Attention) : Une couche finale qui agit comme un réservoir de mémoire globale explicite. Contrairement aux SSMs qui compressent l'histoire dans un état caché fixe, Conv-GLA accumule une matrice de covariance globale. Elle utilise un mécanisme de porte (gating) et un filtrage par convolution 1D pour supprimer le bruit haute fréquence et les échantillons non informatifs, assurant une stabilité même sur des contextes très longs.

B. Pipeline de Pré-entraînement Hybride et Robuste

Génération de Données Synthétiques Réalistes : Utilisation d'un pipeline de Modèles Causaux Structurels (SCM) avancé qui génère des graphes causaux à topologie "sans échelle" (scale-free), introduit des clusters latents (prototypes) et simule un bruit hétéroscédastique (dépendant de la magnitude du signal) et des distributions à queue lourde via une transformation Kumaraswamy.
Fonction de Perte Robuste : Remplacement du MSE par une perte Huber (Smooth L1) pour la reconstruction des features masquées. Cela limite l'impact des valeurs aberrantes extrêmes sur les gradients.
Équilibrage Dynamique des Pertes : Une stratégie qui ajuste dynamiquement les poids des pertes (classification, régression, imputation) en fonction de la composition du batch, évitant la domination d'une tâche sur les autres.

3. Contributions Clés

Premier Modèle Fondation Industriel à Complexité Linéaire : FEAT est le premier modèle capable de modéliser des données structurées massives avec une complexité strictement $O(N)$ , brisant le mur de mémoire $O(N^2)$ .
Architecture Dual-Axe Hybride : La combinaison unique de AFBM (pour la dynamique locale bidirectionnelle) et de Conv-GLA (pour la mémoire globale explicite) résout le compromis entre la complexité linéaire et la préservation des représentations expressives sur des données invariantes par permutation.
Stratégie de Pré-entraînement Résiliente : L'intégration de données réelles et synthétiques avec une fonction de perte robuste permet un entraînement stable sur des distributions hétéroscédastiques et à queue lourde, comblant l'écart simulation-réalité.
Inférence Zéro-Shot Évolutive : Le modèle permet une inférence sans réentraînement spécifique à la tâche (zéro-shot) sur des tâches de classification, de régression et d'imputation.

4. Résultats Expérimentaux

Les auteurs ont évalué FEAT sur 11 jeux de données réels issus de benchmarks standards (TabPFN, Tabzilla, TALENT, TabArena, etc.) et de données industrielles propriétaires.

Évolutivité et Efficacité (RQ1) :
- FEAT démontre une croissance linéaire de la latence d'inférence.
- À 500 000 échantillons, FEAT est 40 fois plus rapide que les modèles basés sur l'attention complète (comme TabICL v2 ou LimiX), qui subissent des ralentissements drastiques ou des erreurs de mémoire (OOM) bien avant cette taille.
- FEAT maintient une latence stable (environ 564 ms pour 500k échantillons) là où les autres modèles échouent.
Performance Prédictive (RQ2) :
- Classification : FEAT atteint des performances comparables, voire supérieures, aux meilleurs modèles basés sur l'attention complète (TabPFN, LimiX) sur des métriques comme l'AUC et la F1-score. Par exemple, il obtient le meilleur AUC (0.9251) sur le benchmark Tabzilla-CLS.
- Régression : FEAT reste compétitif, surpassant LimiX sur des environnements massifs et clairsemés (comme CTR23-REG) grâce à sa capacité à limiter l'accumulation de variance.
- Le modèle ne souffre pas de l'effondrement des représentations typique des modèles linéaires simples.

5. Signification et Impact

FEAT représente une avancée majeure pour l'application des modèles fondation aux données structurées industrielles. En éliminant le goulot d'étranglement computationnel de l'attention quadratique, il rend possible l'analyse de contextes contenant des millions de lignes, ce qui était auparavant impossible pour les modèles fondation.

Sa capacité à maintenir des performances de pointe en zéro-shot tout en étant robuste aux distributions réelles complexes (bruit, outliers, hétéroscédasticité) en fait un outil prometteur pour des applications à grande échelle telles que :

La détection de fraude financière en temps réel.
Les systèmes de recommandation massifs.
Le diagnostic médical basé sur de vastes cohortes de patients.
La gestion de données scientifiques complexes.

En résumé, FEAT prouve qu'il est possible de concilier efficacité computationnelle extrême et richesse représentationnelle pour les données structurées, ouvrant la voie à une nouvelle génération de modèles fondation évolutifs.

FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

1. Le Problème : Le "Mur de l'Attention"

2. La Solution FEAT : Le "Système de Double Fil"

3. L'Entraînement : Apprendre avec des "Faux" et des "Vrais"

4. Les Résultats : La Vitesse de l'Éclair

En Résumé

Titre : FEAT : Un modèle fondation à complexité linéaire pour des données structurées extrêmement volumineuses

1. Problématique et Contexte

2. Méthodologie : L'Architecture FEAT

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Sparse Goodness: How Selective Measurement Transforms Forward-Forward Learning

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking