FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Each language version is independently generated for its own context, not a direct translation.

🚀 FEAT: De Super-Organisator voor Grote Data

Stel je voor dat je een enorme berg papieren dossiers hebt. Elke dossier bevat gegevens over een persoon: leeftijd, inkomen, wat ze kopen, welke ziekten ze hebben, enzovoort. Dit noemen we gestructureerde data.

Vroeger waren er twee manieren om deze dossiers te analyseren:

De oude manier (Bomen): Je pakt elke stapel apart, leest ze één voor één en maakt een lijstje. Dit werkt goed voor kleine stapels, maar als je miljoenen dossiers hebt, duurt het eeuwen.
De nieuwe manier (Transformatoren): Je laat een slimme robot alle dossiers tegelijk bekijken om patronen te vinden. Dit is heel slim, maar de robot heeft een groot probleem: hij kan niet meer dan 50.000 dossiers tegelijk in zijn hoofd houden. Als je er meer probeert te laden, crasht zijn brein (het geheugen loopt vol).

FEAT is de oplossing voor dit probleem. Het is een nieuwe, slimme robot die miljoenen dossiers tegelijk kan verwerken, zonder dat zijn geheugen volloopt, en dat allemaal in een fractie van de tijd.

🧩 Het Drie-Vlakken Probleem

De auteurs van het paper zeggen dat bestaande slimme robots drie grote struikelblokken hebben:

Het Geheugenprobleem (De O(N²) Muur):
- Analogie: Stel je voor dat je een feestje hebt met 10.000 gasten. Als elke gast met elke andere gast moet praten om een beslissing te nemen, moet er 100 miljoen gesprekken plaatsvinden. Dat is ondoenlijk. Bestaande modellen doen precies dit: ze laten elke rij data met elke andere rij praten.
- Oplossing FEAT: FEAT gebruikt een slimme "hoofdlijn". In plaats van dat iedereen met iedereen praat, praat iedereen met een centrale coördinator. Dit maakt het gesprek lineair (veel sneller) in plaats van kwadratisch (onmogelijk traag).
Het Volgorde-probleem (De Verwarde Boekstaven):
- Analogie: Bestaande slimme modellen zijn gewend aan zinnen in een boek. Woord 1 komt voor Woord 2. Maar in een data-tabel maakt de volgorde van de rijen niets uit. Rij 100 is niet "na" Rij 99.
- Als je een model dat gewend is aan zinnen (zoals een taalmodel) op een tabel laat werken, denkt het dat de volgorde belangrijk is. Het vergeet dan de eerste rijen omdat het alleen naar de nieuwste kijkt (het "recency bias").
- Oplossing FEAT: FEAT heeft een speciaal brein dat begrijpt dat de volgorde niet uitmaakt. Het kijkt naar alle rijen als een gelijkwaardige groep, zonder te denken dat de laatste rij de belangrijkste is.
Het Ruis-probleem (De Schreeuwerige Wereld):
- Analogie: In echte data zitten vaak rare uitschieters (bijv. iemand die €100.000.000 verdient terwijl de rest €50.000 verdient). Bestaande modellen raken in paniek door deze extreme waarden en stoppen met leren.
- Oplossing FEAT: FEAT is getraind op een mix van echte en nep-data, maar dan op een manier die hem leert om niet door extreme waarden uit het lood te worden geslagen. Hij is "stevig" gebouwd.

🛠️ Hoe werkt FEAT? (De Twee Assen)

FEAT gebruikt een unieke architectuur die ze "Dual-Axis Encoding" noemen. Stel je voor dat FEAT twee verschillende soorten brillen draagt om naar de data te kijken:

Bril 1: De Lokale Kijker (AFBM)
- Deze kijkt naar de rijen (de mensen). Hij kijkt naar de directe buren. "Wie zit er naast wie?" Hij is goed in het zien van lokale patronen en dynamiek tussen mensen, zonder dat hij de hele wereld in één keer hoeft te zien. Hij werkt als een Mamba (een slang) die zich slingerend door de data beweegt, maar in beide richtingen (vooruit en achteruit), zodat hij niets vergeet.
Bril 2: De Globale Geheugenbank (Conv-GLA)
- Deze kijkt naar het geheel. Hij houdt een soort "witteplank" bij waar alle belangrijke informatie van de hele groep op wordt verzameld. Zelfs als de lijst met mensen 500.000 lang is, kan deze witteplank de belangrijkste feiten onthouden zonder dat het geheugen volloopt. Hij filtert de ruis eruit en houdt alleen de sterke signalen vast.

Samenwerking: FEAT wisselt constant tussen deze twee brillen. Eerst kijkt hij naar de details van de rijen, dan naar het grote geheel. Zo blijft hij snel én slim.

🎓 De Training: Van Nep naar Echt

Om FEAT zo slim te maken, hebben de makers hem niet alleen op echte data getraind (dat is te duur en te complex), maar op een slimme mix:

Ze hebben synthetische data gegenereerd (neppe data die er echt uitziet) met een speciale "causale motor".
Ze hebben deze data "verstoord" met ruis en extreme waarden, zodat FEAT leert om niet bang te zijn voor rare situaties.
Ze hebben een nieuwe trainingsmethode gebruikt die zorgt dat FEAT niet "ontploft" als hij een extreme waarde ziet.

🏆 De Resultaten: Wat kan FEAT?

In tests met 11 verschillende echte datasets (van gezondheidszorg tot financiën) deed FEAT het fantastisch:

Snelheid: FEAT is tot 40 keer sneller dan de beste bestaande modellen als er heel veel data is.
Schaalbaarheid: Terwijl andere modellen crashten bij 50.000 rijen, deed FEAT moeiteloos 500.000 rijen.
Slimheid: Zelfs zonder dat hij specifiek voor een taak is getraind (zero-shot), was hij net zo slim als de zware, trage modellen. Hij kon bijvoorbeeld ziektes voorspellen of kredietrisico's berekenen direct na het zien van een paar voorbeelden.

📝 Conclusie in één zin

FEAT is de eerste slimme data-robot die miljoenen dossiers tegelijk kan verwerken zonder zijn geheugen te verliezen, door slim te combineren tussen het kijken naar details en het onthouden van het grote geheel, waardoor hij snel, stabiel en extreem krachtig is voor de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Titel

FEAT: Een foundation model met lineaire complexiteit voor extreem grote gestructureerde data

1. Het Probleem

Gestructureerde data (bijv. tabellen in zorg, financiën en e-commerce) wordt momenteel vaak gemodelleerd met Large Structured-Data Models (LDMs). Hoewel deze modellen veelbelovend zijn, stuiten ze op drie fundamentele beperkingen bij toepassing op real-world datasets:

Kwadratische Complexiteit ( $O(N^2)$ ): Bestaande modellen gebruiken volledige self-attention (zoals in Transformers) om interacties tussen monsters (samples) te modelleren. Dit leidt tot een kwadratische complexiteit die de verwerking van grote datasets (bijv. >50.000 rijen) onmogelijk maakt vanwege geheugen- en rekentijdbeperkingen.
Representatie-instorting bij Lineaire Modellen: Het vervangen van attention door lineaire sequentiemodellen (zoals State Space Models/SSMs) lost het snelheidsprobleem op, maar introduceert nieuwe problemen. Gestructureerde data is permutatie-invariant (de volgorde van rijen is willekeurig en betekenisloos). Lineaire modellen zijn echter vaak causaal en unidirectioneel ontworpen voor tekst, wat leidt tot een "recency bias" (laatste samples worden belangrijker gevonden) en het verlies van globale context door compressie in een vaste hidden state.
Instabiliteit bij Pre-training: Bestaande foundation modellen worden vaak getraind op synthetische data met i.i.d.-aannames. Real-world data is echter heteroscedastisch en heeft een "heavy-tailed" verdeling (veel uitschieters). Dit zorgt voor instabiele optimalisatie en gradient-explosies tijdens het trainen.

2. Methodologie: De FEAT Architectuur

FEAT (Foundation model for Extremely large structured dATa) is ontworpen om deze beperkingen te overwinnen door een lineaire complexiteit ( $O(N)$ ) te bereiken zonder in te leveren op expressiviteit.

A. Cell-level Embedding

In plaats van data te "flattenen" tot een 1D-sequentie (wat de structuur verstoort), behoudt FEAT de 3D-structuur ( $N \times D \times d$ ).

Waardevector: Elke cel wordt gemapt naar een dichte embedding via een MLP.
S-DFE (Subspace Orthogonal Discriminative Feature Encoding): Om de permutatie-invariantie van kolommen te respecteren, worden geen statische posities gebruikt. In plaats daarvan worden dynamische, orthogonale vectoren gegenereerd voor elke feature, zodat elke kolom uniek maar gelijkwaardig is in de subruimte.

B. Multi-layer Dual-Axis Encoding

De kern van FEAT is een architectuur die twee asen onafhankelijk maar complementair modelleert:

Feature-as Modeling: Gebruikt Multi-Head Self-Attention (MHSA) binnen elke sample om interacties tussen features te vangen. Dit is beperkt tot de feature-dimensie ( $D$ ) en niet de sample-dimensie ( $N$ ).
Sample-as Modeling: Dit is de innovatieve laag die de $O(N^2)$ $O (N^{2})$ bottleneck oplost. Het combineert twee mechanismen:
- AFBM (Adaptive-Fusion bi-Mamba-2): Een bidirectionele SSM-laag die dynamische lokale afhankelijkheden tussen samples vangt. Door zowel voorwaarts als achterwaarts te lezen, wordt de causale bias van standaard SSMs opgeheven.
- Conv-GLA (Convolutional Gated Linear Attention): Een laag die een expliciete, statische "covariance memory" opbouwt. Deze laag gebruikt convolutie voor lokaal ruisfiltering en een gated mechanisme om globale interacties te accumuleren zonder de hidden state te hoeven comprimeren. Dit voorkomt dat informatie verloren gaat bij zeer lange sequenties (het "linear trap").

C. Pre-training Strategie

Om robuustheid te garanderen op real-world data:

Hybride SCM-pijplijn: De trainingdata wordt gegenereerd via een geavanceerde Structural Causal Model (SCM) generator die schaalvrije causaliteit, multi-modale clusters en heteroscedastisch ruis (waar de variantie afhangt van de signaalsterkte) simuleert.
Heavy-Tail Warping: Toepassing van Kumaraswamy-transformaties om zware staarten en uitschieters in de data te repliceren.
Robuuste Loss Functie: In plaats van MSE wordt een Huber-verlies (Smooth L1) gebruikt. Dit is minder gevoelig voor extreme uitschieters en voorkomt gradient-explosies. Daarnaast wordt een dynamische loss-balancing toegepast om te voorkomen dat één taak (bijv. classificatie) de training domineert.

3. Belangrijkste Bijdragen

Eerste Industriële Lineaire Foundation Model: FEAT is het eerste foundation model voor gestructureerde data dat strikt lineaire complexiteit ( $O(N)$ ) biedt, waardoor schaling naar miljoenen rijen mogelijk is.
Dual-Axis Architectuur: De unieke combinatie van AFBM (voor lokale dynamiek) en Conv-GLA (voor globale geheugenaccumulatie) lost het dilemma op tussen lineaire snelheid en het behoud van representatieve kracht bij permutatie-invariante data.
Stabiele Pre-training: Een nieuwe trainingsschema dat synthetische causaliteit combineert met realistische statistische eigenschappen (heavy tails) en een robuuste loss-functie, wat de kloof tussen simulatie en realiteit dicht.
Zero-Shot Generalisatie: Het model vereist geen taakspecifieke fine-tuning en werkt direct op nieuwe datasets via in-context learning (ICL).

4. Resultaten

De auteurs hebben FEAT getest op 11 real-world datasets (inclusief benchmarks zoals TabPFN Suite, Tabzilla, TALENT en industriële datasets van Ant Group) voor classificatie en regressie.

Schaalbaarheid en Snelheid:
- FEAT behoudt een stabiele inferentielatentie zelfs bij 500.000 samples (toename van ~150ms naar ~565ms).
- Bestaande modellen (zoals LimiX en TabPFN) storten in of geven geheugenfouten bij ~50.000 samples.
- FEAT is tot 40x sneller in inferentie bij extreme contextlengtes vergeleken met state-of-the-art baselines.
Voorspellende Prestaties:
- FEAT presteert op gelijke hoogte of beter dan kwadratische attention-modellen (zoals TabPFN en LimiX) in zero-shot scenario's.
- Het behaalt de hoogste AUC-scores op benchmarks zoals Tabzilla-CLS (0.9251) en GI-CLS.
- Het vermijdt de representatie-instorting die vaak optreedt bij pure lineaire modellen, zelfs op datasets met veel ruis en uitschieters.

5. Betekenis en Impact

Dit paper markeert een doorbraak in het modelleren van gestructureerde data. FEAT bewijst dat het niet nodig is om te kiezen tussen snelheid/schaalbaarheid en prestaties.

Het maakt het mogelijk om foundation modellen te trainen op datasets met miljoenen records, wat eerder onmogelijk was door de $O(N^2)$ barrière.
Het biedt een robuuste oplossing voor industriële toepassingen (zoals risicobeoordeling, aanbevelingssystemen en fraudeopsporing) waar data vaak onvolledig, heterogeen en zeer groot is.
De methode opent de deur voor "In-Context Learning" op tabulaire data op een schaal die eerder alleen voor taalmodellen (LLMs) mogelijk was.

Kortom, FEAT positioneert zich als een nieuwe standaard voor schaalbare, zero-shot foundation modellen voor gestructureerde data.