FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der Daten-Stau

Stellen Sie sich vor, Sie sind ein Detektiv, der versucht, ein riesiges Verbrechen aufzuklären. Sie haben eine Akte mit einer Million Zeugen (das sind die Daten). Jeder Zeuge hat eine Liste von 20 Fragen beantwortet (das sind die Merkmale).

Bisherige KI-Modelle (wie die „großen Transformer") funktionieren wie ein Detektiv, der jeden Zeugen mit jedem anderen Zeugen persönlich sprechen muss, um die Wahrheit herauszufinden.

Bei 10 Zeugen ist das machbar (100 Gespräche).
Bei 10.000 Zeugen sind es schon 100 Millionen Gespräche.
Bei einer Million Zeugen? Das wären eine Billion Gespräche.

Das ist unmöglich. Der Computer platzt vor lauter Arbeit, der Speicherplatz ist voll, und die Berechnung dauert ewig. Das nennt man die „quadratische Komplexität" ( $O(N^2)$ ). Es ist wie ein Stau auf einer Autobahn, der bei jedem zusätzlichen Auto doppelt so schlimm wird.

Die Lösung: FEAT – Der effiziente Detektiv

Die Forscher von FEAT (Foundation Model for Extremely Large Structured Data) haben eine neue Methode entwickelt, die diesen Stau auflöst. Sie bauen einen Detektiv, der nicht jeden mit jedem sprechen muss, sondern intelligente Muster erkennt, während er die Akten durchblättert.

Hier ist, wie FEAT das macht, mit einfachen Vergleichen:

1. Der zweigleisige Ansatz (Dual-Axis Encoding)

Statt alles durcheinanderzuwerfen, schaut FEAT die Daten auf zwei Arten an, wie ein Architekt, der ein Gebäude betrachtet:

Spur 1: Das Innere des Zeugen (Feature-Axis):
Zuerst schaut FEAT sich jeden einzelnen Zeugen genau an. Passt die Antwort auf Frage 1 zu Frage 2? (z.B. „Ist die Person jung und wohnt in einer Großstadt?"). Das macht es schnell, weil es nur innerhalb einer Person passiert.
Spur 2: Die Gruppe der Zeugen (Sample-Axis):
Dann schaut FEAT über alle Zeugen hinweg. Aber statt sie alle miteinander zu vergleichen, nutzt er zwei spezielle Werkzeuge:
- AFBM (Der schnelle Beobachter): Dieser Teil scannt die Liste der Zeugen schnell durch, um lokale Muster zu finden (z.B. „Die ersten 100 Zeugen sind alle aus Berlin"). Er ist wie ein schneller Scanner, der die unmittelbare Umgebung versteht.
- Conv-GLA (Das riesige Gedächtnis): Das ist das Genie. Normalerweise vergessen einfache lineare Modelle alte Informationen, wenn die Liste zu lang wird (wie ein Mensch, der nur das letzte Gehörte im Kopf hat). Conv-GLA ist wie ein unendliches Notizbuch. Es sammelt die wichtigsten Informationen von allen Zeugen in einer Art „Gedächtnis-Speicher", ohne den Überblick zu verlieren. So kann FEAT auch bei einer Million Zeugen noch den großen Zusammenhang sehen, ohne den Speicher zu sprengen.

2. Das Training: Nicht nur mit Fantasie, sondern mit der Realität

Frühere Modelle wurden oft nur mit künstlich erzeugten Daten trainiert (wie ein Koch, der nur mit Plastikessen übt). Die echte Welt ist jedoch chaotisch: Es gibt Ausreißer, verrückte Werte und unvorhersehbare Muster (wie ein Koch, der mit echtem, manchmal verbranntem Essen zu tun hat).

FEAT wurde mit einem hybriden Trainingsprogramm geschult:

Es lernt an künstlichen Daten, um die Grundregeln zu verstehen.
Aber es wird auch mit echten, chaotischen Daten trainiert, die „schwere Schwänze" haben (das bedeutet: Es gibt viele normale Fälle, aber auch extrem seltene, verrückte Ausreißer).
FEAT hat eine spezielle „Schutzweste" (eine robuste Verlustfunktion), die verhindert, dass es in Panik gerät, wenn ein verrückter Datenpunkt auftaucht. Anstatt zu explodieren, ignoriert es den Lärm und lernt das Wesentliche.

Warum ist das so toll? (Die Ergebnisse)

Stellen Sie sich vor, Sie müssen eine Liste von 500.000 Zeugen durchgehen.

Die alten Modelle: Brauchen dafür Stunden oder brechen komplett zusammen, weil der Speicher voll ist.
FEAT: Braucht dafür nur wenige Sekunden.

Das Papier zeigt, dass FEAT:

40-mal schneller ist als die besten bisherigen Modelle bei riesigen Datenmengen.
Genau so gut (oder sogar besser) Vorhersagen trifft wie die alten, langsamen Modelle.
Kein Nachtrainieren braucht. Wenn Sie FEAT eine neue Aufgabe geben (z.B. von „Krankheitsdiagnose" zu „Kreditwürdigkeit"), versteht es das sofort, nur durch den Kontext, ohne dass man es neu programmieren muss.

Zusammenfassung in einem Satz

FEAT ist wie ein Super-Detektiv, der eine Million Akten in Sekundenschnelle durchsieht, indem er nicht jeden mit jedem sprechen muss, sondern ein riesiges, intelligentes Gedächtnis nutzt, um die wahren Muster in einem chaotischen Daten-Dschungel zu finden – und das alles, ohne den Computer zum Platzen zu bringen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Strukturierte Daten (z. B. in Tabellenform) sind in Bereichen wie Gesundheitswesen, Finanzen und E-Commerce allgegenwärtig. Bestehende Large Structured-Data Models (LDMs), die auf dem Paradigma von Foundation Models basieren, stoßen bei der Anwendung auf reale, großskalige Datensätze auf drei wesentliche Grenzen:

Quadratische Komplexität ( $O(N^2)$ ): Die meisten aktuellen Modelle nutzen Self-Attention-Mechanismen (Transformer), die eine quadratische Komplexität bezüglich der Anzahl der Proben ( $N$ ) aufweisen. Dies führt bei Datensätzen mit über 50.000 Zeilen zu Speicher- und Rechenengpässen (Out-of-Memory-Fehler), was eine Modellierung globaler Verteilungen in Millionen-Records-Datensätzen unmöglich macht.
Repräsentationskollaps bei linearen Modellen: Ein naheliegender Ansatz zur Umgehung der $O(N^2)$ -Barriere wäre der Einsatz linearer Sequenzmodelle (z. B. State Space Models wie Mamba oder Linear Attention). Diese sind jedoch für sequenzielle Daten (zeitliche Abhängigkeiten) konzipiert. Da strukturierte Daten permutationsinvariant sind (die Reihenfolge der Zeilen ist semantisch irrelevant), führt die direkte Übertragung zu einem „Repräsentationskollaps". Die versteckten Zustände komprimieren zu stark, und die inhärente kausale Verzerrung (Causal Bias) dieser Modelle zerstört die globalen Abhängigkeiten zwischen den Proben.
Instabilität bei realen Datenverteilungen: Viele Modelle werden nur auf synthetischen Daten mit unabhängigen und identisch verteilten (i.i.d.) Annahmen vortrainiert. Reale Daten weisen jedoch oft schwere Verteilungsschwänze (heavy-tailed) und Heteroskedastizität auf. Herkömmliche Verlustfunktionen (wie MSE) führen bei diesen Ausreißern zu instabilen Gradienten und Optimierungsfehlern.

2. Methodik: FEAT-Architektur

FEAT (Foundation model for Extremely large structured dAta) ist ein Foundation-Modell, das eine strikte lineare Komplexität $O(N)$ erreicht, ohne die Ausdruckskraft der Repräsentationen zu verlieren.

A. Zell-Level-Embedding

Im Gegensatz zu NLP-Modellen, die Daten oft in 1D-Sequenzen flachen, behält FEAT die 3D-Struktur ( $N \times D \times d$ ) bei.

Es verwendet eine Subspace Orthogonal Discriminative Feature Encoding (S-DFE)-Strategie. Anstatt statische Positionscodes zu nutzen, werden orthogonale Matrizen verwendet, um den Merkmalen (Spalten) eindeutige, aber äquidistante Identitäten zu geben. Dies erhält die Permutationsinvarianz der Spalten und verhindert assoziative Verzerrungen.

B. Multi-Layer Dual-Axis Encoding (Der Kern)

FEAT ersetzt die quadratische Attention durch eine hybride, lineare Architektur mit zwei komplementären Ebenen:

Feature-Axis-Modellierung:
- Nutzt Multi-Head Self-Attention (MHSA) innerhalb jeder Zeile über die Merkmalsdimension $D$ .
- Erfasst lokale semantische Korrelationen zwischen den Merkmalen eines einzelnen Samples.
- Komplexität: $O(N \cdot D^2)$ .
Sample-Axis-Modellierung (Cross-Sample):
- Dies ist die Innovation zur Lösung des $O(N^2)$ $O (N^{2})$ -Problems und des Repräsentationskollapses. Sie besteht aus einer hybriden Kette von Schichten:
  - AFBM (Adaptive-Fusion bi-Mamba-2): Drei aufeinanderfolgende Schichten, die bidirektionale State-Space-Modelle (Mamba-2) nutzen. Sie erfassen dynamische lokale Abhängigkeiten zwischen den Proben und lösen das Problem der kausalen Verzerrung durch bidirektionale Verarbeitung.
  - Conv-GLA (Convolutional Gated Linear Attention): Eine finale Schicht, die ein explizites globales Gedächtnis (Covariance Memory) einführt. Sie nutzt eine 1D-Faltung zur Glättung (Rauschunterdrückung) und einen gated-Mechanismus, um Informationen in einer Kovarianzmatrix zu akkumulieren. Dies verhindert, dass wichtige globale Informationen in den versteckten Zuständen der SSMs verloren gehen (Vermeidung des „Linear Trap").

C. Vortrainings-Pipeline (Hybrid SCM)

Um die Lücke zwischen synthetischen und realen Daten zu schließen, verwendet FEAT einen fortschrittlichen Hybrid-SCM (Structural Causal Model)-Generator:

Skalenfreie Topologie: Erzeugung von DAGs mit „Hub"-Variablen, die reale Confounder nachahmen.
Heteroskedastisches Rauschen: Das Rauschen skaliert mit der Signalstärke, um reale Messfehler zu simulieren.
Heavy-Tail-Warping: Anwendung der Kumaraswamy-Transformation, um schwere Verteilungsschwänze und Ausreißer zu erzeugen.
Robuste Verlustfunktion: Statt MSE wird ein Huber-basierter Verlust (Smooth L1) verwendet, der bei großen Fehlern linear statt quadratisch bestraft, um Gradientenexplosionen zu verhindern. Zudem wird ein dynamisches Loss-Balancing für Multi-Task-Lernen (Klassifikation, Regression, Imputation) eingesetzt.

3. Wichtige Beiträge

Erstes industrielles Lineares Foundation-Modell: FEAT ist das erste Modell dieser Art, das eine strikte $O(N)$ -Komplexität für strukturierte Daten bietet und somit Skalierbarkeit auf Millionen von Zeilen ermöglicht.
Dual-Axis-Architektur: Die Kombination aus AFBM (lokale Dynamik) und Conv-GLA (globales Gedächtnis) löst das Dilemma zwischen linearer Effizienz und der Notwendigkeit, globale Abhängigkeiten in permutationsinvarianten Daten zu erhalten.
Robustes Vortraining: Die Einführung einer Heavy-Tail-bewussten Vortrainingsstrategie mit Hybrid-SCMs und Huber-Verlusten garantiert stabile Konvergenz auch bei extremen Ausreißern und heterogenen Verteilungen.
Zero-Shot Generalisierung: Das Modell kann ohne feine Abstimmung (Fine-Tuning) auf neuen Datensätzen inferieren, indem es Kontext-Learning (In-Context Learning) nutzt.

4. Ergebnisse

FEAT wurde auf 11 realen Datensätzen aus verschiedenen Benchmarks (TabPFN, Tabzilla, TALENT, TabArena, etc.) evaluiert:

Skalierbarkeit & Effizienz:
- FEAT zeigt eine lineare Zunahme der Inferenzzeit mit der Anzahl der Proben.
- Bei 500.000 Proben ist FEAT bis zu 40-mal schneller als Transformer-basierte Baselines (TabPFN, LimiX).
- Während Baselines bei ~50.000 Proben aufgrund von Speicherfehlern oder extremen Latenzen versagen, bleibt FEAT stabil.
Vorhersageleistung (Zero-Shot):
- FEAT erreicht eine Leistung, die mit den besten Full-Attention-Modellen (Quadratic Complexity) vergleichbar ist.
- In Klassifikationsaufgaben (z. B. Tabzilla-CLS) erzielt FEAT die höchste AUC (0.9251).
- In Regressionsaufgaben (z. B. CTR23-REG) übertrifft FEAT lineare Baselines und zeigt Robustheit in hochdimensionalen, spärlichen Umgebungen, ohne unter dem „Linear Trap" zu leiden.

5. Bedeutung

Die Arbeit von FEAT ist ein Durchbruch für die Anwendung von Foundation Models im Bereich strukturierter Daten. Sie beweist, dass die quadratische Komplexität von Transformern nicht zwingend notwendig ist, um State-of-the-Art-Ergebnisse zu erzielen. Durch die Überwindung der $O(N^2)$ -Barriere ermöglicht FEAT die Analyse von Datensätzen in einem Maßstab (Millionen von Zeilen), der bisher für Foundation Models unzugänglich war. Dies eröffnet neue Möglichkeiten für Echtzeit-Entscheidungsunterstützung, Risikobewertung und personalisierte Empfehlungen in industriellen Umgebungen, wo Datenmengen und -geschwindigkeit kritisch sind.