FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Het paper introduceert FEAT, een foundation model met lineaire complexiteit dat door middel van een hybride dual-as architectuur de beperkingen van bestaande modellen voor zeer grote gestructureerde data overwint en aanzienlijk snellere inferentie biedt zonder in te leveren op prestaties.

Zhenghang Song, Tang Qian, Lu Chen, Yushuai Li, Zhengke Hu, Bingbing Fang, Yumeng Song, Junbo Zhao, Sheng Zhang, Tianyi Li

Gepubliceerd 2026-03-18
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🚀 FEAT: De Super-Organisator voor Grote Data

Stel je voor dat je een enorme berg papieren dossiers hebt. Elke dossier bevat gegevens over een persoon: leeftijd, inkomen, wat ze kopen, welke ziekten ze hebben, enzovoort. Dit noemen we gestructureerde data.

Vroeger waren er twee manieren om deze dossiers te analyseren:

  1. De oude manier (Bomen): Je pakt elke stapel apart, leest ze één voor één en maakt een lijstje. Dit werkt goed voor kleine stapels, maar als je miljoenen dossiers hebt, duurt het eeuwen.
  2. De nieuwe manier (Transformatoren): Je laat een slimme robot alle dossiers tegelijk bekijken om patronen te vinden. Dit is heel slim, maar de robot heeft een groot probleem: hij kan niet meer dan 50.000 dossiers tegelijk in zijn hoofd houden. Als je er meer probeert te laden, crasht zijn brein (het geheugen loopt vol).

FEAT is de oplossing voor dit probleem. Het is een nieuwe, slimme robot die miljoenen dossiers tegelijk kan verwerken, zonder dat zijn geheugen volloopt, en dat allemaal in een fractie van de tijd.


🧩 Het Drie-Vlakken Probleem

De auteurs van het paper zeggen dat bestaande slimme robots drie grote struikelblokken hebben:

  1. Het Geheugenprobleem (De O(N²) Muur):

    • Analogie: Stel je voor dat je een feestje hebt met 10.000 gasten. Als elke gast met elke andere gast moet praten om een beslissing te nemen, moet er 100 miljoen gesprekken plaatsvinden. Dat is ondoenlijk. Bestaande modellen doen precies dit: ze laten elke rij data met elke andere rij praten.
    • Oplossing FEAT: FEAT gebruikt een slimme "hoofdlijn". In plaats van dat iedereen met iedereen praat, praat iedereen met een centrale coördinator. Dit maakt het gesprek lineair (veel sneller) in plaats van kwadratisch (onmogelijk traag).
  2. Het Volgorde-probleem (De Verwarde Boekstaven):

    • Analogie: Bestaande slimme modellen zijn gewend aan zinnen in een boek. Woord 1 komt voor Woord 2. Maar in een data-tabel maakt de volgorde van de rijen niets uit. Rij 100 is niet "na" Rij 99.
    • Als je een model dat gewend is aan zinnen (zoals een taalmodel) op een tabel laat werken, denkt het dat de volgorde belangrijk is. Het vergeet dan de eerste rijen omdat het alleen naar de nieuwste kijkt (het "recency bias").
    • Oplossing FEAT: FEAT heeft een speciaal brein dat begrijpt dat de volgorde niet uitmaakt. Het kijkt naar alle rijen als een gelijkwaardige groep, zonder te denken dat de laatste rij de belangrijkste is.
  3. Het Ruis-probleem (De Schreeuwerige Wereld):

    • Analogie: In echte data zitten vaak rare uitschieters (bijv. iemand die €100.000.000 verdient terwijl de rest €50.000 verdient). Bestaande modellen raken in paniek door deze extreme waarden en stoppen met leren.
    • Oplossing FEAT: FEAT is getraind op een mix van echte en nep-data, maar dan op een manier die hem leert om niet door extreme waarden uit het lood te worden geslagen. Hij is "stevig" gebouwd.

🛠️ Hoe werkt FEAT? (De Twee Assen)

FEAT gebruikt een unieke architectuur die ze "Dual-Axis Encoding" noemen. Stel je voor dat FEAT twee verschillende soorten brillen draagt om naar de data te kijken:

  1. Bril 1: De Lokale Kijker (AFBM)

    • Deze kijkt naar de rijen (de mensen). Hij kijkt naar de directe buren. "Wie zit er naast wie?" Hij is goed in het zien van lokale patronen en dynamiek tussen mensen, zonder dat hij de hele wereld in één keer hoeft te zien. Hij werkt als een Mamba (een slang) die zich slingerend door de data beweegt, maar in beide richtingen (vooruit en achteruit), zodat hij niets vergeet.
  2. Bril 2: De Globale Geheugenbank (Conv-GLA)

    • Deze kijkt naar het geheel. Hij houdt een soort "witteplank" bij waar alle belangrijke informatie van de hele groep op wordt verzameld. Zelfs als de lijst met mensen 500.000 lang is, kan deze witteplank de belangrijkste feiten onthouden zonder dat het geheugen volloopt. Hij filtert de ruis eruit en houdt alleen de sterke signalen vast.

Samenwerking: FEAT wisselt constant tussen deze twee brillen. Eerst kijkt hij naar de details van de rijen, dan naar het grote geheel. Zo blijft hij snel én slim.


🎓 De Training: Van Nep naar Echt

Om FEAT zo slim te maken, hebben de makers hem niet alleen op echte data getraind (dat is te duur en te complex), maar op een slimme mix:

  • Ze hebben synthetische data gegenereerd (neppe data die er echt uitziet) met een speciale "causale motor".
  • Ze hebben deze data "verstoord" met ruis en extreme waarden, zodat FEAT leert om niet bang te zijn voor rare situaties.
  • Ze hebben een nieuwe trainingsmethode gebruikt die zorgt dat FEAT niet "ontploft" als hij een extreme waarde ziet.

🏆 De Resultaten: Wat kan FEAT?

In tests met 11 verschillende echte datasets (van gezondheidszorg tot financiën) deed FEAT het fantastisch:

  • Snelheid: FEAT is tot 40 keer sneller dan de beste bestaande modellen als er heel veel data is.
  • Schaalbaarheid: Terwijl andere modellen crashten bij 50.000 rijen, deed FEAT moeiteloos 500.000 rijen.
  • Slimheid: Zelfs zonder dat hij specifiek voor een taak is getraind (zero-shot), was hij net zo slim als de zware, trage modellen. Hij kon bijvoorbeeld ziektes voorspellen of kredietrisico's berekenen direct na het zien van een paar voorbeelden.

📝 Conclusie in één zin

FEAT is de eerste slimme data-robot die miljoenen dossiers tegelijk kan verwerken zonder zijn geheugen te verliezen, door slim te combineren tussen het kijken naar details en het onthouden van het grote geheel, waardoor hij snel, stabiel en extreem krachtig is voor de echte wereld.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →