Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die probeert te raden wat er in de toekomst gaat gebeuren, alleen op basis van een paar flarden informatie uit het verleden. Misschien heb je een paar geluiden gehoord, een paar schaduwen gezien, of een paar getallen op een scherm. Je weet niet precies hoe het systeem werkt, maar je moet toch een voorspelling doen.

Dit is precies wat dynamische systemen doen: ze veranderen voortdurend, vaak met ruis en onzekerheid. In de wetenschap en techniek gebruiken we al decennia slimme wiskundige formules (zoals de Kalman-filter) om deze systemen te volgen. Het is als een zeer ervaren piloot die een vliegtuig door een storm vliegt: hij gebruikt een strakke set regels om te weten waar hij is en waar hij naartoe gaat.

Maar wat als je die strakke regels niet hebt? Wat als je alleen een heel slimme, grote computer hebt die nog nooit eerder zo'n storm heeft gezien, maar wel duizenden voorbeelden heeft gelezen?

Dat is waar dit nieuwe onderzoek over gaat. De auteurs, Usman Akram en Haris Vikalo, hebben ontdekt dat Transformers (het soort AI dat achter modellen zoals GPT zit) een verbazingwekkend talent hebben: ze kunnen leren om te "filteren" zonder dat ze de wiskundige regels ooit hebben geleerd.

Hier is hoe ze het doen, vertaald naar alledaagse taal:

1. De "In-Context Learning" Magie

Stel je voor dat je een nieuwe taal moet leren. Normaal gesproken zou je een boek moeten lezen met grammatica-regels (de wiskundige formules). Maar in dit onderzoek krijgen de AI-modellen geen boek. In plaats daarvan krijgen ze een korte samenvatting van wat er eerder is gebeurd.

Het scenario: De AI krijgt een lijstje: "Om 10:00 was de temperatuur 20 graden, om 10:05 was het 21 graden..."
De truc: De AI moet nu raden wat de temperatuur om 10:10 is.
Het resultaat: Zonder dat de AI ooit de formule voor temperatuurverandering heeft gezien, begint hij zich te gedragen alsof hij die formule kent. Hij "leest" de context en past zijn voorspelling daar direct op aan. Dit noemen ze In-Context Learning.

2. De "Onzichtbare Geest" (De Stille Toestand)

In de echte wereld zijn er vaak dingen die je niet kunt zien, maar die wel invloed hebben op wat je wel ziet.

Voorbeeld: Je ziet een boot op het water (de zichtbare uitkomst), maar je ziet de stroming eronder niet (de verborgen toestand). De stroming bepaalt waar de boot naartoe gaat.

De Kalman-filter is een wiskundig gereedschap dat die onzichtbare stroming schat. De onderzoekers ontdekten dat de Transformer, door alleen naar de zichtbare data te kijken, impliciet die onzichtbare stroming begint te begrijpen. Het is alsof de AI een "geest" heeft die de onzichtbare krachten in het systeem voelt, zonder dat iemand hem heeft verteld hoe die krachten werken.

3. Hoe groot moet de "hersenen" zijn?

Een van de coolste ontdekkingen in dit papier is dat de grootte van de AI-modeltje een groot verschil maakt:

Kleine modellen met korte context: Deze gedragen zich als een simpele student die probeert een lijn door punten te trekken (lineaire regressie). Ze kijken naar het verleden en zeggen: "Het ging omhoog, dus het gaat waarschijnlijk weer omhoog." Ze begrijpen de diepere dynamiek niet.
Grote modellen met lange context: Deze gedragen zich als de ervaren detective. Ze beginnen complexe patronen te zien. Ze simuleren in hun "hoofd" precies wat de Kalman-filter doet. Ze begrijpen dat de stroming verandert en passen hun voorspelling daarop aan.

Het is alsof je een klein kind en een ervaren piloot naast elkaar zet in een vliegtuig. Het kind (klein model) kijkt naar buiten en zegt "we gaan omhoog". De piloot (groot model) voelt de turbulentie, hoort de motor en weet precies hoe hij de knoppen moet draaien om stabiel te blijven, zelfs als hij de handleiding niet heeft.

4. Wat als je de handleiding mist?

Normaal gesproken heb je voor een Kalman-filter de exacte cijfers nodig: hoe snel is de wind? Hoe onnauwkeurig is de sensor?
In dit onderzoek gaven ze de Transformer geen van die cijfers. Ze gaven alleen de data.

Het resultaat: De Transformer was verrassend sterk. Hij kon de ontbrekende informatie impliciet raden. Het was alsof je iemand een puzzel geeft zonder de randstukken, en die persoon toch de rest van de puzzel zo legt dat het perfect past. Hij leerde dat als de data "ruisig" is, hij waarschijnlijk moet vertrouwen op eerdere patronen, en andersom.

5. Niet alleen rechtlijnig, maar ook gek

De meeste filters werken goed als dingen rechtlijnig bewegen. Maar de echte wereld is vaak gek: een vliegtuig dat een bocht maakt, een voorwerp dat versnelt en dan remt.
De onderzoekers toonden aan dat de Transformer zelfs in deze niet-lineaire (gekke) situaties werkt. In sommige gevallen deed het zelfs beter dan de traditionele methoden (zoals de Extended Kalman Filter), omdat de AI flexibel genoeg was om nieuwe patronen te vinden die de oude wiskundige regels niet zagen.

Conclusie: Een nieuwe manier van denken

Dit papier zegt eigenlijk: "Je hoeft niet altijd de exacte wiskundige regels te hebben om een systeem te begrijpen."

Als je een grote, slimme AI hebt en je geeft hem genoeg voorbeelden van het verleden, kan hij leren om te filteren. Hij bouwt een intern model van hoe de wereld werkt, puur door te kijken naar wat er gebeurt.

De grote metafoor:
Vroeger dachten we dat je om een storm te voorspellen, de wetten van de meteorologie uit je hoofd moest kennen. Dit onderzoek toont aan dat als je een heel slim kind genoeg oude weersverhalen laat lezen, het kind uiteindelijk net zo goed (of zelfs beter) een storm kan voorspellen, puur door de patronen in de verhalen te zien, zonder ooit een formule te hebben gezien.

Het is een krachtig bewijs dat In-Context Learning niet alleen goed is voor het schrijven van gedichten of het beantwoorden van vragen, maar ook voor het oplossen van complexe, wiskundige problemen in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems" in het Nederlands.

Probleemstelling

Het voorspellen van het gedrag van dynamische systemen op basis van ruisbeïnvloede waarnemingen van hun verleden is een klassiek probleem in de engineering en wetenschap.

Voor lineaire systemen met Gaussische ruis is de Kalman-filter de optimale schatter voor de toestandstrajectie in de Bayesiaanse zin.
Voor niet-lineaire systemen worden vaak suboptimale heuristieken gebruikt, zoals de Extended Kalman Filter (EKF), of numerieke methoden zoals Particle Filtering (PF).
Traditionele methoden vereisen expliciete kennis van het systeemmodel (overgangsmatrices, ruiscovarianties) en vaak recursieve updates.

De vraag die deze studie beantwoordt is: Kunnen Transformers, via In-Context Learning (ICL), impliciet verborgen toestanden afleiden om de uitgangen van dynamische systemen te voorspellen, zonder test-tijd gradient-updates of expliciete kennis van het systeemmodel?

Methodologie

De auteurs onderzoeken of een "bevroren" (niet-finetuned tijdens inferentie) Transformer, getraind op synthetische trajectoïden van willekeurig gegenereerde systemen, kan leren filteren.

In-Context Learning (ICL) Setup:
- Het model krijgt een korte context van eerdere input-output paren ( $u_t, y_t$ ) en optioneel systeemparameters (zoals de overgangsmatrix $F$ , ruiscovarianties $Q$ en $R$ ).
- Het doel is om de huidige output $y_t$ te voorspellen zonder de modelgewichten aan te passen tijdens de inferentie.
- De training vindt plaats op synthetische data gegenereerd door willekeurig gesamplede parameters van lineaire en niet-lineaire systemen.
Constructieve Bewijsvoering (Theoretisch):
- De auteurs tonen aan dat de recursieve stappen van de Kalman-filter (voorspelling en update) kunnen worden herschreven als een reeks basisbewerkingen: matrixvermenigvuldiging, deling, affiene transformaties en transponeren.
- Ze maken gebruik van het RAW-operator-framework (Read-Arithmetic-Write) uit eerdere werken (Akyürek et al., 2023). Ze tonen aan dat een Transformer-kop deze operaties kan simuleren door specifieke attention-patronen en feedforward-netwerken te gebruiken.
- Hiermee wordt bewezen dat de architectuur van een Transformer in theorie voldoende expressief is om de exacte operaties van een Kalman-filter (en zelfs een Dual Kalman Filter) te implementeren.
Experimentele Opzet:
- Er worden twee strategieën voor het genereren van systemen gebruikt: één met gegarandeerde stabiliteit en één met unitaire-interpolatie (die instabiel kan zijn).
- De prestaties worden gemeten via Mean Squared Error (MSE) en Mean Squared Prediction Difference (MSPD) (het verschil in voorspelling tussen het Transformer en een baseline).
- Baselines omvatten de Kalman-filter, SGD, Ridge-regressie, OLS, EKF en Particle Filters.

Belangrijkste Bijdragen

Eerste Empirische Bewijs voor ICL in Dynamische Systemen:
Het is de eerste studie die aantoont dat een Transformer, getraind op willekeurige systemen, in-context kan leren filteren zonder test-tijd updates. Het model leert het filteringsproces zelf, in plaats van specifieke input-output koppelingen te memoriseren.
Constructief Bewijs voor Kalman-filter Implementatie:
De auteurs leveren een "proof-by-construction" die laat zien hoe de recursies van de Kalman-filter kunnen worden vertaald naar operaties die natief door een Transformer kunnen worden uitgevoerd.
Robuustheid en Impliciete Parameterinference:
Een opvallende bevinding is dat de Transformer robuust blijft zelfs als cruciale parameters (zoals de ruiscovarianties $Q$ en $R$ , of zelfs de overgangsmatrix $F$ ) uit de context worden verwijderd. Het model lijkt deze parameters impliciet te infereren, wat gedrag vertoont dat vergelijkbaar is met een Dual Kalman Filter (waarbij zowel de toestand als de parameters worden geschat).
Schalingswetten en Modelgrootte:
De studie identificeert een kritieke relatie tussen modelgrootte/contextlengte en het type algoritme dat wordt geleerd:
- Kleine modellen/korte context: Gedragen zich als simpele regressiemethoden (SGD, Ridge, OLS) zonder impliciete toestandsinference.
- Grote modellen/lange context: Gedragen zich als geavanceerde filters (Kalman, EKF, Particle Filter) en herstellen impliciet verborgen toestanden.

Resultaten

Lineaire Systemen:
- In lineaire-Gaussische regimes benadert de voorspelling van de Transformer nauwkeurig die van de Kalman-filter.
- Wanneer parameters ontbreken, degradeert de prestatie slechts licht, wat suggereert dat het model de ontbrekende statistiek kan afleiden.
- Bij afwezigheid van de overgangsmatrix $F$ (en met een kleinere toestandsdimensie), benadert het model de prestaties van een Dual Kalman Filter.
Niet-lineaire Systemen:
- De Transformer presteert vergelijkbaar met de Extended Kalman Filter (EKF) en Particle Filters (PF) in niet-lineaire scenario's, zoals een manoeuvrerend doelwit met een onbekende draaisnelheid.
- In sommige complexe niet-lineaire settingen (zoals het manoeuvrerende doelwit) overtreft de Transformer zelfs de klassieke methoden, waarschijnlijk omdat het flexibeler kan omgaan met onzekerheid en niet-lineaire patronen leert in plaats van lineaire benaderingen te forceren.
Robuustheid:
- Het model toont sterke generalisatie naar distributies die afwijken van de trainingsdata (bijv. andere ruisverdelingen of meetmatrices).
- Het model kan ook werken met besturingssignalen (control inputs) zonder architecturale aanpassingen.

Betekenis en Conclusie

Deze studie biedt een fundamenteel nieuw perspectief op de capaciteiten van Transformers. Het suggereert dat In-Context Learning niet slechts een statistisch trucje is, maar een mechanisme dat impliciete Bayesiaanse inferentie en toestandsruimteschatting mogelijk maakt.

Flexibiliteit: Transformers bieden een niet-parametrisch alternatief voor handmatig ontworpen filters. Ze hoeven geen specifieke modelvergelijkingen te kennen en kunnen zich aanpassen aan diverse dynamische systemen via de prompt.
Toekomstperspectief: De resultaten wijzen erop dat de schaalbaarheid van het model (aantal lagen, embedding-dimensie) en de lengte van de context bepalend zijn voor het vermogen om complexe, dynamische inferentie-algoritmen te leren. Dit opent de deur voor het gebruik van grote taalmodellen in controletheorie, signaalverwerking en robotica, waar ze kunnen fungeren als universele, datagedreven filters.

Kortom, de paper bewijst dat Transformers in staat zijn om de wiskundige kern van filtering te "ontdekken" en te repliceren, puur door te kijken naar voorbeelden in de context.

Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems

1. De "In-Context Learning" Magie

2. De "Onzichtbare Geest" (De Stille Toestand)

3. Hoe groot moet de "hersenen" zijn?

4. Wat als je de handleiding mist?

5. Niet alleen rechtlijnig, maar ook gek

Conclusie: Een nieuwe manier van denken

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models