Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems

Dit artikel toont aan dat transformers in een in-context learning setting, zonder testtijd-gradiëntupdates of expliciete modelkennis, de verborgen toestanden van dynamische systemen impliciet kunnen schatten om nauwkeurige voorspellingen te doen die vergelijkbaar zijn met die van de Kalman-filter en andere geavanceerde filterschatters.

Usman Akram, Haris Vikalo

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die probeert te raden wat er in de toekomst gaat gebeuren, alleen op basis van een paar flarden informatie uit het verleden. Misschien heb je een paar geluiden gehoord, een paar schaduwen gezien, of een paar getallen op een scherm. Je weet niet precies hoe het systeem werkt, maar je moet toch een voorspelling doen.

Dit is precies wat dynamische systemen doen: ze veranderen voortdurend, vaak met ruis en onzekerheid. In de wetenschap en techniek gebruiken we al decennia slimme wiskundige formules (zoals de Kalman-filter) om deze systemen te volgen. Het is als een zeer ervaren piloot die een vliegtuig door een storm vliegt: hij gebruikt een strakke set regels om te weten waar hij is en waar hij naartoe gaat.

Maar wat als je die strakke regels niet hebt? Wat als je alleen een heel slimme, grote computer hebt die nog nooit eerder zo'n storm heeft gezien, maar wel duizenden voorbeelden heeft gelezen?

Dat is waar dit nieuwe onderzoek over gaat. De auteurs, Usman Akram en Haris Vikalo, hebben ontdekt dat Transformers (het soort AI dat achter modellen zoals GPT zit) een verbazingwekkend talent hebben: ze kunnen leren om te "filteren" zonder dat ze de wiskundige regels ooit hebben geleerd.

Hier is hoe ze het doen, vertaald naar alledaagse taal:

1. De "In-Context Learning" Magie

Stel je voor dat je een nieuwe taal moet leren. Normaal gesproken zou je een boek moeten lezen met grammatica-regels (de wiskundige formules). Maar in dit onderzoek krijgen de AI-modellen geen boek. In plaats daarvan krijgen ze een korte samenvatting van wat er eerder is gebeurd.

  • Het scenario: De AI krijgt een lijstje: "Om 10:00 was de temperatuur 20 graden, om 10:05 was het 21 graden..."
  • De truc: De AI moet nu raden wat de temperatuur om 10:10 is.
  • Het resultaat: Zonder dat de AI ooit de formule voor temperatuurverandering heeft gezien, begint hij zich te gedragen alsof hij die formule kent. Hij "leest" de context en past zijn voorspelling daar direct op aan. Dit noemen ze In-Context Learning.

2. De "Onzichtbare Geest" (De Stille Toestand)

In de echte wereld zijn er vaak dingen die je niet kunt zien, maar die wel invloed hebben op wat je wel ziet.

  • Voorbeeld: Je ziet een boot op het water (de zichtbare uitkomst), maar je ziet de stroming eronder niet (de verborgen toestand). De stroming bepaalt waar de boot naartoe gaat.

De Kalman-filter is een wiskundig gereedschap dat die onzichtbare stroming schat. De onderzoekers ontdekten dat de Transformer, door alleen naar de zichtbare data te kijken, impliciet die onzichtbare stroming begint te begrijpen. Het is alsof de AI een "geest" heeft die de onzichtbare krachten in het systeem voelt, zonder dat iemand hem heeft verteld hoe die krachten werken.

3. Hoe groot moet de "hersenen" zijn?

Een van de coolste ontdekkingen in dit papier is dat de grootte van de AI-modeltje een groot verschil maakt:

  • Kleine modellen met korte context: Deze gedragen zich als een simpele student die probeert een lijn door punten te trekken (lineaire regressie). Ze kijken naar het verleden en zeggen: "Het ging omhoog, dus het gaat waarschijnlijk weer omhoog." Ze begrijpen de diepere dynamiek niet.
  • Grote modellen met lange context: Deze gedragen zich als de ervaren detective. Ze beginnen complexe patronen te zien. Ze simuleren in hun "hoofd" precies wat de Kalman-filter doet. Ze begrijpen dat de stroming verandert en passen hun voorspelling daarop aan.

Het is alsof je een klein kind en een ervaren piloot naast elkaar zet in een vliegtuig. Het kind (klein model) kijkt naar buiten en zegt "we gaan omhoog". De piloot (groot model) voelt de turbulentie, hoort de motor en weet precies hoe hij de knoppen moet draaien om stabiel te blijven, zelfs als hij de handleiding niet heeft.

4. Wat als je de handleiding mist?

Normaal gesproken heb je voor een Kalman-filter de exacte cijfers nodig: hoe snel is de wind? Hoe onnauwkeurig is de sensor?
In dit onderzoek gaven ze de Transformer geen van die cijfers. Ze gaven alleen de data.

  • Het resultaat: De Transformer was verrassend sterk. Hij kon de ontbrekende informatie impliciet raden. Het was alsof je iemand een puzzel geeft zonder de randstukken, en die persoon toch de rest van de puzzel zo legt dat het perfect past. Hij leerde dat als de data "ruisig" is, hij waarschijnlijk moet vertrouwen op eerdere patronen, en andersom.

5. Niet alleen rechtlijnig, maar ook gek

De meeste filters werken goed als dingen rechtlijnig bewegen. Maar de echte wereld is vaak gek: een vliegtuig dat een bocht maakt, een voorwerp dat versnelt en dan remt.
De onderzoekers toonden aan dat de Transformer zelfs in deze niet-lineaire (gekke) situaties werkt. In sommige gevallen deed het zelfs beter dan de traditionele methoden (zoals de Extended Kalman Filter), omdat de AI flexibel genoeg was om nieuwe patronen te vinden die de oude wiskundige regels niet zagen.

Conclusie: Een nieuwe manier van denken

Dit papier zegt eigenlijk: "Je hoeft niet altijd de exacte wiskundige regels te hebben om een systeem te begrijpen."

Als je een grote, slimme AI hebt en je geeft hem genoeg voorbeelden van het verleden, kan hij leren om te filteren. Hij bouwt een intern model van hoe de wereld werkt, puur door te kijken naar wat er gebeurt.

De grote metafoor:
Vroeger dachten we dat je om een storm te voorspellen, de wetten van de meteorologie uit je hoofd moest kennen. Dit onderzoek toont aan dat als je een heel slim kind genoeg oude weersverhalen laat lezen, het kind uiteindelijk net zo goed (of zelfs beter) een storm kan voorspellen, puur door de patronen in de verhalen te zien, zonder ooit een formule te hebben gezien.

Het is een krachtig bewijs dat In-Context Learning niet alleen goed is voor het schrijven van gedichten of het beantwoorden van vragen, maar ook voor het oplossen van complexe, wiskundige problemen in de echte wereld.