Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems

Each language version is independently generated for its own context, not a direct translation.

🤖 Der Transformer als „intuitiver Detektiv": Wie KI aus Kontext lernt, ohne zu rechnen

Stellen Sie sich vor, Sie sind ein Detektiv, der in ein Zimmer betritt, in dem ein mysteriöses Spiel stattfindet. Sie sehen nicht die Regeln des Spiels, Sie kennen die Schachfiguren nicht und Sie haben keine Anleitung. Aber Sie sehen, wie die Spieler in den letzten 10 Zügen gehandelt haben.

Die Frage ist: Können Sie den nächsten Zug vorhersagen?

Genau das untersucht dieses Papier. Es fragt, ob moderne KI-Modelle (genannt Transformers, wie die, die auch Chatbots antreiben) in der Lage sind, das Verhalten von physikalischen Systemen – wie einem schwingenden Pendel oder einem fliegenden Flugzeug – vorherzusagen, nur indem sie sich die Vergangenheit „angucken", ohne jemals die mathematischen Formeln dafür gelernt zu haben.

1. Das alte Problem: Der Kalman-Filter als „perfekter Rechner"

In der Ingenieurswelt gibt es ein klassisches Problem: Ein System (z. B. ein Satellit) sendet verrauschte Signale. Wir wollen wissen, wo es wirklich ist.

Der Kalman-Filter ist wie ein perfekter Mathematiker. Er kennt die exakten Gesetze der Physik, weiß genau, wie laut das Rauschen ist und rechnet mit komplexen Formeln den besten möglichen Weg aus. Er ist der Goldstandard, aber er braucht alle Informationen und die Formeln.
Das Problem bei nicht-linearen Systemen: Wenn das System sich seltsam verhält (z. B. ein Flugzeug, das plötzlich eine Kurve fliegt), versagen die einfachen Mathematiker. Dann braucht man teure, langsame Methoden wie „Partikel-Filter" (eine Art Schwarm von Vermutungen).

2. Die neue Lösung: Der Transformer als „intuitiver Lerner"

Die Autoren dieses Papiers haben etwas Erstaunliches entdeckt: Ein Transformer (eine Art riesiges neuronales Netz) kann lernen, genau wie der Kalman-Filter zu funktionieren – ohne jemals die Formeln gesehen zu haben.

Die Analogie: Der „Kontext-Lernende"
Stellen Sie sich den Transformer als einen Genie-Schüler vor, der in einer Prüfung sitzt.

Der Klassiker (Kalman-Filter): Hat das Lehrbuch (die Formeln) dabei und rechnet Schritt für Schritt nach.
Der Transformer: Hat kein Lehrbuch. Aber ihm wird ein Zettel mit den letzten 10 Zügen gegeben (das ist der „Kontext").
- Wenn der Schüler genug Beispiele sieht, fängt er an, das Muster zu verstehen.
- Er lernt nicht auswendig, was passiert ist, sondern wie das System funktioniert.
- Er sagt dann den nächsten Zug voraus, indem er intuitiv rechnet, genau wie der Mathematiker, nur dass er die Regeln selbst „herausgefühlt" hat.

3. Was das Papier beweist (Die drei großen Entdeckungen)

A. Der Transformer kann „Kalman-Filtern" (für lineare Systeme)
Wenn das System sich vorhersehbar verhält (wie ein Pendel), lernt der Transformer so schnell, dass er fast genauso gut ist wie der perfekte Mathematiker.

Wichtig: Er macht das, ohne dass man ihm die Formeln gibt. Er „erfindet" die Mathematik im Kopf, indem er die Datenmuster analysiert.
Die Überraschung: Selbst wenn man ihm wichtige Informationen (wie die genaue Geschwindigkeit des Pendels) vorenthält, schafft er es trotzdem, sie zu erraten. Er ist wie ein Detektiv, der aus den Fußspuren auf die Geschwindigkeit des Täters schließt.

B. Er meistert auch das „Chaotische" (nicht-lineare Systeme)
Was passiert, wenn das System verrückt spielt? (z. B. ein Flugzeug, das eine Kurve fliegt, ohne dass man weiß, wie stark es lenkt).

Hier versagen einfache lineare Modelle.
Aber der Transformer? Er schafft es! Er lernt, sich an die Kurven anzupassen und sagt den Weg voraus, der oft sogar besser ist als die traditionellen Methoden (wie der „Erweiterte Kalman-Filter").
Metapher: Wenn der Mathematiker versucht, die Kurve mit einem Lineal zu messen, und scheitert, dann „spürt" der Transformer die Kurve mit seinen Händen und folgt ihr.

C. Größe zählt (Der „Skalierungs-Effekt")
Das Papier zeigt einen faszinierenden Unterschied zwischen kleinen und großen Modellen:

Kleine Modelle mit wenig Kontext verhalten sich wie einfache Regressions-Modelle (sie versuchen nur, eine gerade Linie durch die Punkte zu ziehen). Sie erkennen keine versteckten Zustände.
Große Modelle mit viel Kontext beginnen, versteckte Zustände zu erkennen. Sie verstehen, dass hinter den sichtbaren Daten ein unsichtbarer Motor (der Zustand des Systems) steckt. Sie werden zu echten Filtern.

4. Warum ist das wichtig?

Stellen Sie sich vor, Sie bauen eine autonome Drohne.

Früher: Sie mussten die physikalischen Formeln der Luftströmung kennen und einen komplexen Filter programmieren. Wenn die Formeln nicht perfekt waren, fiel die Drohne herunter.
Mit dieser Methode: Sie füttern die KI einfach mit Daten von vielen verschiedenen Drohnenflügen. Die KI lernt den „Bauchgefühl"-Zugriff auf die Physik. Sie braucht keine Formeln mehr. Sie ist robuster, flexibler und kann sich an unbekannte Situationen anpassen.

Fazit in einem Satz

Dieses Papier zeigt, dass moderne KI-Modelle nicht nur Text vorhersagen können, sondern auch die unsichtbaren Gesetze der Physik „im Kopf" haben können, indem sie einfach nur die Vergangenheit beobachten – ganz ohne Formelbuch. Sie sind nicht nur Rechner, sie sind intuitive Detektive.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems" auf Deutsch.

Titel: Transformers als implizite Zustandschätzer: In-Context-Learning in dynamischen Systemen

Autoren: Usman Akram und Haris Vikalo (University of Texas at Austin)
Veröffentlicht in: Transactions on Machine Learning Research (03/2026)

1. Problemstellung

Die Vorhersage des Verhaltens dynamischer Systeme aus verrauschten Beobachtungen ihrer vergangenen Ausgaben ist ein klassisches Problem in Ingenieurwissenschaften und Naturwissenschaften.

Lineare Systeme: Für lineare Systeme mit gaußschen Eingaben ist der Kalman-Filter der optimale Schätzer für den Zustandstrajektor im bayesschen Sinne (Minimum Mean-Square Error).
Nichtlineare Systeme: Für nichtlineare Systeme werden oft suboptimale Heuristiken wie der Erweiterte Kalman-Filter (EKF) oder numerische Methoden wie das Partikel-Filter (PF) verwendet.
Herausforderung: Herkömmliche Ansätze erfordern oft explizites Wissen über das Systemmodell (z. B. Zustandsübergangsmatrix, Rauschkovarianzen) oder Gradienten-Updates während des Tests.

Die zentrale Forschungsfrage dieses Papers lautet: Können Transformer-Modelle, die im „In-Context-Learning" (ICL)-Modus eingesetzt werden, versteckte Zustände implizit inferieren, um die Ausgaben dynamischer Systeme vorherzusagen, ohne dass Testzeit-Gradienten-Updates oder explizite Kenntnis des Systemmodells erforderlich sind?

2. Methodik

A. Ansatz: In-Context Learning (ICL)

Die Autoren untersuchen, ob ein vortrainierter, „eingefrorener" (frozen) Transformer, der auf synthetischen Trajektorien trainiert wurde, in der Lage ist, Filteraufgaben zu lösen.

Eingabe: Dem Transformer wird ein kurzer Kontext aus vergangenen Eingabe-Ausgabe-Paaren $(u_t, y_t)$ und optional Systemparametern (wie der Zustandsübergangsmatrix $F$ oder Rauschkovarianzen $Q, R$ ) bereitgestellt.
Ziel: Vorhersage der aktuellen Ausgabe $y_t$ ohne weitere Anpassung der Gewichte während des Tests.
Daten: Das Modell wird auf synthetischen Daten trainiert, die aus dynamischen Systemen mit zufällig gesampelten Parametern generiert wurden. Dies zwingt das Modell, den Filteralgorithmus selbst zu lernen, statt spezifische Eingabe-Ausgabe-Muster auswendig zu lernen.

B. Theoretische Konstruktion (Proof-by-Construction)

Die Autoren zeigen konstruktiv, dass die Operationen des Kalman-Filters durch die primitiven Operationen eines Transformers nachgebildet werden können:

RAW-Operator: Basierend auf der Arbeit von Akyürek et al. (2023) wird gezeigt, dass Transformer-Köpfe Operationen wie Matrixmultiplikation, Skalardivision und affine Transformationen approximieren können.
Reformulierung des Kalman-Filters: Die rekursiven Gleichungen des Kalman-Filters (Prädiktion und Update) werden in eine Folge dieser primitiven Operationen zerlegt.
- Für skalare Messungen reduziert sich die Matrixinversion auf eine skalare Division, die von einem einzelnen Attention-Head approximiert werden kann.
- Für vektorielle Messungen wird eine entrollte (unrolled) Form des Filters verwendet, die sequenzielle Updates pro Messdimension ermöglicht.
Dualer Kalman-Filter (DKF): Auch für den Fall, dass Systemparameter (wie $F$ ) fehlen, wird gezeigt, dass ein Transformer den DKF nachbilden kann, indem er die Parameter als latente Variablen gemeinsam mit dem Zustand schätzt.

C. Experimentelles Setup

Architektur: GPT-2-artige Decoder-only Transformer (Variationen in Schichttiefe und Embedding-Dimension).
Trainingskurriculum: Das Training beginnt mit kurzen Kontextlängen und erhöht diese schrittweise.
Bewertungsmetriken:
- MSE (Mean Squared Error): Fehler gegenüber dem wahren Output.
- MSPD (Mean Squared Prediction Difference): Direkter Vergleich der Vorhersagen des Transformers mit denen von Baseline-Algorithmen (Kalman, EKF, PF, SGD, Ridge), unabhängig vom wahren Output.

3. Wichtige Beiträge

Erster Nachweis für ICL-Filterung: Es wird gezeigt, dass ein auf synthetischen Daten vortrainierter Transformer in der Lage ist, Filterung in dynamischen Systemen durch In-Context-Learning zu erlernen, ohne Gradienten-Updates zur Testzeit.
Konstruktiver Beweis für Kalman-Filter: Es wird bewiesen, dass die mathematischen Operationen des Kalman-Filters durch Transformer-Primitiven (Mul, Div, Aff) darstellbar sind.
Skalierungseffekte (Model Capacity):
- Kleine Modelle/Kurze Kontexte: Verhalten sich wie klassische Regressionsmethoden (SGD, Ridge, OLS) ohne latente Zustandsschätzung.
- Große Modelle/Lange Kontexte: Convergenz zu optimalem Filterverhalten (Kalman, EKF, PF), was auf eine implizite Wiederherstellung versteckter Zustände hindeutet.
Robustheit bei fehlenden Parametern: Der Transformer kann auch dann gute Vorhersagen treffen, wenn kritische Parameter (z. B. die Zustandsübergangsmatrix $F$ oder Rauschkovarianzen) aus dem Kontext fehlen. Er inferiert diese implizit, ähnlich wie ein Dualer Kalman-Filter.
Generalisierung auf Nichtlinearität: Die Fähigkeit erstreckt sich auf nichtlineare Systeme, wobei die Leistung mit EKF und Partikel-Filtern vergleichbar ist oder diese in bestimmten Szenarien (z. B. Manöverzielverfolgung mit unbekannter Drehgeschwindigkeit) sogar übertrifft.

4. Ergebnisse

Lineare Systeme

Leistung: Bei ausreichender Kontextlänge und Modellgröße nähern sich die Vorhersagen des Transformers denen des Kalman-Filters extrem an (niedrige MSPD).
Fehlende Parameter: Selbst wenn $F$ , $Q$ und $R$ nicht im Prompt stehen, bleibt die Leistung stabil. Bei niedriger Dimension ( $n=2$ ) erreicht das Modell fast die Leistung eines Kalman-Filters, der diese Parameter kennt. Bei höherer Dimension ( $n=8$ ) ohne Parameter nähert es sich eher einem SGD-Verhalten an, verbessert sich aber mit größerer Kontextlänge.
Stabilität: Das Modell generalisiert gut auf Verteilungsverschiebungen (z. B. andere Rauschverteilungen oder Systemdynamiken), die während des Trainings nicht gesehen wurden.

Nichtlineare Systeme

System 1 (Nichtlineare Zustandsentwicklung): Der Transformer erreicht eine Leistung, die mit EKF und Partikel-Filtern (PF) gleichzieht.
System 2 (Manöverzielverfolgung): In einem komplexen Szenario mit unbekannter Drehgeschwindigkeit übertrifft der Transformer sowohl den EKF als auch den PF, insbesondere bei längeren Vorhersagehorizonten. Dies deutet darauf hin, dass das Modell Unsicherheiten und latente Parameter effektiver handhabt als klassische Methoden.
Einfluss der Modellgröße: Tabellen zeigen, dass mit zunehmender Tiefe (Layer) und Embedding-Dimension die Diskrepanz zu klassischen Filtern (EKF/PF) sinkt und die Diskrepanz zu Regressionsmethoden (SGD/Ridge) steigt.

5. Bedeutung und Fazit

Diese Arbeit liefert starke empirische und theoretische Belege dafür, dass Transformer-Architekturen mehr sind als reine Mustererkennungsmaschinen; sie können komplexe rekursive Inferenzalgorithmen wie den Kalman-Filter implizit lernen.

Flexibilität: Transformer bieten eine nicht-parametrische Alternative zu manuell entworfenen Filtern, die robust gegenüber unvollständigen Modellinformationen ist.
Implizite Inferenz: Die Fähigkeit, latente Zustände und sogar unbekannte Systemparameter aus einem kurzen Kontext zu inferieren, ohne explizite Modellgleichungen zu benötigen, ist ein Durchbruch für das Verständnis von In-Context-Learning.
Skalierbarkeit: Die Qualität der Inferenz hängt stark von der Modellkapazität und der Kontextlänge ab. Dies unterstreicht, dass „Intelligenz" in dynamischen Systemen durch Skalierung von Transformer-Modellen emergieren kann.

Zukunftsausblick: Die Autoren schlagen vor, die Forschung auf zeitlich korreliertes Rauschen und die Untersuchung der internen Repräsentationen zu erweitern, die diese Filterfähigkeiten unterstützen.

Zusammenfassend demonstriert das Paper, dass Transformer durch In-Context-Learning eine flexible, datengetriebene Strategie zur Zustandsschätzung und Vorhersage in dynamischen Systemen erlernen können, die klassische Filtermethoden in ihrer Leistungsfähigkeit erreicht oder in nichtlinearen Szenarien sogar übertrifft.