Context and Diversity Matter: The Emergence of In-Context Learning in World Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein kleiner Roboter, der gerade erst die Welt entdeckt. Deine Aufgabe ist es, zu verstehen, wie sich deine Umgebung verhält, damit du nicht gegen Wände rennst oder in Löcher fällst.

Bisher haben die meisten Roboter-Intelligenzen wie ein starrer Lehrbuch-Lerner funktioniert. Sie haben eine riesige Menge an Daten gelernt (z. B. wie ein Zimmer aussieht) und sich diese auswendig gelernt. Wenn sie dann in ein neues Zimmer kommen, das ein bisschen anders aussieht, sind sie ratlos. Sie können sich nicht anpassen, weil ihr "Gehirn" fest verdrahtet ist.

Dieses Paper von Wang und Kollegen (veröffentlicht bei ICLR 2026) stellt eine revolutionäre Idee vor: Roboter sollten nicht nur auswendig lernen, sondern "im Kontext" lernen.

Hier ist die einfache Erklärung, was die Autoren entdeckt haben, mit ein paar kreativen Vergleichen:

1. Das Problem: Der starre Fotograf vs. der flexible Maler

Stell dir zwei Arten vor, wie ein Roboter die Welt sieht:

Der alte Weg (Statische Weltmodelle): Wie ein Fotograf, der ein Foto von einem bestimmten Raum macht und sich das für immer merkt. Wenn der Raum jetzt einen anderen Teppich hat oder die Möbel verschoben sind, erkennt der Roboter den Raum nicht mehr. Er ist wie ein Mensch, der nur eine Landkarte von Berlin kennt und in München völlig orientierungslos ist.
Der neue Weg (In-Context Learning / ICL): Wie ein flexibler Maler. Dieser Maler hat keine fertige Landkarte. Stattdessen schaut er sich die Umgebung jetzt gerade genau an (den Kontext) und zeichnet sich sofort eine neue Karte, während er läuft. Er lernt aus der aktuellen Situation, ohne sein gesamtes Gehirn neu programmieren zu müssen.

2. Die zwei Geheimmechanismen: Der Detektiv und der Entdecker

Die Forscher haben herausgefunden, dass dieser flexible Lernprozess auf zwei verschiedenen Wegen funktioniert. Sie nennen sie ER und EL.

ER (Environment Recognition = Umgebungs-Erkennung):
- Der Vergleich: Stell dir einen Detektiv vor, der eine riesige Aktenmappe mit Fotos von 100 verschiedenen Räumen hat. Wenn er in einen neuen Raum kommt, schaut er schnell durch die Mappe: "Aha! Das hier sieht aus wie Raum Nr. 42 aus meiner Mappe!"
- Das Problem: Wenn der Raum etwas ganz Neues ist (z. B. ein Raum, der noch nie existiert hat), hilft die Mappe nicht mehr. Der Detektiv ist ratlos.
EL (Environment Learning = Umgebungs-Lernen):
- Der Vergleich: Stell dir einen Entdecker vor, der keine Mappe hat. Er geht in einen Raum, stößt gegen eine Wand, merkt sich: "Aha, hier ist eine Wand." Er dreht sich, sieht ein Fenster: "Okay, da ist ein Fenster." Er lernt die Regeln während er läuft, basierend auf dem, was er gerade gesehen hat.
- Der Vorteil: Dieser Entdecker kann sich an jeden Raum anpassen, egal wie seltsam er ist. Er lernt die Gesetze der Physik direkt aus der Erfahrung.

3. Die Entdeckung: Was macht den Entdecker stark?

Die Autoren haben mathematisch bewiesen und im Experiment getestet, was nötig ist, damit der Roboter vom "Detektiv" (ER) zum "Entdecker" (EL) wird.

Vielfalt ist der Schlüssel: Wenn der Roboter nur 4 verschiedene Räume gesehen hat, bleibt er ein Detektiv. Er sucht nur nach Ähnlichkeiten. Aber wenn er tausende verschiedene, verrückte Räume gesehen hat (viele Wände, viele Farben, verschiedene Größen), merkt er: "Mappe reicht nicht mehr! Ich muss lernen, wie Räume allgemein funktionieren."
Lange Geschichten (Kontext): Das ist der wichtigste Punkt. Der Roboter braucht eine lange Erinnerung.
- Vergleich: Wenn du jemanden nur für 5 Sekunden siehst, kannst du ihn vielleicht nur erkennen (Gesicht). Wenn du ihn aber 50 Minuten lang beobachtest, wie er durch verschiedene Türen geht, wie er stolpert und wie er reagiert, dann verstehst du seine Persönlichkeit.
- Die Forscher zeigen: Nur mit langen Beobachtungsreihen (viele Schritte hintereinander) kann der Roboter wirklich lernen, wie die Welt funktioniert, statt nur Muster zu erkennen.

4. Die Lösung: L2World

Die Autoren haben ein neues Modell namens L2World gebaut.

Es ist wie ein Super-Gedächtnis, das effizient arbeitet.
Statt jedes Bild neu und schwer zu berechnen (was viel Rechenleistung kostet), komprimiert es die Informationen und nutzt sie, um die Zukunft vorherzusagen.
Das Ergebnis: In Tests (z. B. in einem Labyrinth) war L2World viel besser darin, sich an neue, unbekannte Labyrinthe anzupassen als andere Modelle. Es konnte sogar aus einer kurzen Beobachtung lernen, wie sich die Welt verhält, und diese Regel auf völlig neue Situationen übertragen.

Zusammenfassung für den Alltag

Stell dir vor, du fährst zum ersten Mal in eine fremde Stadt.

Der alte Roboter würde versuchen, sich jede einzelne Straße auswendig zu lernen. Wenn er eine neue Straße sieht, verliert er sich.
Der neue Roboter (mit ICL) schaut sich die Verkehrsschilder, das Verhalten der Fußgänger und die Ampeln an (den Kontext). Er lernt sofort: "In dieser Stadt fahren alle links, und hier gibt es keine Fußgängerüberwege." Er passt sich in Sekunden an.

Die große Botschaft: Damit künstliche Intelligenzen wirklich schlau und anpassungsfähig werden (wie Menschen), müssen wir sie nicht nur mit mehr Daten füttern, sondern sie in vielfältigen Umgebungen trainieren und ihnen lange Beobachtungszeiträume geben, damit sie die Regeln der Welt selbst entdecken können.

Das Paper zeigt also den Weg von einem starren "Auswendig-Lerner" hin zu einem flexiblen "Verstehenden", der sich in jeder neuen Situation zurechtfindet.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Die Fähigkeit, die Dynamik der Umwelt vorherzusagen, ist fundamental für das adaptive Verhalten biologischer Systeme und generalisierter eingebetteter KI (Embodied AI). Bisherige Ansätze basieren jedoch überwiegend auf statischen Weltmodellen, die für Zero-Shot-, Few-Shot- oder sofortige Leistung optimiert sind. Diese Modelle scheitern oft, wenn sie mit neuen oder seltenen Konfigurationen konfrontiert werden, da sie keine dynamische Anpassung basierend auf neuen Beobachtungen vornehmen können, ohne explizit neu trainiert zu werden. Im Gegensatz dazu nutzen Lebewesen prädiktive Kodierung, um durch Vorhersagefehler schnell Anpassungen vorzunehmen.

Das Ziel dieser Arbeit ist es, das In-Context-Learning (ICL) in Weltmodellen zu untersuchen. Dabei wird der Fokus von der reinen Zero-Shot-Leistung auf das Wachstum und die asymptotischen Grenzen des Weltmodells gelegt, wenn es über längere Kontexte hinweg lernt, sich an neue Umgebungen anzupassen.

Methodik

1. Theoretische Formulierung: ER und EL

Die Autoren formalisieren ICL in Weltmodellen und identifizieren zwei zugrundeliegende Mechanismen:

Environment Recognition (ER): Das Modell nutzt parametrisches Gedächtnis (trainierte Modelle für spezifische Umgebungen) und erkennt anhand des Kontexts, welche der bekannten Umgebungen gerade vorliegt. Die spezifischen Weltmodelle bleiben statisch.
Environment Learning (EL): Das Modell lernt die Dynamik der aktuellen Umgebung direkt aus dem Kontext, ohne auf parametrisches Gedächtnis für spezifische Umgebungen zurückzugreifen. Es agiert als „In-Context-Memorizer".

Die Autoren leiten Fehler-Obergrenzen für beide Mechanismen ab (Theorem 1):

Der Fehler von ER enthält einen nicht verschwindenden Restterm („Best Matching Error"), der die Generalisierung auf völlig neue Umgebungen begrenzt.
Der Fehler von EL skaliert mit $T^{-1/2}$ (wobei $T$ die Kontextlänge ist) und hängt von der Komplexität der Umgebung ab.
Schlussfolgerung: EL wird gegenüber ER bevorzugt, wenn die Umgebungskomplexität niedrig und die Anzahl der Trainingsumgebungen (Diversität) hoch ist. Lange Kontexte sind für beide Mechanismen essenziell.

2. Modellarchitektur: L2World

Um diese Erkenntnisse empirisch zu testen, stellen die Autoren L2World vor, ein langkontextfähiges Weltmodell mit linearer Aufmerksamkeit.

Effizienz: Anstatt teurer Diffusionsmodelle für jede Einzelbild-Rekonstruktion zu verwenden, komprimiert L2World Bilder über einen leichten VAE (Variational Autoencoder) in einen latenten Raum.
Architektur: Es nutzt gated Slot-Attention-Layer mit linearer Komplexität. Während des Trainings wird dies durch „Chunk-wise Parallelization" ermöglicht, während die Inferenz rekurrent erfolgt.
Ziel: Trade-off zwischen Einzelbild-Treue und temporaler Skalierbarkeit, um lange Sequenzen für ICL verarbeiten zu können.

Experimente und Ergebnisse

Die Autoren evaluieren ihre Hypothesen an zwei Hauptaufgaben: Cart-Pole (kontinuierliche Kontrolle mit variierenden physikalischen Parametern) und Indoor-Navigation (POMDP in prozedural generierten Labyrinthen).

1. Cart-Pole Experimente

Diversität vs. Anzahl: Modelle, die auf nur einer oder wenigen Umgebungen trainiert wurden, zeigen kein ICL und scheitern bei neuen Parametern. Modelle, die auf tausenden Umgebungen (8K Envs) trainiert wurden, zeigen signifikante Verbesserungen.
Kontextlänge: Modelle mit breiterem Generalisierungsspektrum benötigen längere Kontexte ( $T > 10$ ), um die Leistung von Few-Shot-Modellen zu übertreffen. Dies bestätigt die theoretische Notwendigkeit langer Kontexte für EL.
Übertraining: Starkes Übertraining auf wenigen Umgebungen führt zu einem Rückfall in IWL (In-Weight Learning) und verschlechtert die Generalisierung auf Unseen-Umgebungen.

2. Navigation (Labyrinthe & ProcTHOR)

Vergleich mit Baselines: L2World (trainiert auf 32K Umgebungen) übertrifft etablierte Modelle wie Dreamer-v3 (LSTM-basiert) und NWM (Diffusion-basiert), insbesondere bei langen Vorhersagehorizonten und Unseen-Umgebungen.
Einfluss der Datenverteilung:
- Lange Trainingssequenzen (L-Datasets) führen zu besserer ICL-Leistung als kurze Sequenzen (S-Datasets), selbst bei gleicher Gesamtanzahl an Frames.
- Modelle mit EL-Charakteristik (hohe Diversität) transferieren besser auf völlig neue Domänen (z. B. von Labyrinthen zu ProcTHOR) als ER-Modelle.
Stabilität: EL-Modelle sind empfindlicher gegenüber Kontextstörungen (Shuffling von Beobachtungen) als ER-Modelle, was bestätigt, dass EL stark vom Kontext abhängt, während ER mehr auf parametrischem Wissen basiert.

Hauptbeiträge

Formalisierung von ICL in Weltmodellen: Unterscheidung und theoretische Analyse von Environment Recognition (ER) und Environment Learning (EL).
Theoretische Grenzen: Herleitung von Fehler-Obergrenzen, die zeigen, dass EL von hoher Umgebungsdiversität und langer Kontextlänge abhängt, während ER durch die Komplexität der Trainingsumgebungen und die Genauigkeit des parametrischen Gedächtnisses limitiert wird.
L2World: Einführung eines effizienten Weltmodells mit linearer Aufmerksamkeit, das State-of-the-Art-Ergebnisse bei der Vorhersage langer Sequenzen über verschiedene Umgebungen hinweg erzielt, ohne auf rechenintensive Diffusionsarchitekturen angewiesen zu sein.
Empirische Validierung: Nachweis, dass Datenverteilung (Diversität der Umgebungen) und Modellarchitektur (Fähigkeit zu langen Kontexten) entscheidend für das Entstehen von ICL sind.

Bedeutung und Ausblick

Diese Arbeit zeigt, dass die Fähigkeit zur Selbstanpassung in Weltmodellen nicht allein durch mehr Rechenleistung oder komplexere Einzelbild-Generatoren erreicht wird, sondern durch gezielte Diversifizierung der Trainingsdaten und Architekturen, die lange Kontexte verarbeiten können.

Für die Embodied AI: Es bietet einen Weg, Agenten zu schaffen, die sich in unbekannten Umgebungen schnell anpassen können, ohne neu trainiert werden zu müssen.
Für die Theorie: Die Ergebnisse verbinden die Theorie des In-Context-Learning (bisher primär bei LLMs untersucht) mit dynamischen Weltmodellen und zeigen, dass biologische Prinzipien der prädiktiven Kodierung durch EL in künstlichen Systemen nachgebildet werden können.
Zukunft: Die Autoren sehen Potenzial für die Erweiterung auf In-Context Reinforcement Learning und die Anwendung auf reale, hochkomplexe Umgebungen.

Zusammenfassend demonstriert das Papier, dass Kontextlänge und Umgebungsdiversität die Schlüsselkatalysatoren für das Entstehen von adaptivem In-Context-Learning in Weltmodellen sind.