LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest ein Kind darin unterrichten, wie die Welt funktioniert, ohne ihm jemals eine einzige Regel zu erklären oder ihm zu sagen, was „gut" oder „schlecht" ist. Du zeigst ihm einfach nur Videos von alltäglichen Dingen: Ein Ball rollt, eine Tür schwingt zu, ein Auto bremst. Das Kind soll lernen, was als Nächstes passiert, nur indem es die Muster beobachtet.

Das ist im Grunde das Ziel von LeWorldModel (LeWM), einer neuen KI-Forschung, die in diesem Papier vorgestellt wird. Hier ist die Erklärung, wie das funktioniert, ohne den technischen Fachjargon:

1. Das Problem: Die „langweilige" KI

Bisherige KI-Modelle, die versuchen, die Welt zu verstehen (sogenannte „Weltmodelle"), hatten ein großes Problem: Sie wurden oft „faul".
Stell dir vor, du fragst die KI: „Was passiert als Nächstes?" und die KI antwortet immer nur: „Nichts verändert sich." Das ist technisch gesehen eine korrekte Antwort (weil sie nichts falsch macht), aber es ist nutzlos. Die KI hat gelernt, alles auf den gleichen grauen Fleck zu reduzieren, weil es ihr den Weg zum Erfolg am einfachsten machte. Man nennt das „Kollaps" (Collapse).

Um das zu verhindern, mussten Forscher bisher sehr komplizierte Tricks anwenden: Sie brauchten viele verschiedene Belohnungssysteme, vorgefertigte Gehirne (vortrainierte Encoder) oder komplexe mathematische Sicherheitsnetze. Das war wie ein Kochrezept mit 20 Zutaten, von denen man nicht wusste, welche wirklich wichtig waren.

2. Die Lösung: LeWorldModel (LeWM) – Der einfache Koch

LeWM ist wie ein genialer Koch, der mit nur zwei Zutaten auskommt, um ein Meisterwerk zu kochen:

Vorhersage: „Was wird als Nächstes auf dem Teller sein?" (Die KI versucht, das nächste Bild vorherzusagen).
Vielfalt: „Stelle sicher, dass du nicht immer das Gleiche sagst!" (Ein einfacher mathematischer Trick, der sicherstellt, dass die KI ihre Gedanken breit streut und nicht auf einen Punkt zusammenfällt).

Der Clou: LeWM lernt alles direkt aus den rohen Pixeln (den Bildern), die die Kamera sieht. Es braucht keine vorgefertigten Gehirne und keine komplizierten Tricks. Es ist wie ein Kind, das direkt aus der Erfahrung lernt, ohne dass ihm jemand die Regeln der Physik vorliest.

3. Wie es lernt: Der „Gaußsche" Tanz

Um zu verhindern, dass die KI faul wird, zwingt LeWM sie, ihre inneren Gedanken (die „latenten Embeddings") wie eine perfekte Wolke zu verteilen. Stell dir vor, die KI muss ihre Erinnerungen so ordnen, dass sie wie eine perfekte, runde Wolke aussehen (eine „Gaußsche Verteilung").

Wenn die KI anfängt, alles auf einen Punkt zu drängen (faul werden), wird sie „gestraft".
Wenn sie eine bunte, vielfältige Wolke aus Ideen bildet, wird sie belohnt.
Dieser eine Trick ersetzt alle anderen komplizierten Sicherheitsnetze.

4. Die Superkraft: Planen in der „Traumwelt"

Sobald die KI gelernt hat, wie die Welt funktioniert, kann sie träumen.
Stell dir vor, du willst einen Roboterarm bewegen, um einen Würfel zu schieben.

Andere KIs müssen oft tausende Male in der echten Welt üben (was langsam und teuer ist) oder sie müssen das Bild des Würfels pixelgenau neu zeichnen (was wie ein Maler ist, der jedes Detail perfekt nachbilden muss).
LeWM hingegen spielt das Szenario in seinem Kopf durch. Es denkt: „Wenn ich den Arm so bewege, passiert das." Es simuliert die Zukunft in einem abstrakten Raum, ohne die Details des Bildes neu malen zu müssen.

Das Ergebnis? LeWM ist 48-mal schneller beim Planen als die bisherigen besten Methoden. Es ist wie ein Schachspieler, der 48 Züge im Voraus sieht, während andere nur einen Blick auf das Brett werfen.

5. Der „Überraschungs-Test": Versteht es die Physik?

Um zu testen, ob die KI wirklich die Physik versteht, haben die Forscher ihr Tricks gezeigt:

Szenario A: Ein Würfel verschwindet plötzlich und taucht an einer anderen Stelle auf (wie Magie).
Szenario B: Ein Würfel ändert einfach seine Farbe.

LeWM zeigte bei Szenario A (Magie/Physik-Verletzung) eine riesige „Überraschung". Es wusste: „Das kann nicht sein! Objekte können nicht teleportieren!" Bei der Farbänderung war es weniger überrascht. Das zeigt, dass die KI nicht nur Bilder auswendig gelernt hat, sondern ein intuitives Verständnis für die Gesetze der Physik entwickelt hat.

Zusammenfassung in einem Satz

LeWorldModel ist eine KI, die die Welt lernt, indem sie einfach nur schaut und vorhersagt, was als Nächstes passiert, dabei aber durch einen cleveren mathematischen Trick verhindert wird, faul zu werden – und das alles so schnell und effizient, dass sie auf einem einzigen Computer-Chip trainieren kann, während andere Supercomputer brauchen.

Es ist der Beweis dafür, dass man für Intelligenz nicht immer die komplexesten Werkzeuge braucht; manchmal reicht ein einfaches, stabiles Prinzip, um die Welt zu verstehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Ziel von Weltmodellen (World Models) ist es, Agenten zu befähigen, die Konsequenzen von Aktionen in ihrer Umgebung vorherzusagen, um Planung und Lernen im „Vorstellungsraum" (Imagination Space) zu ermöglichen. Ein vielversprechender Ansatz hierfür sind Joint Embedding Predictive Architectures (JEPAs), die Beobachtungen in einen kompakten latenten Raum codieren und die Dynamik durch die Vorhersage zukünftiger latenter Zustände modellieren.

Herausforderungen bestehender Methoden:

Instabilität und Kollaps: Bestehende JEPA-Methoden neigen dazu, in einen „Kollaps" (Representation Collapse) zu verfallen, bei dem das Modell alle Eingaben auf fast identische Repräsentationen abbildet, um die Vorhersageaufgabe trivial zu lösen.
Komplexität: Um dies zu verhindern, greifen aktuelle Ansätze oft auf komplexe Heuristiken zurück, wie z. B. Exponential Moving Averages (EMA), Stop-Gradient-Operationen, vortrainierte Encoder oder umfangreiche Multi-Term-Loss-Funktionen (oft mit 6 oder mehr Hyperparametern).
Ressourcenbedarf: Viele Methoden erfordern vortrainierte Basis-Modelle (Foundation Models) oder sind nicht vollständig end-to-end trainierbar, was die Flexibilität einschränkt und den Rechenaufwand erhöht.

2. Methodik: LeWorldModel (LeWM)

Die Autoren stellen LeWorldModel (LeWM) vor, das erste JEPA, das stabil und vollständig end-to-end direkt von rohen Pixeldaten trainiert werden kann, ohne Heuristiken oder vortrainierte Encoder.

Architektur:

Encoder: Ein Vision Transformer (ViT), der Bildbeobachtungen ( $o_t$ ) in einen niedrigdimensionalen latenten Vektor ( $z_t$ ) abbildet.
Predictor: Ein Transformer-Modell, das die Dynamik im latenten Raum modelliert, indem es basierend auf dem aktuellen Zustand $z_t$ und der Aktion $a_t$ den nächsten Zustand $\hat{z}_{t+1}$ vorhersagt.
Training: Beide Komponenten werden gemeinsam optimiert.

Lernziel (Loss-Funktion):
LeWM reduziert das Trainingsziel auf nur zwei Terme, was die Anzahl der zu justierenden Hyperparameter drastisch senkt:

Vorhersageverlust ( $L_{pred}$ ): Ein Mean-Squared-Error (MSE) zwischen dem vorhergesagten nächsten latenten Zustand $\hat{z}_{t+1}$ und dem tatsächlichen nächsten Zustand $z_{t+1}$ .
Regularisierung ($SIGReg$): Ein Regularisierungsterm, der den Sketched-Isotropic-Gaussian Regularizer verwendet. Dieser erzwingt eine gaußförmige Verteilung der latenten Embeddings, um den Kollaps zu verhindern.
- Funktionsweise: Anstatt die Normalität im hochdimensionalen Raum direkt zu prüfen (was rechenintensiv und instabil ist), werden die Embeddings auf $M$ zufällige Einheitsvektoren projiziert. Für jede 1D-Projektion wird ein Epps-Pulley-Teststatistik berechnet, um die Übereinstimmung mit einer Standardnormalverteilung zu messen. Nach dem Cramér-Wold-Theorem garantiert die Übereinstimmung aller 1D-Marginalverteilungen die Übereinstimmung der gesamten gemeinsamen Verteilung.

Trainingsvorteile:

Keine Heuristiken: Keine Stop-Gradienten, keine EMA, keine vortrainierten Encoder.
Hyperparameter: Nur ein effektiver Hyperparameter ( $\lambda$ , das Gewicht des Regularizers) muss abgestimmt werden (im Vergleich zu 6+ bei Alternativen wie PLDM).
Effizienz: Das Modell (15M Parameter) kann auf einer einzigen GPU in wenigen Stunden trainiert werden.

3. Schlüsselbeiträge

Stabiles End-to-End-Training: LeWM ist die erste JEPA-Methode, die stabil von Rohpixeln aus trainiert wird, ohne auf vortrainierte Features oder komplexe Stabilisierungstechniken angewiesen zu sein.
Vereinfachung: Reduktion der Loss-Terme von komplexen Multi-Objective-Funktionen auf zwei gut definierte Terme (Vorhersage + Gauß-Regularisierung).
Skalierbarkeit und Geschwindigkeit: Das Modell ermöglicht eine Planung bis zu 48-mal schneller als weltmodellbasierte Ansätze mit Foundation-Modellen (z. B. DINO-WM), bei gleichzeitig wettbewerbsfähiger Leistung.
Physikalisches Verständnis: Die latenten Räume kodieren sinnvolle physikalische Strukturen, was durch Probing-Experimente und „Surprise"-Evaluationen (Erkennung physikalisch unmöglicher Ereignisse) nachgewiesen wurde.

4. Ergebnisse

Die Evaluation erfolgte in einer Vielzahl von 2D- und 3D-Steuerungsaufgaben (Navigation, Manipulation, Laufen) wie PushT, OGBench-Cube, Two-Room und Reacher.

Planungsleistung: LeWM übertrifft den end-to-end Konkurrenten PLDM deutlich (z. B. +18% Erfolgsrate auf PushT) und bleibt gegenüber DINO-WM (welches vortrainierte Encoder nutzt) konkurrenzfähig, obwohl LeWM nur Pixel verwendet und keine propriozeptiven Eingaben benötigt.
Recheneffizienz: Die Planungszeit liegt unter einer Sekunde (im Vergleich zu ~47 Sekunden bei DINO-WM), was eine Annäherung an Echtzeit-Steuerung ermöglicht.
Stabilität: Die Trainingskurven zeigen einen glatten, monotonen Konvergenzverlauf, im Gegensatz zu den verrauschten Kurven von PLDM mit seinen vielen Loss-Termen.
Physikalische Intuition:
- Probing: Lineare und nicht-lineare Prober können physikalische Größen (Position, Winkel) aus dem latenten Raum sehr genau rekonstruieren.
- Surprise-Evaluation: Das Modell erkennt physikalische Verletzungen (z. B. Teleportation von Objekten) signifikant besser als visuelle Verletzungen (Farbwechsel), was auf ein tiefes Verständnis der physikalischen Dynamik hindeutet.
- Temporale Geradlinigkeit: Die latenten Trajektorien entwickeln sich während des Trainings zu immer geradlinigeren Pfaden („Temporal Straightening"), ein Phänomen, das ohne explizite Regularisierung emergiert.

5. Bedeutung und Ausblick

LeWorldModel stellt einen Paradigmenwechsel in der Entwicklung von Weltmodellen dar. Es beweist, dass komplexe Heuristiken und vortrainierte Encoder für das Training stabiler JEPA-Modelle nicht zwingend erforderlich sind. Durch die Reduktion auf ein einfaches, theoretisch fundiertes Optimierungsproblem (Vorhersage + Gauß-Regularisierung) wird der Einstieg in die Forschung zu Weltmodellen demokratisiert (Trainierbar auf einer GPU) und die Reproduzierbarkeit erhöht.

Limitationen und zukünftige Richtungen:

Die Planung ist derzeit auf kurze Horizonte beschränkt; hier könnten hierarchische Weltmodelle Abhilfe schaffen.
Die Methode benötigt Offline-Datensätze mit ausreichender Abdeckung der Umgebungsdynamik. In sehr einfachen Umgebungen mit geringer intrinsischer Dimensionalität kann die Gauß-Regularisierung problematisch sein.
Die Abhängigkeit von Aktionslabels könnte durch inverse Dynamik-Modelle reduziert werden.

Zusammenfassend bietet LeWM eine skalierbare, stabile und interpretierbare Alternative zu bestehenden latenten Weltmodell-Methoden, die sowohl in der Effizienz als auch in der Fähigkeit, physikalische Strukturen zu erfassen, überzeugt.