RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Film über das Fahren eines Autos drehen. Normalerweise brauchst du dafür echte Autos, echte Straßen und echte Schauspieler. Aber was, wenn du einen digitalen Regisseur hättest, der die Welt nicht nur sieht, sondern sie aus dem Nichts erschaffen und vorhersagen kann?

Genau das ist RAYNOVA, ein neues KI-Modell von Applied Intuition und der UC Berkeley, das wie ein "Welt-Orakel" funktioniert. Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Die starre Kamera

Bisherige KI-Modelle für das Autofahren waren wie ein starrer Fotograf.

Sie wussten genau, wo die Kamera steht.
Sie wussten, wie die Bilder nacheinander aussehen müssen.
Aber wenn du die Kamera plötzlich verschiebst, drehst oder ein neues Auto mit anderen Sensoren nimmst, waren sie verwirrt. Sie mussten die Welt erst in ein starres 3D-Gitter (wie ein Lego-Set) zwingen, bevor sie etwas generieren konnten. Das funktionierte gut im Labor, aber nicht in der wilden, echten Welt.

2. Die Lösung: RAYNOVA als "Fließender Fluss"

RAYNOVA macht das anders. Stell dir die Welt nicht als festes Lego-Set vor, sondern als einen fließenden Fluss aus Lichtstrahlen.

Kein starres Gitter: RAYNOVA ignoriert feste 3D-Koordinaten. Stattdessen schaut es sich nur an, wie Lichtstrahlen von der Kamera durch die Welt wandern.
Die "Plücker-Strahl"-Analogie: Stell dir vor, jede Kamera ist eine Taschenlampe. RAYNOVA zeichnet nicht auf, wo die Taschenlampe steht, sondern nur, in welche Richtung der Lichtstrahl zeigt und wie er sich zu anderen Strahlen verhält.
- Vorteil: Egal ob du die Taschenlampe drehst, verschiebst oder eine andere Taschenlampe mit einem anderen Winkel benutzt – der Fluss des Lichts bleibt verständlich. Das Modell kann sich also an jede Kamera-Ausstattung anpassen, ohne neu lernen zu müssen.

3. Wie es lernt: Der "Zwiebel-Prinzip" und die "Zeitmaschine"

RAYNOVA nutzt zwei geniale Tricks, um Videos zu erstellen:

Der Zwiebel-Trick (Skalen-Autoregression):
Stell dir vor, du malst ein Bild. Zuerst malst du nur grobe Umriss (die große Zwiebel). Dann füllst du die groben Bereiche aus. Schließlich fügst du die feinen Details (die Haut der Zwiebel) hinzu.
RAYNOVA macht das mit Bildern: Es erstellt zuerst eine grobe Version des Videos und verfeinert sie Schicht für Schicht. Das ist viel effizienter als jedes Pixel einzeln zu berechnen.
Die Zeitmaschine (Zeit-Autoregression):
Normalerweise schauen KIs nur auf das nächste Bild. RAYNOVA schaut aber in eine vereinheitlichte 4D-Welt (Raum + Zeit). Es versteht, dass sich ein Auto nicht nur im Raum bewegt, sondern auch in der Zeit. Es verbindet alle Kameras und alle Zeitpunkte zu einem einzigen, logischen Ganzen.

4. Warum ist das so besonders? (Die Superkräfte)

Der "Chamäleon-Effekt" (Zero-Shot):
Wenn du RAYNOVA trainierst, hast du es nur mit bestimmten Kameras gemacht. Aber weil es die Welt über "Lichtstrahlen" versteht, kann es sich sofort in eine völlig neue Kamera-Setzung verwandeln, die es noch nie gesehen hat. Es ist wie ein Schauspieler, der jede Rolle spielen kann, ohne das Drehbuch neu zu lesen.
Die "Lange Reise" (Langzeit-Videos):
Viele KIs werden nach ein paar Sekunden unscharf oder verrückt (wie ein Traum, der sich auflöst). RAYNOVA nutzt einen speziellen Trainings-Trick (rekurrentes Training), bei dem es sich selbst "korrigiert", während es lernt. So kann es lange Videos (10, 20 Sekunden und mehr) erstellen, die logisch und stabil bleiben.
Der "Regisseur" (Steuerbarkeit):
Du kannst dem Modell sagen: "Mach es regnerisch", "Füge ein rotes Auto hinzu" oder "Zeig mir die Karte". RAYNOVA befolgt diese Befehle in allen Kameras gleichzeitig. Es ist wie ein Regisseur, der sofort alle Lichter, Kulissen und Schauspieler anpasst, wenn du einen neuen Befehl gibst.

5. Das Fazit

RAYNOVA ist wie ein universeller Welt-Simulator.
Früher mussten wir die Welt in ein starres 3D-Modell zwängen, damit die KI sie versteht. RAYNOVA sagt: "Nein, wir schauen einfach, wie das Licht fließt."

Das Ergebnis? Ein KI-Modell, das:

Schneller ist als die Konkurrenz.
Bessere Bilder macht (realistischer).
Sich an jedes Auto und jede Kamera anpasst, ohne neu trainiert werden zu müssen.

Das ist ein riesiger Schritt hin zu autonomen Fahrzeugen, die nicht nur sehen, sondern die Welt wirklich verstehen und sicher durch jede noch so seltsame Situation navigieren können – egal wie die Kameras montiert sind oder wie das Wetter ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Welt-Grundmodelle (World Foundation Models) zielen darauf ab, die Evolution der realen Welt unter Einhaltung physikalischer Gesetze zu simulieren. Bisherige Ansätze für die Generierung von Videos in autonomen Fahrszenarien leiden unter zwei Hauptproblemen:

Entkoppelte Modellierung: Viele Methoden behandeln räumliche (zwischen verschiedenen Kameraansichten) und zeitliche (zwischen Frames) Korrelationen separat. Dies schränkt die Flexibilität ein, neue Sensor-Konfigurationen oder schnelle Kamerabewegungen zu handhaben.
Starke geometrische Priors: Andere Ansätze erzwingen explizite 3D-Repräsentationen (z. B. Punktwolken, BEV-Features). Obwohl dies die Konsistenz verbessert, behindert es die Generalisierung auf unbekannte Umgebungen und Kamera-Setups, da das Modell an die Trainingsverteilung gebunden ist.

Das Ziel war es, ein universelles Framework zu schaffen, das physikalische Plausibilität bewahrt, ohne starke induktive Verzerrungen (Inductive Biases) bezüglich spezifischer Kamera-Setups oder 3D-Geometrien vorzugeben.

2. Methodik: RAYNOVA

RAYNOVA ist ein geometrie-agnostisches, multiview Weltmodell, das auf einem dual-kausalen autoregressiven Framework basiert.

A. Dual-Kausale Autoregression

Das Modell generiert Videos nicht nur Frame-für-Frame, sondern folgt einer hierarchischen Topologie in zwei Dimensionen:

Skalen-Kausalität (Scale-wise): Basierend auf dem Konzept der „Next-Scale Prediction". Bilder werden in Token-Karten mit zunehmender Auflösung ( $K$ Skalen) quantisiert. Das Modell generiert zuerst grobe Strukturen (niedrige Skala) und verfeinert diese schrittweise bis zur hohen Auflösung.
Zeit-Kausalität (Temporal): Die Generierung eines Frames ist von allen vorherigen Frames abhängig.
- Innovation: Im Gegensatz zu früheren Arbeiten, die starke Abhängigkeiten zwischen Frames derselben Kamera annehmen, konditioniert RAYNOVA die Generierung des aktuellen Multiview-Setups auf alle Ansichten aller vorherigen Frames. Dies ermöglicht robuste Handhabung komplexer Eigenbewegungen (Ego-Motion).

Die gemeinsame Wahrscheinlichkeitsverteilung wird als Produkt über Zeit ( $T$ ) und Skalen ( $K$ ) formuliert:
$p(X_{1:K}^{1:T}) = \prod_{t=1}^{T} \prod_{k=1}^{K} p(X_{k}^{1:T} | X_{1:k-1}^{1:t})$

B. Isotrope Raum-Zeit-Repräsentation (Ray Space)

Das Kernstück von RAYNOVA ist die relative Plücker-Ray-Positionscodierung.

Statt absolute 3D-Koordinaten oder feste Kamerapositionen zu verwenden, werden visuelle Token im kontinuierlichen 4D-Raum durch Plücker-Rays (Geraden im Raum) repräsentiert.
Es wird eine relative Positionscodierung eingeführt, die auf dem Abstand und der Richtung zwischen zwei Kamerastrahlen basiert.
Vorteil: Diese Darstellung ist isotrop (in alle Richtungen gleich) und unabhängig von der absoluten Kameraposition. Sie ermöglicht es dem Modell, sich an beliebige Kamera-Setups, Blickwinkel und Eigenbewegungen anzupassen und auf Szenen zu generalisieren, die weit außerhalb des Trainingsbereichs liegen (Extrapolation).

C. Architektur

Das Modell ist ein Transformer-basiertes Framework:

Lokale Selbst-Aufmerksamkeit: Für Bildrealismus (unabhängig pro Bild).
Globale kausale Aufmerksamkeit: Über alle Kameras und Frames hinweg für räumlich-zeitliche Konsistenz.
Cross-Attention: Für Konditionierung durch Text, Objektkästen, HD-Karten und Eingabebilder.
Recurrent Training: Um den „Distribution Drift" bei der Generierung langer Videos zu minimieren, wird ein rekurrenter Trainingsansatz verwendet, bei dem latente Features zwischengespeichert werden und zufällige Bit-Fehler während des Trainings simuliert werden, um den Inferenzprozess besser abzubilden.

3. Schlüsselbeiträge

Universelles Weltmodell: Ein einzelnes Modell unterstützt diverse Eingabe- und Ausgabeformate (Text, Objekte, Karten, Bilder) und generiert flexible Multiview-Videos mit variierenden Perspektiven und Auflösungen.
Geometrie-agnostischer Ansatz: Durch die Nutzung relativer Ray-Positionen statt expliziter 3D-Strukturen (wie Punktwolken) generalisiert das Modell hervorragend auf neue Kamera-Konfigurationen und Szenarien.
Skalierbares Daten-Framework: Das Training kann heterogene Daten aus verschiedenen Quellen (unterschiedliche Sensoren, Auflösungen, Bildraten) verarbeiten, ohne manuell gestaltete Priors oder zusätzliche Supervision (wie Tiefenkarten) zu benötigen.
Effizienz: Die hierarchische Multi-Scale-Autoregression ermöglicht eine schnelle Generierung und lässt sich mit Beschleunigungstechniken kombinieren.

4. Ergebnisse

Die Evaluation erfolgte auf dem nuScenes-Datensatz (und nuPlan):

Video-Generierung: RAYNOVA erreicht State-of-the-Art-Ergebnisse bei Metriken wie FID (Fréchet Inception Distance) und FVD (Fréchet Video Distance). Es übertrifft bestehende Modelle (z. B. MagicDrive, Panacea, BEVWorld) deutlich in Bildqualität und zeitlicher Kohärenz.
Durchsatz: Mit ca. 1,96 Bildern/Sekunde ist es deutlich schneller als diffusionsbasierte Baselines.
Konditions-Treue: Hohe Genauigkeit bei der Einhaltung von Objekt- und Kartenbedingungen (gemessen durch NDS und mIoU).
Neue Ansichten (Novel View Synthesis): Das Modell kann erfolgreich Bilder aus neuen Kamerapositionen (Shifts bis 4m) und Rotationen generieren, ohne explizite 3D-Geometrie zu lernen.
Physikalische Plausibilität: Ein auf echten Daten trainierter End-to-End-Planer (VAD) trifft auf den generierten Videos konsistente Fahrmanöver, was die physikalische Plausibilität der Dynamik bestätigt.

5. Bedeutung

RAYNOVA stellt einen Paradigmenwechsel in der Weltmodellierung für das autonome Fahren dar. Anstatt komplexe 3D-Geometrien explizit zu rekonstruieren, nutzt es eine datengetriebene, relative Repräsentation im Strahlraum (Ray Space).

Generalisierung: Es überwindet die Grenzen von Modellen, die an starre Kamera-Setups gebunden sind, und ermöglicht „Zero-Shot"-Anpassungen an neue Sensorkonfigurationen.
Praxisrelevanz: Die hohe Effizienz und die Fähigkeit, lange Videos mit hoher zeitlicher Kohärenz zu generieren, machen es ideal für Simulationen in der autonomen Fahrzeugentwicklung, wo realistische und diverse Szenarien benötigt werden.
Skalierbarkeit: Der Ansatz ist nicht auf das Fahren beschränkt und könnte auf andere Bereiche der Robotik und Simulation ausgeweitet werden.

Zusammenfassend bietet RAYNOVA einen robusten, effizienten und hochgeneralisierbaren Weg zur Simulation der physikalischen Welt, der die Lücke zwischen theoretischen Weltmodellen und praktischen Anwendungen im autonomen Fahren schließt.