RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

RAYNOVA ist ein geometrieunabhängiges, multiview-Weltmodell für Fahrszenen, das durch einen dual-kausalen autoregressiven Ansatz in der Ray-Raum-Darstellung und ein rekurrentes Trainingsparadigma hochqualitative, kontrollierbare 4D-Video-Vorhersagen ohne explizite 3D-Geometrie ermöglicht.

Yichen Xie, Chensheng Peng, Mazen Abdelfattah, Yihan Hu, Jiezhi Yang, Eric Higgins, Ryan Brigden, Masayoshi Tomizuka, Wei Zhan

Veröffentlicht 2026-02-26
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Film über das Fahren eines Autos drehen. Normalerweise brauchst du dafür echte Autos, echte Straßen und echte Schauspieler. Aber was, wenn du einen digitalen Regisseur hättest, der die Welt nicht nur sieht, sondern sie aus dem Nichts erschaffen und vorhersagen kann?

Genau das ist RAYNOVA, ein neues KI-Modell von Applied Intuition und der UC Berkeley, das wie ein "Welt-Orakel" funktioniert. Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Die starre Kamera

Bisherige KI-Modelle für das Autofahren waren wie ein starrer Fotograf.

  • Sie wussten genau, wo die Kamera steht.
  • Sie wussten, wie die Bilder nacheinander aussehen müssen.
  • Aber wenn du die Kamera plötzlich verschiebst, drehst oder ein neues Auto mit anderen Sensoren nimmst, waren sie verwirrt. Sie mussten die Welt erst in ein starres 3D-Gitter (wie ein Lego-Set) zwingen, bevor sie etwas generieren konnten. Das funktionierte gut im Labor, aber nicht in der wilden, echten Welt.

2. Die Lösung: RAYNOVA als "Fließender Fluss"

RAYNOVA macht das anders. Stell dir die Welt nicht als festes Lego-Set vor, sondern als einen fließenden Fluss aus Lichtstrahlen.

  • Kein starres Gitter: RAYNOVA ignoriert feste 3D-Koordinaten. Stattdessen schaut es sich nur an, wie Lichtstrahlen von der Kamera durch die Welt wandern.
  • Die "Plücker-Strahl"-Analogie: Stell dir vor, jede Kamera ist eine Taschenlampe. RAYNOVA zeichnet nicht auf, wo die Taschenlampe steht, sondern nur, in welche Richtung der Lichtstrahl zeigt und wie er sich zu anderen Strahlen verhält.
    • Vorteil: Egal ob du die Taschenlampe drehst, verschiebst oder eine andere Taschenlampe mit einem anderen Winkel benutzt – der Fluss des Lichts bleibt verständlich. Das Modell kann sich also an jede Kamera-Ausstattung anpassen, ohne neu lernen zu müssen.

3. Wie es lernt: Der "Zwiebel-Prinzip" und die "Zeitmaschine"

RAYNOVA nutzt zwei geniale Tricks, um Videos zu erstellen:

  • Der Zwiebel-Trick (Skalen-Autoregression):
    Stell dir vor, du malst ein Bild. Zuerst malst du nur grobe Umriss (die große Zwiebel). Dann füllst du die groben Bereiche aus. Schließlich fügst du die feinen Details (die Haut der Zwiebel) hinzu.
    RAYNOVA macht das mit Bildern: Es erstellt zuerst eine grobe Version des Videos und verfeinert sie Schicht für Schicht. Das ist viel effizienter als jedes Pixel einzeln zu berechnen.

  • Die Zeitmaschine (Zeit-Autoregression):
    Normalerweise schauen KIs nur auf das nächste Bild. RAYNOVA schaut aber in eine vereinheitlichte 4D-Welt (Raum + Zeit). Es versteht, dass sich ein Auto nicht nur im Raum bewegt, sondern auch in der Zeit. Es verbindet alle Kameras und alle Zeitpunkte zu einem einzigen, logischen Ganzen.

4. Warum ist das so besonders? (Die Superkräfte)

  • Der "Chamäleon-Effekt" (Zero-Shot):
    Wenn du RAYNOVA trainierst, hast du es nur mit bestimmten Kameras gemacht. Aber weil es die Welt über "Lichtstrahlen" versteht, kann es sich sofort in eine völlig neue Kamera-Setzung verwandeln, die es noch nie gesehen hat. Es ist wie ein Schauspieler, der jede Rolle spielen kann, ohne das Drehbuch neu zu lesen.
  • Die "Lange Reise" (Langzeit-Videos):
    Viele KIs werden nach ein paar Sekunden unscharf oder verrückt (wie ein Traum, der sich auflöst). RAYNOVA nutzt einen speziellen Trainings-Trick (rekurrentes Training), bei dem es sich selbst "korrigiert", während es lernt. So kann es lange Videos (10, 20 Sekunden und mehr) erstellen, die logisch und stabil bleiben.
  • Der "Regisseur" (Steuerbarkeit):
    Du kannst dem Modell sagen: "Mach es regnerisch", "Füge ein rotes Auto hinzu" oder "Zeig mir die Karte". RAYNOVA befolgt diese Befehle in allen Kameras gleichzeitig. Es ist wie ein Regisseur, der sofort alle Lichter, Kulissen und Schauspieler anpasst, wenn du einen neuen Befehl gibst.

5. Das Fazit

RAYNOVA ist wie ein universeller Welt-Simulator.
Früher mussten wir die Welt in ein starres 3D-Modell zwängen, damit die KI sie versteht. RAYNOVA sagt: "Nein, wir schauen einfach, wie das Licht fließt."

Das Ergebnis? Ein KI-Modell, das:

  1. Schneller ist als die Konkurrenz.
  2. Bessere Bilder macht (realistischer).
  3. Sich an jedes Auto und jede Kamera anpasst, ohne neu trainiert werden zu müssen.

Das ist ein riesiger Schritt hin zu autonomen Fahrzeugen, die nicht nur sehen, sondern die Welt wirklich verstehen und sicher durch jede noch so seltsame Situation navigieren können – egal wie die Kameras montiert sind oder wie das Wetter ist.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →