RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

RAYNOVA es un modelo fundacional de mundo para escenarios de conducción que, mediante un marco autorregresivo dual basado en codificación posicional de rayos de Plücker y atención global, genera videos multivista de alta calidad y generalizable sin depender de priores geométricos 3D explícitos.

Yichen Xie, Chensheng Peng, Mazen Abdelfattah, Yihan Hu, Jiezhi Yang, Eric Higgins, Ryan Brigden, Masayoshi Tomizuka, Wei Zhan

Publicado 2026-02-26
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñar a un robot a conducir por una ciudad nueva, pero no tienes un mapa de la ciudad, ni un manual de instrucciones, ni siquiera sabes cómo se ve el mundo desde los ojos del robot. Solo tienes un montón de videos de otros coches conduciendo.

El papel que has compartido presenta RAYNOVA, una nueva "inteligencia" diseñada para ser un simulador del mundo para coches autónomos. Aquí te explico cómo funciona usando analogías sencillas:

1. El Problema: Los "Ciegos" que miran por separado

Antes, los modelos de inteligencia artificial intentaban entender el mundo de dos formas separadas:

  • El Espacio: Miraban cómo se veían las cosas a la izquierda, derecha y adelante (como si tuvieras 6 cámaras fijas).
  • El Tiempo: Miraban cómo cambiaba la escena segundo a segundo (como un video normal).

El problema es que si el coche gira, acelera o si cambiamos las cámaras (por ejemplo, ponerlas en un camión en lugar de en un coche), los modelos antiguos se confundían. Era como intentar armar un rompecabezas donde las piezas solo encajan si el coche nunca se mueve y las cámaras siempre están en el mismo lugar.

2. La Solución: RAYNOVA, el "Maestro de la Rayas"

RAYNOVA cambia las reglas del juego. En lugar de pensar en "puntos en el espacio" o "cuadros en el tiempo", piensa en rayas de luz (llamadas "rayos" en física).

  • La Analogía de la Linterna: Imagina que el coche tiene linternas que disparan rayos de luz hacia el mundo. RAYNOVA no se preocupa por dónde está la linterna en el mapa global, sino por cómo se relacionan los rayos entre sí.
    • Si mueves la linterna (el coche gira), los rayos se mueven, pero la relación entre ellos sigue siendo la misma.
    • Esto permite que el modelo sea "geométricamente agnóstico". No le importa si las cámaras están en un coche, en un autobús o en un dron. Solo le importa cómo la luz viaja desde esos puntos. Es como si el modelo pudiera ver el mundo a través de los ojos de cualquier cámara, sin necesidad de un mapa 3D explícito.

3. La Estrategia: Cocinar por Capas y por Tiempo

RAYNOVA no intenta dibujar el video completo de golpe. Usa una estrategia de "doble causalidad" (dos tipos de orden):

  1. Orden de Escala (De lo borroso a lo nítido):
    Imagina que estás pintando un cuadro. Primero haces un boceto muy borroso (formas grandes), luego añades detalles medios, y al final pones los detalles finos (como los ojos de un peatón). RAYNOVA hace esto: predice primero la escena general y luego va rellenando los detalles.
  2. Orden Temporal (El pasado dicta el futuro):
    Como en una película, lo que pasa ahora depende de lo que pasó antes. RAYNOVA mira todo el video pasado (todas las cámaras) para decidir qué dibujar en el siguiente segundo.

4. El Truco Maestro: Entrenamiento Recurrente (El "Ensayo General")

Generar videos largos es difícil porque, a medida que el modelo avanza, empieza a cometer pequeños errores que se acumulan (como un juego de "teléfono descompuesto" donde el mensaje final es un desastre).

  • La Solución: RAYNOVA usa un método de entrenamiento llamado "recurrente". Imagina que estás ensayando una obra de teatro. En lugar de ensayar solo la primera escena y luego saltar al final, el actor (el modelo) ensaya la escena 1, luego la 2, luego la 3, y así sucesivamente, corrigiendo sus errores sobre la marcha. Esto le permite generar videos largos (de 10 o 20 segundos) sin que la imagen se deforme.

5. ¿Qué logra RAYNOVA?

  • Versatilidad: Puedes pedirle que genere un video con lluvia, de noche, o en una ciudad diferente (como Singapur o Boston) y lo hace bien.
  • Cámaras Locas: Puedes decirle: "Muestra lo que vería una cámara en el techo de un camión" o "Mueve la cámara 2 metros a la izquierda", y el modelo lo simula sin necesidad de haber visto ese ángulo antes.
  • Velocidad: Es mucho más rápido que los métodos anteriores (como los que usan difusión), lo que significa que puede generar videos en tiempo real más rápido.

En Resumen

RAYNOVA es como un actor de improvisación que ha visto millones de videos de conducción. En lugar de memorizar un mapa fijo, aprendió las reglas de la física y la luz. Por eso, si le pides que actúe en una situación nueva (una cámara nueva, un giro brusco, una lluvia torrencial), puede improvisar una escena realista y coherente sin tropezar.

Es un paso gigante para crear simuladores de conducción autónoma que sean más seguros, rápidos y capaces de aprender de cualquier entorno, no solo de los que ya conocemos.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →