RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñar a un robot a conducir por una ciudad nueva, pero no tienes un mapa de la ciudad, ni un manual de instrucciones, ni siquiera sabes cómo se ve el mundo desde los ojos del robot. Solo tienes un montón de videos de otros coches conduciendo.

El papel que has compartido presenta RAYNOVA, una nueva "inteligencia" diseñada para ser un simulador del mundo para coches autónomos. Aquí te explico cómo funciona usando analogías sencillas:

1. El Problema: Los "Ciegos" que miran por separado

Antes, los modelos de inteligencia artificial intentaban entender el mundo de dos formas separadas:

El Espacio: Miraban cómo se veían las cosas a la izquierda, derecha y adelante (como si tuvieras 6 cámaras fijas).
El Tiempo: Miraban cómo cambiaba la escena segundo a segundo (como un video normal).

El problema es que si el coche gira, acelera o si cambiamos las cámaras (por ejemplo, ponerlas en un camión en lugar de en un coche), los modelos antiguos se confundían. Era como intentar armar un rompecabezas donde las piezas solo encajan si el coche nunca se mueve y las cámaras siempre están en el mismo lugar.

2. La Solución: RAYNOVA, el "Maestro de la Rayas"

RAYNOVA cambia las reglas del juego. En lugar de pensar en "puntos en el espacio" o "cuadros en el tiempo", piensa en rayas de luz (llamadas "rayos" en física).

La Analogía de la Linterna: Imagina que el coche tiene linternas que disparan rayos de luz hacia el mundo. RAYNOVA no se preocupa por dónde está la linterna en el mapa global, sino por cómo se relacionan los rayos entre sí.
- Si mueves la linterna (el coche gira), los rayos se mueven, pero la relación entre ellos sigue siendo la misma.
- Esto permite que el modelo sea "geométricamente agnóstico". No le importa si las cámaras están en un coche, en un autobús o en un dron. Solo le importa cómo la luz viaja desde esos puntos. Es como si el modelo pudiera ver el mundo a través de los ojos de cualquier cámara, sin necesidad de un mapa 3D explícito.

3. La Estrategia: Cocinar por Capas y por Tiempo

RAYNOVA no intenta dibujar el video completo de golpe. Usa una estrategia de "doble causalidad" (dos tipos de orden):

Orden de Escala (De lo borroso a lo nítido):
Imagina que estás pintando un cuadro. Primero haces un boceto muy borroso (formas grandes), luego añades detalles medios, y al final pones los detalles finos (como los ojos de un peatón). RAYNOVA hace esto: predice primero la escena general y luego va rellenando los detalles.
Orden Temporal (El pasado dicta el futuro):
Como en una película, lo que pasa ahora depende de lo que pasó antes. RAYNOVA mira todo el video pasado (todas las cámaras) para decidir qué dibujar en el siguiente segundo.

4. El Truco Maestro: Entrenamiento Recurrente (El "Ensayo General")

Generar videos largos es difícil porque, a medida que el modelo avanza, empieza a cometer pequeños errores que se acumulan (como un juego de "teléfono descompuesto" donde el mensaje final es un desastre).

La Solución: RAYNOVA usa un método de entrenamiento llamado "recurrente". Imagina que estás ensayando una obra de teatro. En lugar de ensayar solo la primera escena y luego saltar al final, el actor (el modelo) ensaya la escena 1, luego la 2, luego la 3, y así sucesivamente, corrigiendo sus errores sobre la marcha. Esto le permite generar videos largos (de 10 o 20 segundos) sin que la imagen se deforme.

5. ¿Qué logra RAYNOVA?

Versatilidad: Puedes pedirle que genere un video con lluvia, de noche, o en una ciudad diferente (como Singapur o Boston) y lo hace bien.
Cámaras Locas: Puedes decirle: "Muestra lo que vería una cámara en el techo de un camión" o "Mueve la cámara 2 metros a la izquierda", y el modelo lo simula sin necesidad de haber visto ese ángulo antes.
Velocidad: Es mucho más rápido que los métodos anteriores (como los que usan difusión), lo que significa que puede generar videos en tiempo real más rápido.

En Resumen

RAYNOVA es como un actor de improvisación que ha visto millones de videos de conducción. En lugar de memorizar un mapa fijo, aprendió las reglas de la física y la luz. Por eso, si le pides que actúe en una situación nueva (una cámara nueva, un giro brusco, una lluvia torrencial), puede improvisar una escena realista y coherente sin tropezar.

Es un paso gigante para crear simuladores de conducción autónoma que sean más seguros, rápidos y capaces de aprender de cualquier entorno, no solo de los que ya conocemos.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: RAYNOVA

1. El Problema

Los modelos fundacionales del mundo (World Foundation Models - WFMs) buscan simular la evolución de escenas complejas del mundo real bajo leyes físicas. Sin embargo, los enfoques existentes presentan limitaciones significativas:

Desacoplamiento Espacio-Temporal: Muchos métodos tratan las correlaciones espaciales (entre vistas) y temporales (entre frames) por separado, lo que restringe la flexibilidad ante configuraciones de sensores novedosas o movimientos de cámara rápidos.
Sesgos Geométricos Fuertes: Otras aproximaciones imponen representaciones 3D explícitas (como nubes de puntos, mallas o características BEV) o priors geométricos fuertes. Aunque efectivos en dominios restringidos, estos enfoques dificultan la generalización a entornos abiertos fuera de la distribución de entrenamiento y dependen de superposiciones específicas de cámaras.
Deriva de Distribución: La generación de videos de largo horizonte sufre de deriva de distribución (distribution drift) debido a la brecha entre el entrenamiento (que usa tokens de verdad) y la inferencia (que usa predicciones).

2. Metodología: RAYNOVA

RAYNOVA es un modelo fundacional del mundo para escenarios de conducción que emplea un marco autoregresivo dual-causal (escala y tiempo) en un espacio de rayos de cámara isotrópico.

Marco Autoregresivo Dual-Causal:
- Causalidad de Escala: Basado en la predicción de la "siguiente escala" (next-scale prediction). En lugar de predecir token a token, el modelo genera mapas de tokens multiescala ( $X_1, ..., X_K$ ) de baja a alta resolución en paralelo dentro de un paso.
- Causalidad Temporal: El modelo genera frame a frame en un espacio 4D unificado. A diferencia de métodos anteriores que asumen fuertes dependencias entre frames de la misma cámara, RAYNOVA condiciona la generación de vistas múltiples en el tiempo actual sobre todas las vistas de los frames pasados. Esto permite manejar movimientos complejos del vehículo (ego-motion) sin sesgos rígidos.
Representación Isotrópica en el Espacio de Rayos (Ray Space):
- La contribución central es un codificado de posición relativo en el espacio de rayos de cámara. En lugar de usar coordenadas absolutas o priors 3D explícitos, el modelo utiliza la codificación de rayos Plücker relativa.
- Se extiende la codificación de posición rotatoria (RoPE) a un espacio 7D (basado en el vector de origen $m$ , dirección $d$ del rayo y el tiempo $t$ ).
- Ventaja: Esta representación es isotrópica en el espacio 4D continuo, lo que reduce la dependencia de configuraciones de cámara específicas, patrones de movimiento o superposiciones de vistas, permitiendo una generalización robusta.
Arquitectura del Modelo:
- Se basa en un transformador con bloques de atención que incluyen:
  1. Atención Auto-espacial (Image-wise): Para realismo visual por imagen.
  2. Atención Global Causal: Para consistencia espacio-temporal unificada sobre todas las vistas y frames, utilizando el embedding de posición relativo.
  3. Atención Cruzada (Cross-attention): Para alinear condiciones de entrada (texto, mapas HD, cajas 3D).
- No requiere representaciones 3D auxiliares (como mapas de profundidad o nubes de puntos) durante el entrenamiento.
Entrenamiento Recurrente:
- Para mitigar la deriva de distribución en videos largos, se introduce un paradigma de entrenamiento recurrente. Este método realiza propagación hacia adelante y hacia atrás frame a frame, acumulando gradientes al final de la secuencia.
- Además, se inyectan errores aleatorios (ruido en los bits de los tokens) durante el entrenamiento para simular los errores de predicción que ocurren en la inferencia, alineando mejor las distribuciones de entrenamiento e inferencia.

3. Contribuciones Clave

Modelo Fundacional Versátil: Un único modelo soporta formatos de entrada/salida diversos (multivista, diferentes resoluciones, tasas de fotogramas) y se condiciona con múltiples señales (texto, objetos, mapas, imágenes).
Marco Escalable y Libre de Geometría: No requiere priors geométricos manuales ni supervisión auxiliar (profundidad, flujo óptico). Puede ingerir datos heterogéneos de diferentes configuraciones de sensores.
Embedding de Posición Extensible: El codificado relativo en el espacio de rayos permite la extrapolación más allá del rango de entrenamiento, soportando teóricamente una extensión espacial ilimitada y configuraciones de cámara no vistas (Zero-shot).
Eficiencia: La representación jerárquica multiescala permite una generación rápida y se integra con técnicas de aceleración existentes para modelos autoregresivos visuales.

4. Resultados

El modelo se evaluó en el conjunto de datos nuScenes (y nuPlan), demostrando:

Calidad de Video: Logra resultados State-of-the-Art (SOTA) en generación de video multivista, superando a modelos como MagicDrive, Panacea y X-Drive en métricas FID (10.5) y FVD (91).
Eficiencia: Alcanza un rendimiento (throughput) de 1.96 imágenes/segundo, significativamente más rápido que los baselines basados en difusión.
Fidelidad a Condiciones: Muestra alta fidelidad en la generación condicionada por objetos y mapas HD, superando a los baselines en métricas de percepción (NDS para objetos y mIoU para mapas).
Síntesis de Nuevas Vistas (Novel View Synthesis): Puede generar vistas de cámaras desplazadas (1m, 2m, 4m) o rotadas sin entrenamiento específico, manteniendo una alta coherencia visual y temporal.
Generalización Zero-Shot: Funciona correctamente con configuraciones de sensores no vistas durante el entrenamiento (ej. configuración de Waymo Open Dataset).
Viabilidad Física: Los videos generados son utilizables por planificadores de conducción autónoma (VAD) preentrenados, indicando que el movimiento y la física simulada son plausibles.

5. Significado e Impacto

RAYNOVA representa un cambio de paradigma en la modelización del mundo para la conducción autónoma y la simulación:

Eliminación de Priors Rígidos: Al eliminar la necesidad de representaciones 3D explícitas y priors geométricos fuertes, el modelo puede generalizar a entornos "mundo abierto" mucho mejor que los enfoques anteriores.
Flexibilidad de Sensor: Permite simular escenarios con configuraciones de cámaras arbitrarias y movimientos de ego complejos sin reentrenamiento, lo cual es crucial para la validación de sistemas de conducción autónoma en escenarios raros o peligrosos.
Eficiencia Computacional: Su arquitectura autoregresiva ofrece una ventaja significativa en velocidad de inferencia comparada con los modelos de difusión, facilitando su uso en simulaciones en tiempo real o bucles cerrados.

En resumen, RAYNOVA establece un nuevo estándar para la generación de video multivista física y coherente, logrando un equilibrio superior entre realismo, control y generalización mediante un enfoque puramente basado en datos y geometría agnóstica.

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

1. El Problema: Los "Ciegos" que miran por separado

2. La Solución: RAYNOVA, el "Maestro de la Rayas"

3. La Estrategia: Cocinar por Capas y por Tiempo

4. El Truco Maestro: Entrenamiento Recurrente (El "Ensayo General")

5. ¿Qué logra RAYNOVA?

En Resumen

Resumen Técnico: RAYNOVA

1. El Problema

2. Metodología: RAYNOVA

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation