World Simulation with Video Foundation Models for Physical AI

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

Publicado 2026-02-26

📖 5 min de lectura🧠 Análisis profundo

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que NVIDIA ha creado un "Oráculo de Video" llamado Cosmos-Predict2.5. Piensa en él no como un simple programa de computadora, sino como un soñador digital que ha visto millones de horas de videos reales y ahora puede soñar con futuros que nunca han ocurrido, pero que se sienten completamente reales.

Aquí te explico cómo funciona y por qué es tan importante, usando analogías sencillas:

1. ¿Qué es este "Oráculo"? (El Soñador)

Imagina que quieres enseñar a un robot a hacer café, pero no quieres romper la cocina real ni quemarte. Necesitas un simulador.

Antes: Los simuladores eran como dibujos animados rígidos. Si el robot empujaba una taza, la taza se movía de forma extraña o se caía a través de la mesa.
Ahora (Cosmos-Predict2.5): Es como un director de cine con una cámara mágica. Le das una instrucción (texto) o una foto inicial, y el modelo "filma" lo que pasaría a continuación. Si le dices "un robot agarra una manzana", el modelo genera un video donde la manzana se mueve físicamente, la luz cambia y el robot la sostiene con la fuerza correcta. ¡Es tan real que parece una película!

2. ¿Cómo aprendió a ser tan bueno? (La Biblioteca de 200 Millones)

Para que este soñador aprendiera, no le dieron solo unos pocos videos. Le dieron una biblioteca gigante de 200 millones de clips de video.

El filtro de calidad: Imagina que tienes una pila de 100 libros, pero 96 son basura (videos borrosos, con texto encima o sin sentido). El equipo de NVIDIA creó un "bibliotecario robot" muy estricto que revisó cada clip. Solo dejó pasar el 4% (los mejores 200 millones).
El resultado: El modelo no aprendió de basura; aprendió de los momentos más claros, dinámicos y físicamente correctos del mundo real (coches conduciendo, robots trabajando, gente bailando).

3. El "Cerebro" Mejorado (La Mezcla de Habilidades)

La versión anterior (Cosmos-Predict1) era como un estudiante que tenía que cambiar de libro para aprender cosas diferentes.

La nueva versión: Es como un polímata (un genio en todo). Ahora, un solo modelo puede hacer tres cosas a la vez:
1. Texto a Mundo: "Crea un video de un coche en la lluvia" (y lo hace).
2. Imagen a Mundo: "Aquí hay una foto de un robot, ¿qué hace después?" (y lo simula).
3. Video a Mundo: "Aquí hay un clip de 5 segundos, ¿qué pasa en los siguientes 10?" (y continúa la historia).
Además, usa un nuevo "traductor" de lenguaje (llamado Cosmos-Reason1) que entiende mejor las instrucciones complejas, como si el director de cine entendiera perfectamente lo que el guionista quiere decir.

4. El "Entrenador" (Refuerzo por Aprendizaje)

Imagina que el modelo es un actor que ensaya una escena. Al principio, puede actuar un poco raro.

NVIDIA le puso un entrenador humano (y de IA) que le dice: "Esa caída de la taza no se ve real, inténtalo de nuevo".
Usando una técnica llamada Aprendizaje por Refuerzo, el modelo practica millones de veces, recibe "puntos" por hacer las cosas bien y "penalizaciones" por fallar. Al final, el actor (el modelo) se vuelve un profesional de la física y la realidad.

5. ¿Para qué sirve todo esto? (Los Superpoderes)

Este modelo no es solo para hacer videos bonitos; es una herramienta para entrenar a robots y coches autónomos de forma segura.

Para Robots (El Gimnasio Virtual):
- Imagina que quieres que un robot aprenda a doblar ropa. En el mundo real, tardaría años y rompería mucha ropa.
- Con Cosmos-Transfer2.5 (una herramienta hermana que funciona como un "filtro de realidad"), puedes tomar un video de un robot en un entorno simple y transformarlo en un video donde el robot está en una cocina llena de gente, con luces diferentes y objetos nuevos.
- Resultado: El robot se entrena en millones de escenarios "falsos" pero realistas antes de tocar un solo objeto real. ¡Es como tener un videojuego de entrenamiento infinito!
Para Coches Autónomos (El Simulador de Tráfico):
- Puedes decirle: "Simula un coche conduciendo bajo la lluvia en una carretera de montaña con niebla".
- El modelo genera un video de 7 cámaras a la vez (como si el coche tuviera ojos en todos lados) mostrando exactamente cómo se vería esa situación. Esto ayuda a los ingenieros a probar si el coche de conducción autónoma reaccionaría bien antes de ponerlo en la calle.

6. La Gran Novedad: ¡Es Gratis y Abierto!

Lo más emocionante es que NVIDIA no se guardó este secreto. Han regalado el código, los modelos y los datos a la comunidad.

Es como si un chef estrella te diera su receta secreta, sus ingredientes y sus utensilios, diciendo: "¡Ahora tú puedes cocinar platos increíbles!".
Esto permite que cualquier investigador, estudiante o empresa pueda usar esta tecnología para crear sus propios robots, mejorar la seguridad en las carreteras o inventar nuevas formas de interactuar con el mundo.

En Resumen

Cosmos-Predict2.5 es un simulador de realidad que aprendió viendo millones de videos reales, se entrenó con un entrenador exigente y ahora puede predecir el futuro visual de cualquier situación física. Su objetivo es que los robots y los coches autónomos aprendan en un mundo virtual seguro y perfecto, para que cuando salgan al mundo real, ya sean expertos y no cometan errores peligrosos.

Es, básicamente, el puente mágico entre la imaginación digital y la realidad física.

World Simulation with Video Foundation Models for Physical AI

1. ¿Qué es este "Oráculo"? (El Soñador)

2. ¿Cómo aprendió a ser tan bueno? (La Biblioteca de 200 Millones)

3. El "Cerebro" Mejorado (La Mezcla de Habilidades)

4. El "Entrenador" (Refuerzo por Aprendizaje)

5. ¿Para qué sirve todo esto? (Los Superpoderes)

6. La Gran Novedad: ¡Es Gratis y Abierto!

En Resumen

1. Problema y Contexto

2. Metodología Propuesta

A. Arquitectura y Modelo Base (Cosmos-Predict2.5)

B. Pipeline de Datos y Entrenamiento

C. Cosmos-Transfer2.5 (ControlNet)

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

World Simulation with Video Foundation Models for Physical AI

1. ¿Qué es este "Oráculo"? (El Soñador)

2. ¿Cómo aprendió a ser tan bueno? (La Biblioteca de 200 Millones)

3. El "Cerebro" Mejorado (La Mezcla de Habilidades)

4. El "Entrenador" (Refuerzo por Aprendizaje)

5. ¿Para qué sirve todo esto? (Los Superpoderes)

6. La Gran Novedad: ¡Es Gratis y Abierto!

En Resumen

1. Problema y Contexto

2. Metodología Propuesta

A. Arquitectura y Modelo Base (Cosmos-Predict2.5)

B. Pipeline de Datos y Entrenamiento

C. Cosmos-Transfer2.5 (ControlNet)

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

Más como este

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction