World Simulation with Video Foundation Models for Physical AI

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

Publicado 2026-02-26

📖 4 min de leitura☕ Leitura rápida

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a cozinhar, dirigir um carro ou montar um móvel. A maneira tradicional seria colocar o robô no mundo real e deixá-lo tentar e errar. O problema? Se ele errar, pode quebrar a geladeira, bater no carro ou se machucar. É caro, lento e perigoso.

A NVIDIA resolveu isso criando um "Universo de Simulação" digital, chamado Cosmos-Predict2.5. Pense nele como um "Simulador de Realidade" super avançado, feito especificamente para ensinar inteligência artificial (IA) física.

Aqui está como funciona, explicado de forma simples:

1. O Grande "Chef de Cozinha" de Vídeos

O Cosmos-Predict2.5 é como um chef de cozinha que não apenas assiste a receitas, mas cria novos vídeos do zero.

O que ele faz: Você diz a ele: "Faça um vídeo de um robô pegando uma maçã vermelha e colocando em uma tigela azul, mas com a luz do pôr do sol". E bip, ele gera um vídeo ultra-realista dessa cena.
A mágica: Ele não apenas copia vídeos existentes. Ele entende a física do mundo. Se você pedir para derrubar um copo, ele sabe que o copo vai quebrar e os pedaços vão voar, não que vai flutuar como num filme de fantasia.

2. Como ele aprende? (A Escola de 200 Milhões de Vídeos)

Para se tornar tão bom, o modelo "estudou" 200 milhões de vídeos curados com muito cuidado.

A Limpeza: Imagine que você tem uma pilha de 6 bilhões de clipes de vídeo da internet. A maioria é ruim, tremida ou tem texto estranho. A equipe da NVIDIA criou um "filtro de peneira" super inteligente que jogou fora 96% desses vídeos, deixando apenas os 200 milhões mais bonitos, claros e úteis.
O Professor: Eles também usaram um "professor" (um modelo de linguagem chamado Cosmos-Reason1) para garantir que o robô entenda exatamente o que você pediu. Se você disser "robô rápido", ele não faz um robô lento.

3. O "Gêmeo Digital" para Treinar Robôs (Transferência)

Aqui entra o irmão gêmeo do sistema, chamado Cosmos-Transfer2.5.

A Analogia do Maquiador: Imagine que você tem um vídeo de um robô em um laboratório cinza e chato. O Cosmos-Transfer2.5 age como um maquiador digital. Ele pega esse vídeo cinza e o transforma em um vídeo realista, como se estivesse acontecendo em uma cozinha de luxo, ou muda a cor dos objetos, ou adiciona chuva na janela.
Por que isso é útil? Se você quer treinar um robô para operar em uma fábrica escura, você não precisa ir até lá. Você pega vídeos de um robô em um lugar iluminado e usa o "maquiador" para escurecer a cena e treinar o robô no computador. Isso economiza tempo e dinheiro.

4. O "Cinema de Múltiplas Câmeras"

Para carros autônomos e robôs que precisam ver o mundo de vários ângulos, o sistema pode gerar vídeos de 7 câmeras ao mesmo tempo (frente, trás, lados).

A Analogia do Espectador: É como se você estivesse assistindo a um filme e pudesse girar a câmera 360 graus ao redor da ação, e o filme continuasse fazendo sentido, sem cortes ou erros. Isso é crucial para ensinar carros a não baterem em pedestres que estão em pontos cegos.

5. O Treinamento com "Recompensas" (Aprendizado por Reforço)

Depois de aprender a fazer vídeos, o sistema passou por um "treinamento de elite".

O Jogo de Pontuação: Imagine que o robô gera 8 vídeos diferentes para o mesmo pedido. Um "juiz" (uma IA avaliadora) olha para todos e dá pontos: "Este vídeo tem física correta? O texto bateu com a imagem? A luz está boa?". O sistema recebe uma "recompensa" pelos melhores e aprende a fazer ainda melhor na próxima vez. É como um aluno que faz um teste, recebe a nota, estuda o erro e faz o próximo teste melhor.

Por que isso é revolucionário?

Antes, para treinar um robô, você precisava de anos de testes reais. Com o Cosmos:

Segurança: O robô comete todos os erros no computador, não no mundo real.
Velocidade: Você pode gerar anos de experiência de treinamento em dias.
Custo: Não gasta peças quebradas ou combustível.

Resumo Final:
A NVIDIA criou uma "fábrica de realidades" onde robôs e carros autônomos podem viver milhões de vidas virtuais, aprender com os erros e chegar ao mundo real prontos para trabalhar, sem precisar quebrar nada no processo. Eles liberaram o código e os modelos para que qualquer pessoa possa usar essa tecnologia e acelerar o futuro da inteligência artificial física.

World Simulation with Video Foundation Models for Physical AI

1. O Grande "Chef de Cozinha" de Vídeos

2. Como ele aprende? (A Escola de 200 Milhões de Vídeos)

3. O "Gêmeo Digital" para Treinar Robôs (Transferência)

4. O "Cinema de Múltiplas Câmeras"

5. O Treinamento com "Recompensas" (Aprendizado por Reforço)

Por que isso é revolucionário?

1. Problema e Motivação

2. Metodologia

A. Arquitetura e Fundamentos (Cosmos-Predict2.5)

B. Pipeline de Dados e Treinamento

C. Cosmos-Transfer2.5 (Controle e Tradução)

3. Principais Contribuições

4. Resultados

5. Significado e Impacto

World Simulation with Video Foundation Models for Physical AI

1. O Grande "Chef de Cozinha" de Vídeos

2. Como ele aprende? (A Escola de 200 Milhões de Vídeos)

3. O "Gêmeo Digital" para Treinar Robôs (Transferência)

4. O "Cinema de Múltiplas Câmeras"

5. O Treinamento com "Recompensas" (Aprendizado por Reforço)

Por que isso é revolucionário?

1. Problema e Motivação

2. Metodologia

A. Arquitetura e Fundamentos (Cosmos-Predict2.5)

B. Pipeline de Dados e Treinamento

C. Cosmos-Transfer2.5 (Controle e Tradução)

3. Principais Contribuições

4. Resultados

5. Significado e Impacto

Mais como este

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction