World Simulation with Video Foundation Models for Physical AI

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

Publié 2026-02-26

📖 5 min de lecture🧠 Analyse approfondie

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🌍 Cosmos-Predict2.5 : Le "Moteur de Simulation" Ultime pour les Robots

Imaginez que vous voulez apprendre à un robot à cuisiner, à conduire une voiture ou à aider dans une usine. La méthode traditionnelle, c'est de le laisser essayer dans le monde réel. Mais c'est lent, cher, et surtout dangereux : un robot qui apprend par essais et erreurs peut casser des objets, se blesser ou blesser quelqu'un.

C'est là qu'intervient Cosmos-Predict2.5, le nouveau cerveau vidéo créé par NVIDIA. C'est un peu comme un moteur de jeu vidéo ultra-réaliste, mais au lieu de jouer, il sert à entraîner des intelligences artificielles physiques (les robots).

Voici comment cela fonctionne, expliqué avec des analogies simples :

1. Le "Cinéma de l'Imagination" (Le Modèle de Base)

Pensez à Cosmos comme à un scénariste de films qui ne dort jamais.

Avant (Cosmos 1.0) : Il pouvait imaginer des scènes, mais parfois les personnages bougaient bizarrement, ou la physique ne tenait pas (une tasse qui traverse une table).
Aujourd'hui (Cosmos 2.5) : Il a été entraîné sur 200 millions de clips vidéo réels (voitures, robots, humains, nature). Il a appris les règles du monde réel : comment l'eau coule, comment un robot attrape un objet, comment la lumière change.
La Magie : Vous lui donnez une instruction (texte), une image de départ, ou même une vidéo, et il génère instantanément la suite du film. Il peut dire : "Imagine un robot qui lave une voiture sous la pluie" et il crée la vidéo, seconde par seconde, avec une précision effrayante.

2. Le "Professeur de Physique" (Pourquoi c'est spécial ?)

La plupart des IA qui créent des vidéos sont faites pour faire de beaux films d'animation. Elles ne se soucient pas de la gravité ou de la friction.
Cosmos, lui, est un spécialiste de la "Physique AI".

Si vous lui demandez de simuler un robot qui pousse une boîte, il sait que la boîte doit glisser, pas traverser le sol.
Il comprend les interactions complexes : si un robot lâche une pomme, elle tombe, rebondit et roule.
L'analogie : C'est la différence entre un dessinateur qui dessine une pomme qui flotte (joli, mais faux) et un physicien qui simule la chute réelle de la pomme.

3. Le "Super-Entraîneur" (L'Apprentissage par Renforcement)

Comment ont-ils rendu ce modèle si intelligent ?

L'entraînement : Ils lui ont montré des montagnes de vidéos, puis ils l'ont fait "répéter" des exercices spécifiques (comme la conduite ou la manipulation d'objets).
Le Coach (RL) : Ils ont ajouté un "coach" virtuel qui regarde les vidéos générées et dit : "Non, ce mouvement est trop saccadé, refais-le !". C'est comme un professeur qui corrige les devoirs d'un élève jusqu'à ce qu'il soit parfait.
Le résultat : Le modèle apprend non seulement à faire de belles images, mais à suivre des instructions complexes avec une précision chirurgicale.

4. Le "Caméraman Virtuel" (Contrôle Multi-vues)

C'est ici que ça devient magique pour les robots.

Un robot a souvent plusieurs "yeux" (caméras) : une sur la tête, une sur la main gauche, une sur la main droite.
Cosmos peut générer toutes ces vues en même temps. Si vous lui montrez ce que voit la caméra de la tête du robot, il peut deviner et dessiner ce que voient les caméras des mains, même si elles regardent des objets cachés.
L'analogie : C'est comme si vous fermiez les yeux, mais que l'IA vous décrivait et vous montrait exactement ce que vous verriez si vous tourniez la tête ou leviez les bras, sans jamais avoir vu cette scène auparavant.

5. Le "Laboratoire de Sécurité" (Pourquoi c'est utile ?)

Pourquoi faire tout ça ? Pour sauver du temps et de l'argent.

Pour les voitures autonomes : Au lieu de faire conduire une vraie voiture dans la neige ou la nuit (dangereux), on utilise Cosmos pour simuler des millions de kilomètres de conduite dans des conditions extrêmes. L'IA apprend à éviter les accidents dans le virtuel avant de toucher le volant.
Pour les robots : Avant d'envoyer un robot dans une usine, on le fait travailler des milliers d'heures dans la simulation de Cosmos. Il apprend à ne pas casser les pièces, à saisir les objets délicats, et à réagir aux imprévus.

En Résumé : La "Boîte à Outils" du Futur

NVIDIA a rendu ces outils gratuits et ouverts (comme un Lego géant que tout le monde peut assembler).

Cosmos-Predict2.5 : Le moteur qui imagine le monde.
Cosmos-Transfer2.5 : Un outil qui permet de transformer des dessins simples ou des cartes en vidéos réalistes (comme un traducteur de rêve vers la réalité).

L'objectif final ? Créer une génération de robots et de voitures autonomes qui sont sûrs, intelligents et capables de s'adapter à n'importe quelle situation, car ils ont déjà "vécu" des millions de vies dans le monde virtuel de Cosmos avant même d'être construits.

C'est comme donner à un robot une enfance virtuelle riche et variée, pour qu'il arrive dans le monde réel prêt à tout affronter. 🤖✨

World Simulation with Video Foundation Models for Physical AI

🌍 Cosmos-Predict2.5 : Le "Moteur de Simulation" Ultime pour les Robots

1. Le "Cinéma de l'Imagination" (Le Modèle de Base)

2. Le "Professeur de Physique" (Pourquoi c'est spécial ?)

3. Le "Super-Entraîneur" (L'Apprentissage par Renforcement)

4. Le "Caméraman Virtuel" (Contrôle Multi-vues)

5. Le "Laboratoire de Sécurité" (Pourquoi c'est utile ?)

En Résumé : La "Boîte à Outils" du Futur

1. Problématique et Contexte

2. Méthodologie et Architecture

A. Cosmos-Predict2.5 : Le Modèle de Base

B. Cosmos-Transfer2.5 : Traduction Contrôlée

3. Données et Pipeline de Curation

4. Résultats et Évaluations

A. Benchmarks (PAI-Bench)

B. Génération Longue et Cohérence

C. Applications Concrètes

5. Contributions Clés

6. Signification et Impact

World Simulation with Video Foundation Models for Physical AI

🌍 Cosmos-Predict2.5 : Le "Moteur de Simulation" Ultime pour les Robots

1. Le "Cinéma de l'Imagination" (Le Modèle de Base)

2. Le "Professeur de Physique" (Pourquoi c'est spécial ?)

3. Le "Super-Entraîneur" (L'Apprentissage par Renforcement)

4. Le "Caméraman Virtuel" (Contrôle Multi-vues)

5. Le "Laboratoire de Sécurité" (Pourquoi c'est utile ?)

En Résumé : La "Boîte à Outils" du Futur

1. Problématique et Contexte

2. Méthodologie et Architecture

A. Cosmos-Predict2.5 : Le Modèle de Base

B. Cosmos-Transfer2.5 : Traduction Contrôlée

3. Données et Pipeline de Curation

4. Résultats et Évaluations

A. Benchmarks (PAI-Bench)

B. Génération Longue et Cohérence

C. Applications Concrètes

5. Contributions Clés

6. Signification et Impact

Articles similaires

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction