World Simulation with Video Foundation Models for Physical AI

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

Veröffentlicht 2026-02-26

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einen Roboter oder ein autonomes Auto lernen lassen, wie man die Welt versteht und darin agiert. Früher musste man diese Maschinen direkt in die echte Welt schicken, um sie zu trainieren. Das war wie ein Kind, das erst lernen muss, Fahrrad zu fahren, indem es sofort auf die belebte Straße geschickt wird – teuer, gefährlich und voller Stürze.

NVIDIA hat jetzt eine Lösung vorgestellt, die wie eine ultra-realistische Videospiele-Welt funktioniert, aber mit einem entscheidenden Unterschied: In dieser Welt gelten die Gesetze der Physik. Sie nennen es Cosmos-Predict2.5.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Der große Traum: Eine Welt im Computer

Stellen Sie sich Cosmos-Predict2.5 als einen unermüdlichen Regisseur vor, der in einem riesigen Studio arbeitet. Dieser Regisseur kann nicht nur Filme drehen, sondern ganze Welten erschaffen.

Was er kann: Er kann aus einem Text („Ein Roboter greift nach einem Apfel") ein Video machen. Er kann aus einem einzelnen Bild („Hier ist eine Küche") eine ganze Szene entwickeln, in der sich Dinge bewegen. Er kann sogar aus einem kurzen Videoclip eine Fortsetzung erfinden, die physikalisch korrekt ist (z. B. wie ein Glas zerbricht oder wie Wasser fließt).
Der Clou: Früher waren diese Regisseure oft etwas chaotisch. Sie ließen Autos durch Wände fahren oder ließen Äpfel in der Luft schweben. Cosmos-Predict2.5 ist wie ein Regisseur, der Physik studiert hat. Er weiß genau, wie Dinge fallen, rollen und kollidieren.

2. Wie lernt dieser Regisseur? (Die Daten)

Um so gut zu werden, hat der Regisseur nicht einfach irgendein Video geschaut. Das Team von NVIDIA hat 200 Millionen Videoclips gesammelt und wie ein strenger Koch sie sorgfältig ausgewählt.

Der Filter: Stellen Sie sich einen riesigen Sieb vor. Zuerst wurden alle schlechten, unscharfen oder langweiligen Videos herausgefiltert. Nur die besten 4 % kamen durch.
Das Spezialwissen: Neben allgemeinen Videos (Natur, Menschen) haben sie spezielle Daten für Roboter, Autos und Physik gesammelt. Es ist, als hätte der Regisseur nicht nur Krimis gesehen, sondern auch Dokumentationen über Schwerkraft und Robotik, um alles perfekt zu verstehen.

3. Der neue Trick: Reinforcement Learning (Das Feedback-System)

Das ist der spannendste Teil. Nach dem Training hat der Regisseur nicht einfach aufgehört. Er hat ein Feedback-System bekommen.

Wie ein Lehrer: Stellen Sie sich vor, der Regisseur macht einen Film. Ein smarter KI-Lehrer (ein sogenanntes „Reward Model") schaut sich das Ergebnis an und sagt: „Der Apfel fällt zu langsam, das sieht nicht echt aus" oder „Der Text passt nicht zum Bild".
Die Verbesserung: Der Regisseur korrigiert seinen Film basierend auf diesem Feedback. Er wiederholt das so oft, bis er perfekt ist. Das nennt man Reinforcement Learning (Bestärkendes Lernen). Das Ergebnis sind Videos, die so realistisch sind, dass man sie kaum von echten Aufnahmen unterscheiden kann.

4. Der Verwandlungskünstler: Cosmos-Transfer2.5

Neben dem großen Regisseur gibt es noch einen Verwandlungskünstler, genannt Cosmos-Transfer2.5.

Die Aufgabe: Dieser Künstler kann eine Welt in eine andere verwandeln. Er nimmt zum Beispiel eine einfache Skizze einer Straße (wie eine Landkarte) und macht daraus einen fotorealistischen Video-Verkehr. Oder er nimmt ein Video eines Roboters in einer grauen Werkstatt und verwandelt es in eine Szene in einer bunten, modernen Küche.
Warum ist das toll? Roboter müssen oft in verschiedenen Umgebungen arbeiten. Statt für jede neue Küche ein neues Training zu machen, kann dieser Künstler einfach das Video „umkleiden". Er ist 3,5-mal kleiner als sein Vorgänger, aber viel besser und schneller.

5. Wofür braucht man das alles? (Die Anwendung)

Warum investieren wir so viel in diese virtuellen Welten?

Sicheres Training: Roboter können Millionen von Stunden in dieser virtuellen Welt üben, ohne jemals etwas zu beschädigen. Sie können lernen, wie man einen zerbrechlichen Tassen hält, indem sie es 10.000 Mal in der Simulation tun, bevor sie es in der echten Küche versuchen.
Autonomes Fahren: Autos können in dieser Welt lernen, wie man bei Nebel, Schnee oder plötzlich auftauchenden Hindernissen reagiert, ohne dass jemand in Gefahr gerät.
Daten-Generator: Wenn es an echten Daten fehlt (z. B. wie sieht ein Unfall bei Regen aus?), kann der Computer diese Szenen einfach generieren, um die KI besser zu machen.

Zusammenfassung

NVIDIA hat mit Cosmos-Predict2.5 und Cosmos-Transfer2.5 eine Art „Physik-Labor im Computer" gebaut.

Es ist wie ein unendlicher Spielplatz, in dem Roboter und Autos sicher üben können.
Es ist wie ein magischer Filmstudio, das jede gewünschte Szene in Sekunden erstellt.
Und das Beste: NVIDIA macht die Baupläne (den Code) und die Werkzeuge kostenlos für alle verfügbar, damit die ganze Welt daran arbeiten kann, die nächste Generation intelligenter Maschinen zu erschaffen.

Kurz gesagt: Wir bauen eine Welt, in der KI lernen kann, ohne die echte Welt zu gefährden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Welt-Simulation mit Video-Foundation-Modellen für Physical AI

1. Problemstellung

Physische KI-Systeme (embodied agents), wie Roboter und autonome Fahrzeuge, müssen in der realen Welt interagieren. Das direkte Training dieser Systeme in der physischen Realität ist jedoch oft langsam, kostspielig und riskant, insbesondere in frühen Entwicklungsphasen, wo Fehler zu Schäden an der Hardware oder der Umgebung führen können.
Es besteht ein dringender Bedarf an hochqualitativen, vielfältigen und physikalisch plausiblen Welt-Simulatoren, die als sichere Proxy-Umgebungen dienen. Solche Simulatoren müssen in der Lage sein, visuelle Umgebungen basierend auf den Aktionen eines Agenten zu generieren, um Wahrnehmungs- und Kontrollfähigkeiten vollständig „in Silizium" (im Simulator) zu trainieren, bevor ein Einsatz in der realen Welt erfolgt. Bisherige Modelle litten oft unter mangelnder physikalischer Konsistenz, schlechter Textausrichtung (Prompt Alignment) und begrenzter Kontrolle über die Generierung.

2. Methodik

Das Paper stellt [Cosmos-Predict2.5] und [Cosmos-Transfer2.5] vor, die neueste Generation von Welt-Foundation-Modellen für Physical AI.

A. Architektur und Modellierung:

Flow Matching: Im Gegensatz zum vorherigen Diffusionsmodell (Cosmos-Predict1) nutzt Predict2.5 Flow Matching (FM). Dies bietet eine direktere Trainingszielvorgabe (Vorhersage der Geschwindigkeit des Diffusionspfads) und führt zu einer stabileren Optimierung sowie höherer Probenqualität.
Einheitliches Modell: Ein einzelnes Modell vereint drei Generierungsmodi: Text2World, Image2World und Video2World.
Text-Encoder: Der T5-Encoder wurde durch [Cosmos-Reason1] ersetzt, ein modernes, decoder-only Vision-Language-Modell (VLM), das speziell für Physical AI trainiert wurde. Dies ermöglicht reichhaltigere Textrepräsentationen und eine feinere Steuerung der Weltgenerierung.
Visual Tokenizer: Es wird ein kausaler VAE (WAN2.1) verwendet, der Videos mit einem Kompressionsverhältnis von $4 \times 8 \times 8$ (Zeit, Höhe, Breite) komprimiert, um den Rechenaufwand zu senken, während die spatiotemporale Struktur erhalten bleibt.
Positionale Embeddings: Absolute Positional Embeddings wurden zugunsten relativer Embeddings entfernt, um die Generalisierung auf höhere Auflösungen und längere Sequenzen zu verbessern.

B. Daten-Pipeline:

Skalierung: Die Pipeline verarbeitet über 200 Millionen kuratierte Videoclips (aus 35 Millionen Stunden Rohdaten).
Filterung: Ein mehrstufiger Filterprozess (Aesthetics, Motion, OCR, Perceptual Quality, Semantic Artifacts) eliminiert minderwertige Daten. Nur ca. 4 % der Clips bestehen alle Filter.
Domain-Spezifische Daten: Spezielle Datensätze wurden für Robotik, autonomes Fahren, Smart Spaces, Human Dynamics und Physik kuratiert, um die Fähigkeiten in diesen Domänen zu stärken.
Captioning: Ein VLM (Qwen2.5-VL) generiert kontextbewusste Beschreibungen mit Fokus auf Objekte, Bewegungen und semantische Details.

C. Trainingsstrategie:

Pre-Training: Progressive Stufen von Text2Image (256p) bis hin zu Text/Image/Video2World (bis 720p).
Supervised Fine-Tuning (SFT): Separate Feinabstimmung für spezifische Domänen (z. B. Robotik, Fahren), gefolgt von einem Model Merging (Model Soup), um die Stärken der einzelnen Modelle zu vereinen.
Reinforcement Learning (RL): Ein RL-Algorithmus (basierend auf VideoAlign als Reward-Modell) wird angewendet, um die Ausgabe an menschliche Präferenzen (Textausrichtung, Bewegungsqualität, visuelle Qualität) anzupassen.
Timestep Distillation: Eine Hybrid-Distillierung (rCM) ermöglicht eine Beschleunigung der Inferenz auf nur 4 Schritte bei hoher Qualität.

D. Cosmos-Transfer2.5:
Dies ist ein Control-Net-ähnliches Framework, das auf Predict2.5 aufbaut. Es ermöglicht die Übersetzung von Welt-Szenarien basierend auf Steuerungsinputs wie Kanten, Unschärfe, Segmentierung oder Tiefenkarten. Es ist 3,5-mal kleiner als sein Vorgänger, liefert aber höhere Qualität und robustere Langzeit-Generierung.

3. Wichtige Beiträge

Unified World Foundation Model: Schaffung eines einzigen Modells, das Text-, Bild- und Video-zu-Welt-Generierung vereint und dabei physikalische Konsistenz priorisiert.
Verbesserte Steuerung und Ausrichtung: Durch den Einsatz von Cosmos-Reason1 als Text-Encoder und RL-Post-Training wird die Ausrichtung auf komplexe Anweisungen und die physikalische Plausibilität signifikant verbessert.
Effizientes Control-Net: Cosmos-Transfer2.5 bietet eine kompakte, aber leistungsfähige Lösung für Sim2Real- und Real2Real-Übersetzungen, die für Robotik und autonomes Fahren essenziell sind.
Open Source: NVIDIA veröffentlicht Quellcode, vortrainierte Checkpoints (2B und 14B Parameter) und Benchmarks unter der NVIDIA Open Model License, um die Forschung zu beschleunigen.
Anwendungsbreite: Demonstration der Anwendbarkeit in Robotik (Policy Learning), autonomem Fahren (Multi-View-Simulation) und der Generierung synthetischer Daten für VLA-Modelle (Vision-Language-Action).

4. Ergebnisse

Benchmark-Leistung (PAI-Bench):
- Cosmos-Predict2.5 (2B und 14B) erreicht State-of-the-Art-Ergebnisse auf dem PAI-Bench, insbesondere in den Bereichen „Domain Score" (physikalische Aufgaben) und „Quality Score".
- Das 2B-Modell übertrifft in menschlichen Bewertungen (Human Voting) das deutlich größere Wan2.2 5B-Modell und ist mit dem Wan2.1 14B vergleichbar.
- Das 14B-Modell erreicht bei halb so vielen Parametern wie das Wan2.2 27B-A14B-Modell eine gleichwertige Leistung.
Qualitative Verbesserungen:
- Deutlich reduzierte Halluzinationen und Fehlerakkumulation bei langen Videos (gemessen durch RNDS - Relative Normalized Dover Score).
- Höhere physikalische Konsistenz (z. B. korrekte Objektinteraktionen, Schwerkraft).
Anwendungsergebnisse:
- Robotik: Policies, die mit synthetischen Daten von Cosmos-Transfer2.5 augmentiert wurden, zeigten eine signifikant höhere Robustheit und Generalisierungsfähigkeit in neuen Umgebungen (z. B. neue Objektfarben, Beleuchtung, Hintergründe) im Vergleich zu Baselines mit Standard-Augmentation.
- Autonomes Fahren: Die Multi-View-Generierung (7 Kameras) zeigt eine bis zu 60 % bessere Erkennungsleistung für 3D-Objekte und Fahrspuren im Vergleich zu Vorgängermodellen.
- VLA-Training: Das Modell generiert hochwertige synthetische Daten für Vision-Language-Action-Modelle, was die Generalisierungsfähigkeit dieser Modelle für neue Objekte und Umgebungen steigert.

5. Bedeutung

Diese Arbeit markiert einen bedeutenden Fortschritt im Bereich der Physical AI. Durch die Kombination von Flow-Matching, spezialisierten Datenkurierungen und RL-basiertem Post-Training schaffen die Modelle eine neue Grundlage für die Simulation physischer Welten.
Die Bedeutung liegt vor allem in:

Sicherheit und Effizienz: Sie ermöglichen das sichere Training von Robotern und autonomen Systemen in der Simulation, was die Entwicklungszyklen verkürzt und Risiken minimiert.
Skalierbarkeit: Die Fähigkeit, hochwertige synthetische Daten für das Training von VLA-Modellen zu generieren, adressiert den Mangel an großen, annotierten realen Datensätzen.
Ökosystem: Die Open-Source-Strategie von NVIDIA fördert Reproduzierbarkeit und Innovation in der Community, indem sie komplexe Weltmodelle für die Forschung zugänglich macht.

Zusammenfassend etablieren Cosmos-Predict2.5 und Cosmos-Transfer2.5 einen neuen Standard für Welt-Foundation-Modelle, die speziell darauf ausgelegt sind, die Lücke zwischen Simulation und Realität für die nächste Generation physischer KI zu schließen.

World Simulation with Video Foundation Models for Physical AI

1. Der große Traum: Eine Welt im Computer

2. Wie lernt dieser Regisseur? (Die Daten)

3. Der neue Trick: Reinforcement Learning (Das Feedback-System)

4. Der Verwandlungskünstler: Cosmos-Transfer2.5

5. Wofür braucht man das alles? (Die Anwendung)

Zusammenfassung

Titel: Welt-Simulation mit Video-Foundation-Modellen für Physical AI

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung

Mehr davon

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction