World Action Models are Zero-shot Policies

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

Veröffentlicht 2026-02-19

📖 5 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man kocht, aufräumt oder sogar einen Ballon aufbläst.

Das alte Problem: Der Roboter, der nur auswendig lernt

Bisherige Roboter-KIs (die sogenannten „VLA-Modelle") funktionieren wie ein Schüler, der nur auswendig lernt, was ihm gezeigt wird.

Das Szenario: Wenn du dem Roboter 100 Mal zeigst, wie man eine rote Tasse in einen roten Becher stellt, kann er das.
Das Problem: Wenn du ihn dann bittest, eine blaue Tasse in einen grünen Becher zu stellen, oder eine Aufgabe zu lösen, die er noch nie gesehen hat (z. B. einen Schuh zu binden), scheitert er oft. Er versteht die Bedeutung der Wörter („Stell die Tasse ab"), aber er hat kein intuitives Gefühl dafür, wie sich die Welt physikalisch bewegt. Er weiß nicht, wie sich ein Objekt anfühlt, wenn man es greift, oder wie es fällt.

Die Lösung: DreamZero – Der Roboter, der „träumt"

Das neue Modell DreamZero ist anders. Es ist wie ein junger Mensch, der nicht nur Anweisungen auswendig lernt, sondern die Welt beobachtet und vorhergibt, was als Nächstes passiert.

Stell dir DreamZero als einen Filmemacher und Regisseur vor, der gleichzeitig auch der Stuntman ist.

Der Filmemacher (Die Vision): Bevor der Roboter überhaupt eine Bewegung macht, „träumt" er (generiert) einen kurzen Film davon, wie die Welt aussehen wird, wenn er die Aufgabe erfolgreich erledigt. Er sieht im Kopf: „Wenn ich diesen Apfel greife und in den Korb lege, wird der Apfel dort landen und der Korb wackeln."
Der Stuntman (Die Aktion): Basierend auf diesem mentalen Film berechnet der Roboter genau, welche Muskeln (Motoren) er bewegen muss, um diesen Film in der Realität zu erzeugen.

Die Magie: Da das Modell auf Milliarden von Videos aus dem Internet trainiert wurde, kennt es die Gesetze der Physik. Es weiß, dass ein Glas zerbricht, wenn es fällt, oder dass ein Ball abprallt. Es muss nicht jedes Detail neu lernen, sondern nutzt dieses allgemeine Verständnis.

Warum ist das so revolutionär?

Hier sind die vier großen Durchbrüche, einfach erklärt:

1. Lernen ohne ständige Wiederholung (Vielfalt statt Langeweile)

Alt: Um einen Roboter zu trainieren, musste man ihm oft dieselbe Aufgabe 1.000 Mal zeigen (z. B. „Tasse greifen", „Tasse abstellen"). Das ist teuer und langweilig.
DreamZero: Es reicht, dem Roboter eine vielfältige Sammlung von Videos zu zeigen. Er muss nicht wissen, wie man immer denselben Apfel greift. Er lernt aus der Vielfalt: „Ah, Objekte haben Gewicht, sie rutschen, sie fallen."
Ergebnis: Mit nur 500 Stunden an vielfältigen Daten (statt tausenden Stunden an repetitiven Daten) lernt er besser als die alten Modelle.

2. Der „Null-Shot"-Trick (Alles auf Anhieb)

Das Szenario: Du sagst dem Roboter: „Binden Sie mir die Schnürsenkel."
Das Ergebnis: Der Roboter hat das niemals vorher gesehen. Aber weil er die Physik von Schnüren und Knoten aus seinen „Filmen" kennt, versucht er es sofort und schafft es oft. Er muss nicht erst trainiert werden. Das nennt man Zero-Shot Generalisierung.

3. Der Körper-Tausch (Kreuz-Embodiment)

Das Problem: Ein Roboter mit zwei Armen lernt normalerweise nicht, wie man sich mit einem Arm bewegt.
DreamZero: Da es die Welt durch Videos versteht, kann es Wissen übertragen.
- Beispiel: Wenn wir dem Roboter nur zeigen, wie ein Mensch (oder ein anderer Roboter) einen Apfel pflückt (nur Video, keine Bewegungsbefehle), kann unser Roboter das sofort nachmachen. Er „übersetzt" die menschliche Bewegung in seine eigene Mechanik.
- Wunder: Es braucht nur 30 Minuten an Spielzeit mit einem neuen Roboter, um sich anzupassen und trotzdem alles andere zu können, was er vorher gelernt hat.

4. Geschwindigkeit: Vom Schneckentempo zum Sprint

Das Problem: Solche „Traum-Modelle" sind normalerweise sehr langsam, weil sie viele Rechenschritte brauchen, um den Film zu erstellen. Ein Roboter, der 5 Sekunden für eine Bewegung braucht, ist nutzlos.
Die Lösung: Die Forscher haben den Code extrem optimiert (wie einen Rennwagen, der aerodynamischer gemacht wurde).
Ergebnis: DreamZero kann jetzt 7 Mal pro Sekunde neue Bewegungen berechnen. Das ist schnell genug für einen echten, flüssigen Roboter, der auf Hindernisse reagieren kann.

Zusammenfassung in einer Metapher

Stell dir vor, du willst jemanden beibringen, Auto zu fahren.

Die alten Roboter sind wie Fahrschüler, die nur die Strecke geübt haben, auf der sie gelernt haben. Wenn die Straße nass ist oder eine andere Kurve hat, geraten sie in Panik.
DreamZero ist wie ein erfahrener Fahrer, der Millionen von Fahrvideos gesehen hat. Er versteht, wie ein Auto auf Eis rutscht, wie Bremswege funktionieren und wie man sich in einer neuen Stadt zurechtfindet, ohne je dort gefahren zu sein. Er „sieht" die Zukunft des Fahrwegs, bevor er das Lenkrad dreht.

Fazit

DreamZero ist ein großer Schritt hin zu echten Allzweck-Robotern. Sie sind nicht mehr nur Werkzeuge, die man programmiert, sondern intelligente Partner, die die Welt verstehen, aus Videos lernen und sich sofort an neue Aufgaben und neue Körper anpassen können – und das alles in Echtzeit.

World Action Models are Zero-shot Policies

Das alte Problem: Der Roboter, der nur auswendig lernt

Die Lösung: DreamZero – Der Roboter, der „träumt"

Warum ist das so revolutionär?

1. Lernen ohne ständige Wiederholung (Vielfalt statt Langeweile)

2. Der „Null-Shot"-Trick (Alles auf Anhieb)

3. Der Körper-Tausch (Kreuz-Embodiment)

4. Geschwindigkeit: Vom Schneckentempo zum Sprint

Zusammenfassung in einer Metapher

Fazit

Titel: World Action Models sind Zero-Shot-Policies: DreamZero

1. Problemstellung

2. Methodik: DreamZero (World Action Model)

Kernkonzept: Gemeinsame Vorhersage von Video und Aktion

Optimierungen für Echtzeit-Steuerung

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

World Action Models are Zero-shot Policies

Das alte Problem: Der Roboter, der nur auswendig lernt

Die Lösung: DreamZero – Der Roboter, der „träumt"

Warum ist das so revolutionär?

1. Lernen ohne ständige Wiederholung (Vielfalt statt Langeweile)

2. Der „Null-Shot"-Trick (Alles auf Anhieb)

3. Der Körper-Tausch (Kreuz-Embodiment)

4. Geschwindigkeit: Vom Schneckentempo zum Sprint

Zusammenfassung in einer Metapher

Fazit

Titel: World Action Models sind Zero-Shot-Policies: DreamZero

1. Problemstellung

2. Methodik: DreamZero (World Action Model)

Kernkonzept: Gemeinsame Vorhersage von Video und Aktion

Optimierungen für Echtzeit-Steuerung

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank