D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Each language version is independently generated for its own context, not a direct translation.

🎮 Vom Spielzimmer zur echten Welt: Wie Roboter durch Computerspiele lernen

Stell dir vor, du möchtest einem Roboter beibringen, einen Teller auf einen Tisch zu legen oder durch einen Raum zu laufen. Das Problem: Um das zu lernen, müsste der Roboter Millionen von Malen probieren, fallen, stolpern und sich verletzen. Das ist extrem teuer, langsam und gefährlich. Es ist, als würdest du versuchen, ein Auto zu fahren, indem du Millionen von Autos in einem echten Wald zertrümmern lässt, nur um zu lernen, wie man lenkt.

Die Forscher von D2E (Desktop to Embodied AI) haben eine geniale Idee gehabt: Warum nicht erst im Computer lernen?

1. Das riesige Übungsfeld: Der Desktop

Statt teurer Roboter-Hardware nutzen die Forscher unseren normalen Computerbildschirm.

Die Analogie: Stell dir den Computerbildschirm wie ein riesiges, virtuelles Trainingslager vor. Millionen von Menschen spielen dort jeden Tag Spiele (wie Minecraft, GTA oder Apex Legends). Dabei bewegen sie Maus und Tastatur, um zu navigieren, Objekte zu greifen und Strategien zu planen.
Das Problem: Bisher war diese Datenflut ungenutzt. Man konnte sie nicht einfach "herunterladen", um Roboter zu trainieren, weil die Daten chaotisch waren und in verschiedenen Formaten steckten.

2. Die Lösung: Ein neuer "Koffer" (OWA Toolkit)

Die Forscher haben ein neues Werkzeug namens OWA Toolkit gebaut.

Die Analogie: Stell dir vor, du hast Tausende von Fotos, Videos und Notizen, die alle in verschiedenen Sprachen und Formaten geschrieben sind. Das OWA Toolkit ist wie ein magischer Übersetzer und Kompressor.
Es nimmt alles auf: Was du siehst (Bildschirm), was du drückst (Tastatur) und wie du die Maus bewegst.
Der Trick: Es packt diese riesigen Datenmengen so effizient zusammen, dass sie 152-mal kleiner werden. Das ist, als würde man einen ganzen Lastwagen voller Heu in einen kleinen Rucksack stecken, ohne dass etwas verloren geht. So können sie riesige Mengen an Daten speichern und verarbeiten.

3. Der Super-Trainer: Der "Generalist-IDM"

Jetzt haben sie die Daten, aber sie brauchen jemanden, der die Muster darin erkennt. Dafür haben sie ein KI-Modell namens Generalist-IDM entwickelt.

Die Analogie: Stell dir einen alten Meister-Spieler vor, der nur Minecraft kennt. Wenn du ihm GTA gibst, ist er verloren. Der Generalist-IDM ist wie ein universelles Genie. Er hat gelernt, wie Maus und Tastatur funktionieren, egal welches Spiel man spielt.
Der Clou: Er kann sich Videos von YouTube ansehen (wo Leute Spiele spielen) und automatisch herausfinden, welche Tasten gedrückt wurden, auch wenn niemand dort mitgeschrieben hat. Er "errät" die Handlungen (Pseudo-Labeling). So haben sie aus wenigen Stunden menschlicher Aufzeichnungen über 1.000 Stunden an Trainingsdaten gemacht.

4. Der große Sprung: Von Pixeln zu echten Armen (VAPT)

Das ist der magischste Teil. Die Forscher haben dem Roboter die "Erinnerungen" aus dem Computer gegeben.

Die Analogie: Stell dir vor, du hast einen Roboterarm, der noch nie etwas angefasst hat. Du gibst ihm die "Muskelgedächtnis"-Daten eines Computerspielers, der in Minecraft Blöcke abgebaut hat.
Das Ergebnis: Der Roboterarm nutzt dieses digitale Wissen, um in der echten Welt Aufgaben zu lösen. Es funktioniert, weil die Grundprinzipien gleich sind: "Ich sehe ein Objekt, ich muss mich dorthin bewegen, ich muss greifen." Ob das Objekt ein digitaler Block oder ein echter Würfel ist, ist für das Gehirn des Roboters ähnlich.

Die Ergebnisse: Ein kleiner Held schlägt die Riesen

Das Team hat ein Modell mit nur 1 Milliarde Parametern (relativ klein) trainiert.

Der Vergleich: Sie haben es gegen riesige Modelle (mit 3 oder 7 Milliarden Parametern) angetreten, die speziell für Roboter entwickelt wurden.
Das Ergebnis: Der kleine "Desktop-Roboter" hat besser oder genauso gut abgeschnitten!
- Bei Manipulationsaufgaben (Greifen): 96,6 % Erfolg.
- Bei Navigationsaufgaben (Laufen): 83,3 % Erfolg.

Warum ist das so wichtig?

Bisher mussten Roboter-Entwickler Millionen von Dollar ausgeben, um Roboter physisch trainieren zu lassen. Mit D2E können sie nun:

Kosten sparen: Statt Roboter zu bauen, nutzen sie Computer, die wir alle schon haben.
Schneller lernen: Sie nutzen die unendliche Datenmenge des Internets (YouTube-Spiele), statt auf wenige menschliche Trainer zu warten.
Zugänglicher machen: Jeder Forscher kann jetzt mit diesen Tools arbeiten, ohne eine teure Roboter-Fabrik zu besitzen.

Zusammenfassend: Die Forscher haben bewiesen, dass man Roboter nicht unbedingt in einer echten Werkstatt trainieren muss. Man kann sie erst in der digitalen Welt (durch Spiele) "großziehen" und sie dann in die echte Welt schicken, wo sie ihre neuen Fähigkeiten sofort anwenden können. Es ist, als würde man einen Piloten erst in einem Flugsimulator trainieren, bevor er das echte Flugzeug steuert – nur dass dieser Simulator jetzt aus Millionen von YouTube-Videos besteht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Embodied AI (robotische KI) steht vor einem fundamentalen Skalierungsproblem im Vergleich zu Large Language Models (LLMs). Während LLMs von internetweiten Textdaten profitieren, ist die Sammlung physischer Trajektorien für Roboter extrem kostspielig, hardwareintensiv und erfordert komplexe Annotationspipelines. Dies führt zu kleinen, domänenspezifischen Datensätzen, die keine echte „Daten-Fliehrad"-Dynamik ermöglichen.

Bestehende Ansätze zur Nutzung von Desktop-Daten (z. B. VPT für Minecraft oder SIMA) sind entweder auf eine einzige Domäne beschränkt oder nutzen proprietäre Daten. Es fehlt ein einheitlicher Rahmen, der Desktop-Interaktionen (Bildschirm, Tastatur, Maus) als skalierbare Vorpretraining-Substrat für allgemeine robotische Aufgaben nutzt und den Transfer auf physische Manipulation und Navigation ermöglicht.

2. Methodik: Das D2E-Framework

Das Paper stellt D2E (Desktop to Embodied AI) vor, ein Framework, das Desktop-Interaktionen in ein skalierbares Vorpretraining für Embodied AI überführt. Der Ansatz besteht aus drei Hauptkomponenten:

A. OWA Toolkit (Open-World Agents Toolkit)

Dieses Toolkit löst das Problem der Datenerfassung und -speicherung:

ocap Recorder: Ein synchronisierter Aufzeichner, der über Windows-APIs und GStreamer Video (60 Hz), Audio, Tastatur- und Mausereignisse in Echtzeit erfasst.
OWAMcap Format: Ein standardisiertes Datenformat, das auf dem MCAP-Container basiert. Es ermöglicht eine 152-fache Komprimierung im Vergleich zu bestehenden Formaten (z. B. JSONL oder Rohbilder), indem es externe Medienreferenzen (H.265-Video) nutzt und Metadaten effizient indiziert.
Optimierte Datenpipeline: Eine Pipeline mit adaptiver Batch-Decodierung und FSLDataset (Fixed Sequence Length Dataset), die I/O-Engpässe bei großen Videodatenbanken überwindet und den Durchsatz beim Training um das 10-fache steigert.

B. Generalist-IDM (Inverse Dynamics Model)

Um die Menge an manuell annotierten Daten zu überwinden, wird ein generisches inverses Dynamikmodell entwickelt:

Zeitstempel-basierte Ereignisvorhersage (NEP-τ): Im Gegensatz zu tick-basierten Modellen (die feste Intervalle nutzen) sagt das Modell das nächste Ereignis und dessen exakten Zeitstempel vorher. Dies erhält die asynchrone Natur der Desktop-Interaktionen und vermeidet leere „No-Op"-Schritte.
Temporale Verschiebung (Temporal Offset): Durch die Verwendung zukünftiger Beobachtungen (Offset $\tau = 100$ ms) kann das Modell Aktionen aus dem Kontext besser ableiten.
Pseudo-Labeling: Das auf menschlichen Demonstrationen trainierte Generalist-IDM wird genutzt, um über 1.000 Stunden YouTube-Gameplay-Videos automatisch zu labeln, wodurch ein internet-skalierender Datensatz entsteht.

C. VAPT (Vision-Action PreTraining)

Dies ist der eigentliche Transfer-Mechanismus:

Ein Modell (basierend auf InternVL3-1B) wird auf dem kombinierten Desktop-Korpus (menschliche Demonstrationen + pseudo-gelabelte Daten) vortrainiert.
Die so gelernten sensorimotorischen Repräsentationen werden dann auf robotische Downstream-Aufgaben (Manipulation und Navigation) übertragen, ohne dass eine spezifische Robotik-Vorpretraining-Datenmenge nötig ist.

3. Schlüsselbeiträge

OWA Toolkit: Ein Open-Source-Framework für die Erfassung, Synchronisation und extrem komprimierte Speicherung von Desktop-Interaktionen (bis zu 152× Kompression, 41× geringerer Disk-Lesezugriff pro Bild).
Generalist-IDM: Ein inverses Dynamikmodell, das über verschiedene Spiele hinweg generalisiert und in der Lage ist, Mausempfindlichkeiten und Steuerungsmuster in unbekannten Umgebungen (Out-of-Distribution) anzupassen. Es ermöglicht die Skalierung auf >1.000 Stunden pseudo-gelabelter Daten.
VAPT Foundation Model: Ein 1-Milliarden-Parameter-Modell, das zeigt, dass aus digitalen Interaktionen gelernte Sensorimotorik effektiv auf physische Roboteraufgaben übertragen werden kann.

4. Ergebnisse

Das Modell wurde auf Standard-Benchmarks für Robotik evaluiert:

Manipulation (LIBERO Benchmark):
- Das D2E-Modell (1B Parameter) erreichte eine Gesamterfolgsrate von 96,6 %.
- Dies entspricht oder übertrifft deutlich größere Modelle wie $\pi_0$ (3,3B Parameter) und OpenVLA (7B Parameter).
- Besonders stark war die Leistung bei langfristigen Aufgaben (Long-horizon tasks).
Navigation (CANVAS Benchmark):
- Das Modell erreichte eine Erfolgsrate von 83,3 %.
- Der Einsatz von Pseudo-Labels verbesserte die Leistung im Vergleich zur reinen menschlichen Datengrundlage signifikant (von 75,3 % auf 83,3 %), insbesondere bei irreführenden Anweisungen.
Echtwelt-Validierung (SO101 Roboterarm):
- In einem Pick-and-Place-Experiment im echten Leben erreichte das VAPT-Modell eine Erfolgsrate von 80 %, verglichen mit 70 % beim Baseline-Modell ohne Desktop-Vorpretraining.
Generalist-IDM Leistung:
- Das Modell zeigte starke Zero-Shot-Generalisierung auf unbekannte Spiele (z. B. Battlefield 6, Ogu and the Secret Forest) und übertraf spezialisierte Modelle in diesen Domänen erheblich.

5. Bedeutung und Fazit

Das Paper etabliert Desktop-Daten als eine praktische, kostengünstige und skalierbare Alternative zur physischen Datenerfassung für Embodied AI.

Kosteneffizienz: Die Sammlung von 335 Stunden Daten kostete nur ca. 800 $ (für das Training des IDM) und erforderte deutlich weniger Ressourcen als vergleichbare Robotik-Datensätze (z. B. DROID benötigte 12 Monate und 50 Sammler).
Transferfähigkeit: Es wird erstmals nachgewiesen, dass sensorimotorische Muster, die in digitalen Umgebungen (Gaming) gelernt werden, direkt auf reale physikalische Aufgaben übertragbar sind.
Demokratisierung: Durch die hohe Komprimierung und die Open-Source-Verfügbarkeit aller Tools, Daten und Modelle wird das Feld der Embodied AI für Forschungsgruppen mit begrenzten Ressourcen zugänglich gemacht.

Zusammenfassend demonstriert D2E, dass das Internet nicht nur Text, sondern auch reichhaltige Interaktionsdaten für die Ausbildung allgemeiner Roboter-Politiken bereitstellt, wenn die richtigen Werkzeuge zur Extraktion und Nutzung dieser Daten vorhanden sind.