OSGym: Scalable Distributed Data Engine for Generalizable Computer Agents

OSGym ist eine skalierbare, verteilte Daten-Engine, die es ermöglicht, Computer-Agenten kostengünstig und effizient durch die parallele Ausführung von über tausend Betriebssystem-Instanzen für diverse Aufgaben zu trainieren.

Zengyi Qin, Jinyuan Chen, Yunze Man, Shengcao Cao, Ziqi Pang, Zhuoyuan Wang, Xin Sun, Gen Lin, Han Fang, Ling Zhu, Zixin Xie, Zibu Wei, Tianshu Ran, Haoran Geng, Xander Wu, Zachary Bright, Qizhen Sun, Rui Wang, Yuyang Cai, Song Wang, Jiace Zhao, Han Cao, Yeyang Zhou, Tianrui Liu, Ray Pan, Chongye Yang, Xiang Ren, Bo Zhang, Yutong Ban, Jitendra Malik, Pieter Abbeel

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen sehr klugen Roboter-Handlanger bauen, der nicht nur eine Sache kann (wie nur E-Mails schreiben), sondern alles auf einem Computer erledigen kann: vom Öffnen von Excel-Tabellen über das Surfen im Internet bis hin zum Programmieren von Software.

Das Problem ist: Um so einen Roboter zu trainieren, braucht man Millionen von Beispielen. Normalerweise müsste man dafür Tausende von echten Computern mieten, die rund um die Uhr laufen. Das kostet ein Vermögen und ist für normale Universitäten oder Forscher unmöglich zu bezahlen.

Hier kommt OSGym ins Spiel. Die Forscher haben eine Art „Super-Werkstatt" entwickelt, die dieses Problem löst.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „Einzelkämpfer" vs. die „Armee"

Stell dir vor, du willst lernen, wie man kocht.

  • Die alte Methode: Du hast nur einen einzigen Herd. Du kochst einen Topf Suppe, wäschst den Topf, kochst den nächsten. Es dauert ewig, bis du genug Erfahrung gesammelt hast.
  • Das Problem bei Computern: Bisher hatten Forscher nur einen oder wenige „Computer-Herde". Um einen KI-Agenten zu trainieren, der den ganzen Computer bedient, brauchen sie aber Tausende von gleichzeitigen Versuchen. Das war bisher zu teuer und zu langsam.

2. Die Lösung: OSGym – Die „Flotte von 1000 Mini-Küchen"

OSGym ist wie eine riesige, intelligente Küche, in der 1000 Köche gleichzeitig arbeiten können, aber sie teilen sich die Ressourcen klug.

  • Die „Mini-Küchen" (OS-Replicas): Statt 1000 riesige, teure Server zu mieten, nutzt OSGym eine clevere Technik. Es teilt einen großen, starken Server in viele kleine, virtuelle „Mini-Küchen" auf.
  • Der Trick mit dem Platz: Normalerweise denkt man: „Je mehr Köche, desto mehr Herde brauche ich." OSGym sagt: „Nein! Die Köche brauchen nicht alle gleichzeitig den Herd. Mal kocht der eine, mal der andere."
    • Die Analogie: Stell dir vor, du hast ein großes Bürogebäude. Wenn du 1000 Mitarbeiter hast, brauchst du nicht 1000 separate Gebäude. Du kannst sie alle in ein großes, gut organisiertes Gebäude stecken. OSGym packt viele dieser „Mini-Computer" auf wenige, aber sehr speicherstarke Server. Das ist wie das Umziehen von vielen kleinen, teuren Häusern in ein großes, günstiges Apartmentgebäude.

3. Die drei Superkräfte von OSGym

A. Skalierbarkeit (Die „Unendliche Armee")

OSGym kann über 1000 dieser Mini-Computer gleichzeitig betreiben.

  • Vergleich: Stell dir vor, du hast eine Flotte von 1000 Taxis. Wenn eines kaputtgeht (z. B. ein Reifen platt ist), fährt einfach das nächste weiter. Niemand merkt es, und die Fahrt geht weiter. OSGym hat einen solchen „Selbstreparatur-Mechanismus". Wenn ein Mini-Computer abstürzt, repariert er sich automatisch, ohne dass das ganze System zusammenbricht.

B. Allgemeingültigkeit (Der „Universal-Handwerker")

Früher gab es Trainingsumgebungen nur für spezielle Aufgaben (z. B. nur für Webbrowser oder nur für Code).

  • Vergleich: Das war wie ein Werkzeugkasten, in dem es nur einen Schraubenzieher gab. OSGym ist wie ein voll ausgestattetes Werkzeughaus. Egal, ob der Roboter ein Dokument schreiben, ein Bild bearbeiten oder ein Programm coden soll – OSGym stellt den echten Computer bereit, auf dem diese Programme laufen. Es gibt keine Einschränkungen.

C. Günstig für die Wissenschaft (Der „Schnäppchen-Jäger")

Das ist vielleicht der wichtigste Teil.

  • Die Zahlen: Früher hätte das Mieten von 1000 Computern Tausende von Dollar pro Tag gekostet. OSGym kostet dank der cleveren Ressourcennutzung nur 0,20 bis 0,30 Dollar pro Tag pro Mini-Computer.
  • Vergleich: Das ist wie wenn du statt eines teuren Luxusautos ein sehr sparsames Elektroauto fährst, das trotzdem alle Strecken schafft. Dadurch können auch kleine Universitäten mit wenig Budget forschen, ohne sich verschulden zu müssen.

4. Was haben sie damit erreicht?

Die Forscher haben OSGym getestet und gezeigt, dass es funktioniert:

  1. Daten sammeln: Sie haben in nur wenigen Minuten Tausende von Trainingsbeispielen gesammelt (so schnell, als würde ein Schwarm Bienen gleichzeitig Blumen bestäuben).
  2. Training: Sie haben einen KI-Agenten trainiert, der auf diesen Daten lernt.
  3. Ergebnis: Der trainierte Agent konnte Aufgaben auf einem echten Computer lösen, die er vorher nie gesehen hatte. Er hat sogar in einem offiziellen Test (OSWorld) sehr gut abgeschnitten.

Zusammenfassung

OSGym ist wie ein genialer Organisations-Assistent für KI-Forscher. Er nimmt die teuren, komplizierten und langsamen Prozesse des Trainings von Computer-Robotern und macht sie:

  • Schnell (durch Parallelisierung von Tausenden Einheiten),
  • Robust (durch automatische Reparatur bei Fehlern),
  • Günstig (durch clevere Ressourcennutzung).

Dadurch wird es möglich, dass bald überall intelligente Computer-Assistenten entstehen, die uns im Alltag helfen können – und das nicht nur in großen Tech-Firmen, sondern auch in Universitäten und kleinen Laboren.