RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Das Paper stellt RL-100 vor, ein leistungsfähiges Reinforcement-Learning-Framework für Roboter, das durch die Kombination von Diffusion-Policies mit PPO und Konsistenz-Distillation in acht realen Aufgaben eine 100-prozentige Erfolgsrate erzielt und dabei menschliche Operateure in Geschwindigkeit und Robustheit übertrifft.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu

Veröffentlicht Wed, 11 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung des Papers „RL-100", als würde man sie einem Freund beim Kaffee erzählen, ohne Fachjargon zu verwenden.

Das große Ziel: Roboter, die nicht nur kopieren, sondern lernen

Stellen Sie sich vor, Sie wollen einem Roboter beibringen, wie man einen Orangensaft presst oder ein Handtuch falten soll.
Bisher gab es zwei Hauptmethoden:

  1. Der „Schatten"-Ansatz (Imitation Learning): Der Roboter schaut einem Menschen zu und kopiert dessen Bewegungen genau. Das Problem: Wenn der Mensch einen Fehler macht oder langsam ist, macht der Roboter das auch. Der Roboter bleibt stecken auf dem Niveau des Lehrers.
  2. Der „Versuch-und-Irrtum"-Ansatz (Reinforcement Learning): Der Roboter probiert alles selbst aus. Das Problem: In der echten Welt ist das gefährlich und dauert ewig. Ein Roboter, der lernt, indem er Tausende von Gläsern zertrümmert, ist kein guter Kandidat für die Fabrik.

RL-100 ist die Lösung, die das Beste aus beiden Welten vereint. Es ist wie ein genialer Ausbildungsplan für Roboter.


Die drei Phasen des RL-100-Trainings

Stellen Sie sich den Lernprozess wie das Lernen eines neuen Sports vor, sagen wir, Bowling.

Phase 1: Der Coach (Imitation Learning)

Zuerst schaut sich der Roboter Videos von einem Profi an (einem menschlichen Teleoperator). Er lernt die Grundbewegungen.

  • Die Analogie: Ein Anfänger im Bowling, der sich die Techniken eines Meisters anschaut. Er weiß jetzt grob, wie man den Ball hält und wirft, aber er ist noch nicht schnell oder perfekt.
  • Das Ergebnis: Der Roboter kann die Aufgabe schon zu 50–70 % gut machen. Er ist sicher, aber nicht effizient.

Phase 2: Der Trainingscamp-Manager (Iteratives Offline-RL)

Jetzt kommt der Clou. Der Roboter simuliert Tausende von Spielen im Kopf (oder auf einem Computer), basierend auf dem, was er vom Profi gelernt hat, aber er darf auch eigene Wege ausprobieren.

  • Die Analogie: Der Roboter geht in ein virtuelles Trainingslager. Er spielt 10.000 Partien Bowling gegen sich selbst. Jedes Mal, wenn er einen Strike macht, bekommt er einen Punkt. Wenn er daneben wirft, bekommt er nichts. Er lernt aus seinen Fehlern, ohne dass jemandem etwas kaputtgeht.
  • Der Trick: Das System ist sehr vorsichtig. Es erlaubt dem Roboter nur kleine Änderungen, die nachweislich besser sind. So lernt er, schneller zu werfen und präziser zu zielen, ohne die Grundtechniken zu vergessen.
  • Das Ergebnis: Die Erfolgsrate steigt auf über 90 %. Der Roboter ist jetzt sehr gut, aber vielleicht noch nicht perfekt bei schwierigen Situationen.

Phase 3: Der letzte Schliff (Online-RL)

Jetzt geht es an die echte Welt. Der Roboter führt die Aufgabe auf dem echten Arm aus, aber nur noch für eine kurze Zeit, um die letzten 10 % zu perfektionieren.

  • Die Analogie: Der Roboter spielt ein paar echte Turniere. Er lernt, wie er reagiert, wenn der Boden rutschig ist oder wenn der Ball leicht krumm rollt. Er poliert seine Fähigkeiten auf das absolute Maximum.
  • Das Ergebnis: 100 % Erfolgsrate. Der Roboter macht keine Fehler mehr, ist schneller als der menschliche Lehrer und kann auch unter Stress (z. B. wenn jemand ihn anstößt) weiterarbeiten.

Der Turbo-Boost: Der „Ein-Schritt"-Trick

Ein großes Problem bei modernen KI-Modellen (Diffusionsmodellen) ist, dass sie langsam sind. Um eine Bewegung zu planen, müssen sie oft 10 Schritte „nachdenken", wie ein Künstler, der erst skizziert, dann malt, dann korrigiert. Das dauert zu lange für einen Roboter, der schnell handeln muss.

RL-100 nutzt einen Trick namens Consistency Distillation.

  • Die Analogie: Stellen Sie sich vor, der Roboter lernt erst, wie man ein Bild in 10 Schritten malt (der Lehrer). Dann trainiert er einen Schüler (den Konsistenz-Modell), der das gleiche Bild in einem einzigen, blitzschnellen Strich malt.
  • Das Ergebnis: Der Roboter kann jetzt 20- bis 30-mal pro Sekunde entscheiden, was er tun soll. Er reagiert so schnell wie ein Mensch, aber ohne zu zögern.

Was haben sie getestet? (Die „Achterbahn" der Aufgaben)

Die Forscher haben RL-100 an 8 verschiedenen, sehr schwierigen Aufgaben getestet. Das ist wie ein Roboter-Olympia:

  1. Kugeln werfen (Bowling): Der Roboter muss eine Kugel so werfen, dass sie alle Kegel umwirft.
  2. Orangensaft pressen: Ein sehr schwieriger Job, bei dem die Orange deformierbar ist und in einer engen Presse sitzt.
  3. Handtücher falten: Zwei Roboterarme müssen zusammenarbeiten, um ein zerknittertes Tuch perfekt zu falten.
  4. Flüssigkeiten einschenken: Ohne zu verschütten, auch wenn die Flüssigkeit Wasser oder Granulat ist.
  5. Schrauben lösen: Präzise Arbeit mit einem dexterousen (geschickten) Greifer.

Das Erstaunliche:

  • Der Roboter hat bei allen 1000 Versuchen (100 %) Erfolg gehabt.
  • Er war oft schneller als die menschlichen Experten, die ihn trainiert haben.
  • Der Beweis: Ein Saft-pressender Roboter wurde in einem echten Einkaufszentrum aufgestellt. Er bediente zufällige Kunden sieben Stunden lang ohne Unterbrechung und ohne einen einzigen Fehler. Das ist etwas, das bisher noch kein Roboter in der echten Welt so lange und zuverlässig geschafft hat.

Warum ist das wichtig?

Früher dachte man, Roboter könnten nur das tun, was sie in Videos gesehen haben. RL-100 zeigt, dass Roboter lernen können, über das menschliche Niveau hinauszuwachsen. Sie nutzen die menschliche Erfahrung als Startpunkt, verbessern sich dann aber selbstständig, werden schneller, robuster und zuverlässiger.

Es ist der Schritt vom „Roboter, der nur kopiert" zum „Roboter, der wirklich arbeitet".