RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Het paper introduceert RL-100, een robuust real-world reinforcement learning-framework dat diffusiebeleid combineert met PPO en consistentiedistillatie om robotmanipulatietaken met 100% succes en menselijke snelheid uit te voeren, zelfs onder dynamische veranderingen en zonder hertraining.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om complexe taken uit te voeren, zoals een handdoek opvouwen, een sinaasappel uitpersen of een T-vormig blokje in een spleet duwen. In het verleden waren robots hier vaak slecht in: ze waren traag, maakten veel fouten of konden alleen dingen doen waar ze specifiek voor waren getraind.

Deze paper introduceert RL-100, een nieuw systeem dat robots niet alleen leert kijken, maar ook leren door te doen, net zoals een baby dat doet. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Startpunt: De "Ouder" (Imitatie)

Stel je voor dat je een kind wilt leren lopen. Je kunt het kind niet zomaar de wereld in sturen; het valt dan direct. Eerst moet het kind kijken hoe jij loopt.

  • Wat het systeem doet: RL-100 begint met imitatie. Mensen besturen de robot via een joystick of VR-bril (teleoperatie) en laten hem zien hoe de taak gedaan moet worden.
  • De analogie: Dit is als het kind dat de hand van zijn ouder vasthoudt. De robot leert de basisbewegingen en krijgt een "veilig gevoel" voor wat er mogelijk is. Maar, net als een kind dat alleen maar nadoet wat de ouder doet, blijft de robot hier hangen in de snelheid en efficiëntie van de mens. Als de mens traag is, is de robot ook traag.

2. De Grote Sprong: "Oefenen in de Zandbak" (Offline RL)

Nu het kind de basisbewegingen kent, moet het zelf oefenen. Maar je kunt niet elke keer dat het kind valt, de hele wereld laten stoppen. Je wilt dat het zelf leert zonder constant hulp.

  • Wat het systeem doet: De robot gaat nu zelfstandig oefenen met de data die hij al heeft. Hij probeert variaties, maakt fouten in een virtuele "zandbak" (offline), en leert welke bewegingen beter werken.
  • De analogie: Stel je voor dat de robot een video-game speelt. Hij speelt duizenden keren tegen zichzelf. Hij probeert een beweging, ziet dat hij de bal mist, en past zijn strategie aan. Hij leert niet alleen nabootsen, maar optimaliseren. Hij ontdekt manieren om de taak sneller en slimmer te doen dan de menselijke trainer ooit deed.
  • Het geheim: Ze gebruiken een slimme methode om te voorkomen dat de robot "te wild" wordt. Het is alsof je een coach hebt die zegt: "Probeer iets nieuws, maar blijf binnen de lijntjes van wat veilig is."

3. De Laatste Slag: "De Proef op de Som" (Online RL)

Soms zijn er lastige situaties die in de video-game niet voorkomen, zoals als iemand de robot plotseling duwt of als de vloer glad is.

  • Wat het systeem doet: De robot gaat nu echt in de echte wereld oefenen, maar heel kort en gericht. Hij zoekt alleen de laatste, kleine foutjes op die hij nog maakt.
  • De analogie: Dit is als een atleet die net voor de Olympische Spelen nog even extra traint op de specifieke conditie van het stadion. Hij hoeft niet meer van nul te leren, hij polijst alleen nog de details om 100% zekerheid te krijgen.

4. De Snelheid: Van "Trage Denker" naar "Snelle Reflex"

Een groot probleem bij robots die met "diffusie" werken (een slimme manier om bewegingen te genereren) is dat ze traag zijn. Het is alsof ze eerst een heel gedetailleerd plan maken voordat ze bewegen.

  • De oplossing: De auteurs hebben een trucje bedacht genaamd distillatie. Ze nemen de slimme, trage robot en trainen een "tweeling" die alles in één keer kan doen.
  • De analogie: Stel je voor dat de trage robot een professor is die eerst alle boeken in de bibliotheek doorloopt om een antwoord te vinden. De nieuwe, snelle robot is een sporter die het antwoord direct uit zijn hoofd weet. Ze weten allebei alles, maar de sporter is veel sneller. Hierdoor kan de robot nu 10 tot 20 keer per seconde beslissingen nemen, wat nodig is voor echte, dynamische taken.

Wat hebben ze bereikt? (De Resultaten)

Dit systeem is getest op 8 verschillende, moeilijke taken, van het uitpersen van sinaasappels tot het vouwen van een doosje.

  • 100% Succes: De robot slaagde in 1000 op 1000 pogingen. Geen enkele fout.
  • Sneller dan mensen: Op veel taken was de robot sneller dan de menselijke trainer die de basisbewegingen had geleerd.
  • Robuust: Als je de robot duwt of als de omgeving verandert (bijvoorbeeld een andere soort doek of een gladde tafel), blijft hij werken.
  • De "Sinaasappel-test": Ze hebben de robot zelfs een weekje in een winkelcentrum gezet. Hij pakte willekeurige klanten, persde sinaasappels uit en deed dit 7 uur lang zonder één keer te falen, zonder dat iemand hem opnieuw had getraind.

Conclusie

RL-100 is als een super-leraar voor robots.

  1. Hij leert van de beste menselijke trainers (Imitatie).
  2. Hij oefent zelfstandig tot hij beter is dan de trainer (Offline RL).
  3. Hij polijst de laatste details in de echte wereld (Online RL).
  4. Hij versnelt zijn denken zodat hij net zo snel kan reageren als een mens (Distillatie).

Het resultaat is een robot die niet alleen "nabootst", maar meesterschap bereikt. Het is een grote stap in de richting van robots die echt veilig en betrouwbaar in onze huizen en fabrieken kunnen werken.