Tendon Force Modeling for Sim2Real Transfer of Reinforcement Learning Policies for Tendon-Driven Robots

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robotvinger wilt bouwen die net zo behendig is als een menselijke hand. Om dit te doen, gebruiken ingenieurs vaak pezen (zoals in onze eigen spieren) die door kleine motortjes worden getrokken. Dit is slim, want de zware motoren kunnen dan ver weg zitten, waardoor de vingers licht en soepel blijven.

Maar hier zit een groot probleem: het is heel lastig om deze motoren precies te besturen.

Het Probleem: De "Telepathische" Gids

In de computerwereld (de simulatie) denken we dat als we een motor commando geven ("ga naar positie X"), de motor precies doet wat we zeggen. Maar in de echte wereld is dat niet zo. Motoren hebben wrijving, de pezen zijn niet 100% strak, en er is een klein vertragingstje.

Het is alsof je probeert een vriend op te bellen om te zeggen: "Draai de knop naar rechts!" Maar je vriend is een beetje doof, de telefoon heeft een slechte verbinding, en hij draait de knop soms te ver of te weinig. Als je een robot leert (via Reinforcement Learning of 'leren door te proberen') in de computer, leert hij op basis van die perfecte, ideale wereld. Zodra je die robot naar de echte wereld stuurt, faalt hij omdat de robot niet weet dat zijn "vriend" (de motor) niet perfect luistert.

De Oplossing: Een "Verleden-Tijd" Voorspeller

De auteurs van dit papier hebben een slimme oplossing bedacht. In plaats van te hopen dat de motor perfect werkt, hebben ze een AI-model (een soort slimme computerhulp) getraind om te voorspellen wat de motor echt gaat doen.

Ze hebben een testopstelling gemaakt die lijkt op een robotvinger, maar dan met een krachtmeting. Ze hebben de motor duizenden keren laten bewegen en gemeten:

Wat weiden we gezegd? (Het commando)
Wat deed de motor echt? (De beweging)
Wat was de kracht? (De spanning in de pees)

Maar hier is de creatieve twist: Ze hebben de AI niet alleen geleerd op het huidige commando. Ze hebben de AI geleerd om naar het verleden te kijken.

De Analogie van de Voorspeller:
Stel je voor dat je probeert te raden hoe hard iemand op de rem van een auto moet trappen om op een rood stoplicht te stoppen.

Een simpele AI kijkt alleen naar het stoplicht en zegt: "Trap hard!" (Dit werkt niet, want de auto heeft remafstand nodig).
De AI van dit papier kijkt naar het verleden: "Ah, de auto reed hard, de remmen zijn een beetje slijtig, en de bestuurder heeft net een beetje te hard geremd. Ik ga voorspellen dat hij nu iets minder hard moet trappen om niet te hard te remmen."

Dit model gebruikt een technologie genaamd Transformer (dezelfde technologie die achter chatbots zit). Deze "kijkt" naar een geschiedenis van bewegingen (bijvoorbeeld de laatste 1,5 seconde) om te begrijpen hoe de motor zich gedraagt. Het is alsof de AI de "karaktertrekken" van de motor kent: "Oh, deze motor is wat traag als hij stopt, en hij heeft een beetje wrijving."

Wat hebben ze bereikt?

De "Gaten" dichten: Door dit slimme model in de computersimulatie te gebruiken, wordt de simulatie veel realistischer. Het verschil tussen de computerwereld en de echte wereld (de "Sim2Real gap") is met 41% kleiner geworden.
Beter leren: De robot die in de computer is getraind met dit slimme model, werkt 50% beter in de echte wereld dan een robot die is getraind met de oude, simpele methoden.
Alles kan: Het model is "robot-onafhankelijk". Het maakt niet uit of je een dunne vinger of een dikke arm bouwt, zolang je dezelfde soort motor gebruikt, werkt de voorspeller.

De Grootte van de Prestatie

Stel je voor dat je een robotvinger wilt leren om een ei vast te houden zonder het te breken.

Zonder dit model: De robot denkt dat hij zachtjes duwt, maar door de wrijving in de motor duwt hij eigenlijk te hard en breekt het ei.
Met dit model: De robot "weet" dat zijn motor traag reageert en dat de pees een beetje veert. Hij past zijn kracht aan en houdt het ei perfect vast.

Kortom: Ze hebben een manier gevonden om robots niet alleen te leren wat ze moeten doen, maar hen ook te leren hoe hun eigen spieren (de motoren) zich gedragen. Hierdoor kunnen ze sneller en slimmer leren in de computer, en daarna zonder problemen in de echte wereld werken. Dit opent de deur voor robots die echt handig en behendig kunnen zijn, zoals een mens.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Tendon Force Modeling for Sim2Real Transfer of Reinforcement Learning Policies for Tendon-Driven Robots", vertaald en samengevat in het Nederlands.

Probleemstelling

Robotica-systemen die gebruikmaken van zachte of compliant interacties, zoals dexterous (behendige) robotische handen, maken vaak gebruik van tendongedreven actuatoren. Dit stelt de motoren in staat om verder van het actiepunt te worden geplaatst, wat de bewegingsinertie verlaagt en compliance mogelijk maakt. Een grote uitdaging bij deze systemen is echter het ontwikkelen van robuuste controllers die in de echte wereld werken.

Hoewel Versterkingsleren (Reinforcement Learning - RL) in combinatie met simulatie veelbelovend is voor het genereren van complexe gedragingen, stuiten deze methoden op een groot Sim2Real-gat (verschil tussen simulatie en realiteit).

RL-policies vereisen doorgaans torque- of krachtsimulaties om dynamisch gedrag te leren.
De meeste commerciële servo-motoren (zoals Dynamixel) bieden echter alleen positiebesturing of stroommeting met beperkte nauwkeurigheid.
Het is moeilijk om de daadwerkelijke tendonkracht te voorspellen op basis van positiecommando's vanwege niet-lineaire factoren zoals wrijving, tendon-slakheid (slack), motorlatency en compliantie.
Bestaande modellen focussen vaak alleen op wrijving of vereisen specifieke trainingsdata per robot, wat generalisatie bemoeilijkt.

Methodologie

De auteurs stellen een datagedreven aanpak voor om een model te leren dat tendonkrachten schat op basis van alleen encoder-signalen (gewenste positie, gemeten positie en snelheid) van de motor.

Data-verzameling Testbank:
- Er is een nieuwe testbank ontwikkeld die een servo-motor koppelt aan een massa-veer-systeem en een krachtmetende sensor (load cell).
- Dit systeem kan ook een echte robotvinger (met twee gekoppelde gewrichten) bevatten.
- Data wordt verzameld onder diverse omstandigheden: vrije beweging, contact met objecten (grijpen), en verschillende veerconfiguraties (zwak, sterk).
- De dataset bevat willekeurige stapresponsen, sinusgolven en rampen, gedekt door een breed scala aan dynamische scenario's.
Model Architectuur (Transformer):
- Omdat servo-motoren trager zijn dan andere actuatoren en een langere historische context nodig hebben om niet-lineariteiten te vangen, vergelijken de auteurs drie modellen:
  - MLP (Multi-Layer Perceptron): Gebruikt een geflatteerde vector van de geschiedenis.
  - RNN (Recurrent Neural Network): Verwerkt sequenties stap-voor-stap.
  - Transformer Encoder: Verwerkt de volledige inputsequentie parallel via self-attention.
- Het Transformer-model wordt gekozen als de beste oplossing. Het neemt een geschiedenis van 30 stappen (1,5 seconde bij 20 Hz) van [gewenste positie, gemeten positie, snelheid] als input en voorspelt de tendonkracht.
- Het model is robot-agnostisch: het leert de motor-dynamiek en is niet afhankelijk van de specifieke robotgeometrie.
Simulatie en RL Training:
- Het getrainde krachtmodel wordt geïntegreerd in een GPU-versnelde, starre lichaamssimulatie (Vsim) die tendongedreven actuatoren ondersteunt.
- In plaats van torque-invoer te simuleren, wordt de geschatte kracht ( $\hat{F}$ ) gebruikt om de simulatie te drijven.
- Domain Randomization wordt toegepast tijdens het trainen van de RL-policy (PPO-algoritme) om variaties in wrijving, massa en veerconstantes te overbruggen.
- De RL-policy leert een controller die alleen afhankelijk is van motor-encoder data (blind proprioceptie) om de vingertoppositie te regelen.

Belangrijkste Bijdragen

Een datagedreven tendonkracht-schatter: Een model dat uitsluitend gebaseerd is op motor-encoder signalen (geen krachtsensoren nodig tijdens inferentie) en generaliseert over verschillende veerconfiguraties en robotsystemen.
Inzicht in temporele context: Het aantonen dat voorspelling van krachten bij servo-motoren een lange historische context vereist. Transformer-architecturen presteren hierin beter dan MLP's of RNN's vanwege hun vermogen om complexe, richting-afhankelijke dynamiek te modelleren.
Verkleining van het Sim2Real-gat: Het bewijs dat het integreren van dit geleerde actuatormodel in simulatie de kloof tussen simulatie en realiteit aanzienlijk verkleint, wat leidt tot betere prestaties van RL-policies op echte hardware.

Resultaten

De auteurs hebben hun aanpak getest op een echte robotvinger met twee gekoppelde gewrichten, aangedreven door één tendon.

Krachtfout: Het Transformer-model kan de tendonkracht voorspellen met een foutmarge van < 3% van de maximale motorkracht (gemiddelde RMSE van 0,61 N bij een max van 21 N).
Generalisatie: Het Transformer-model generaliseert beter dan MLP en RNN naar verschillende veerstelsels (zwak/sterk) en de robotvinger. De MLP vertoonde oscillaties en de RNN vertoonde drift.
Contactrijke scenario's: Het model slaagt erin om krachten nauwkeurig te voorspellen tijdens contact met objecten (gedeeltelijk of volledig geblokkeerde vinger), waarbij het de niet-lineariteiten van de motor en de latency correct modelleert.
Sim2Real Gap:
- Bij het simuleren van een sinusvormige trajectorie verminderde het gebruik van het Transformer-model de fout ten opzichte van de echte robot met 41% vergeleken met een ideaal krachtsmodel.
- De RL-controller getraind met het Transformer-model behaalde een 50% verbetering in het volgen van de vingertoppositie op de echte robot, vergeleken met een controller getraind met een ideaal krachtsmodel (dat vaak te veel overshootte door het negeren van wrijving en niet-lineariteiten).

Significantie

Dit werk is een belangrijke stap voorwaarts voor de toepassing van Reinforcement Learning op dexterous manipulators en soft robots.

Het lost het probleem op dat veel dexterous handen geen directe torque-sensoren hebben, maar wel krachtgestuurde controle nodig hebben voor robuustheid.
Door een modulaire, robot-agnostische pipeline te bieden, kunnen onderzoekers nu RL-policies trainen in simulatie en deze direct inzetten op echte systemen met minimale aanpassing.
Het opent de deur voor volledig "blinde" controllers die alleen vertrouwen op proprioceptieve metingen (encoder data) om complexe manipulatie-taken uit te voeren, wat essentieel is voor de volgende generatie flexibele robotische handen.

Tendon Force Modeling for Sim2Real Transfer of Reinforcement Learning Policies for Tendon-Driven Robots

Het Probleem: De "Telepathische" Gids

De Oplossing: Een "Verleden-Tijd" Voorspeller

Wat hebben ze bereikt?

De Grootte van de Prestatie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers