PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robotarm wilt leren om een kopje thee van de tafel naar de keuken te dragen. Als je de robot alleen maar laat kijken hoe jij dat doet (door de robotarm te besturen met een joystick), leert hij het snel. Maar als je de robot daarna vraagt: "Doe het nu, maar zorg dat het kopje rechtop blijft staan terwijl je loopt," faalt hij vaak. Hij probeert de beweging na te bootsen die hij gezien heeft, maar als de situatie iets anders is, maakt hij een fout en valt de thee om.

Dit is precies het probleem dat het PRISM-systeem oplost. PRISM staat voor Personalized Refinement of Imitation Skills (Gepersonaliseerde verfijning van nabootsingsvaardigheden). Laten we uitleggen hoe het werkt met een paar simpele analogieën.

1. De Basis: De "Nabootsings-Leraar" (Imitatie)

Eerst leert de robot door te kijken. Dit noemen we Imitatie Leren.

De Analogie: Stel je voor dat je een beginnende kok bent. Je kijkt naar een meesterkok die een taart maakt. Je ziet hoe hij deeg kneedt en deeg in de vorm legt. Je probeert het na te doen.
Het probleem: Als je de taart nu in een andere vorm moet bakken, of als je de oven iets warmer moet zetten, weet de beginnende kok niet wat hij moet doen. Hij blijft steken in de exacte bewegingen die hij zag, en faalt als de situatie verandert.

2. De Oplossing: De "Slimme Coach" (Versterking)

PRISM neemt die beginnende robot (de kok) en geeft hem een tweede fase: Versterking Leren.

De Analogie: Nu krijg je een coach die niet alleen kijkt, maar ook feedback geeft. De coach zegt: "Je hebt de taart goed in de vorm gelegd, maar hij viel om omdat je te hard duwde." De robot probeert het opnieuw, maar nu met een kleine aanpassing.
De truc: In plaats van dat de robot helemaal opnieuw moet leren (wat maanden duurt), begint hij waar hij gebleven was. Hij bouwt voort op wat hij al kon.

3. De Magie: "Spreek je wensen uit" (Menselijke instructies)

Dit is het meest bijzondere deel van PRISM. Je hoeft geen programmeur te zijn om de robot te vertellen wat hij moet doen. Je kunt gewoon spreken.

De Analogie: Stel je voor dat je tegen een zeer slimme assistent (een AI) zegt: "Ik wil dat je de taart nu in een vierkante vorm doet, en zorg dat hij niet omvalt."
Hoe werkt het? De AI (in dit geval een groot taalmodel, zoals een super-geavanceerde Chatbot) vertaalt jouw zinnen naar een "puntenstelsel" voor de robot.
- Als de robot de taart rechtop houdt, krijgt hij punten.
- Als hij hem laat vallen, krijgt hij minpunten.
- De robot probeert duizenden keren in de virtuele wereld om het maximale aantal punten te scoren.

4. De "Menselijke Correctie" (De Feedback-Lus)

Soms begrijpt de AI jouw instructie niet helemaal goed, of geeft de robot een raar antwoord. Dan komt de mens weer in beeld.

De Analogie: Je kijkt naar de robot die de taart probeert te maken. Je ziet dat hij de taart wel rechtop houdt, maar hij laat hem te vroeg los. Dan zeg je tegen de AI: "Hij laat te vroeg los, probeer het nog even vast te houden."
Het resultaat: De AI past het puntenstelsel direct aan. De robot leert hierdoor veel sneller dan als hij alleen maar zou proberen en fouten zou maken zonder hulp.

Waarom is dit zo belangrijk?

Het is snel: De robot hoeft niet vanaf nul te leren. Hij gebruikt wat hij al kan (de basisbeweging) en past het alleen aan.
Het is veilig: Omdat de robot eerst leert in een virtuele wereld (een simulator) en pas daarna in de echte wereld, breekt hij geen borden of kopjes.
Iedereen kan het: Je hoeft geen robot-expert te zijn. Je kunt gewoon in gewone taal zeggen wat je wilt, zoals "Draag het glas voorzichtig" of "Zorg dat het niet omvalt".

Samenvatting in één zin

PRISM is als een robot die eerst kijkt hoe jij iets doet, en daarna een slimme coach krijgt die luistert naar wat je zegt en je helpt om het beter, veiliger en precies zo te doen als jij wilt, zonder dat je zelf de code hoeft te schrijven.

In de tests van het onderzoek bleek dat deze methode veel beter werkt dan robots die alleen kijken of robots die alleen maar proberen en fouten maken. Ze zijn sneller, slimmer en kunnen zich aanpassen aan jouw persoonlijke wensen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions", vertaald en weergegeven in het Nederlands.

Probleemstelling

Robotmanipulatie in ongestructureerde omgevingen vereist controllers die zowel data-efficiënt als robuust zijn tegen veranderingen in dynamiek, doelen en beperkingen. Er zijn twee bestaande benaderingen met elk hun eigen tekortkomingen:

Imitatie Leren (IL): Kan snel bekwaam gedrag aanleren vanuit een beperkt aantal demonstraties, maar is kwetsbaar voor gebeurtenissen die afwijken van de trainingsverdeling (out-of-distribution) en mist herstelmogelijkheden.
Versterkend Leren (RL): Kan robuuste en reactieve strategieën ontdekken door exploratie, maar is vaak monster-inefficiënt en onpraktisch om vanaf nul te trainen zonder grote schaal interactie of zorgvuldige beloning-ontwikkeling (reward engineering).

Daarnaast missen generieke IL-beleid vaak de mogelijkheid om te personaliseren voor individuele gebruikersbehoeften (zoals voorkeursgrepen, bewegingssnelheid of gevoeligheid voor contactkrachten), wat essentieel is voor veilige en effectieve samenwerking tussen mens en robot.

Methodologie: Het PRISM Framework

PRISM (Personalized Refinement of Imitation Skills for Manipulation via Human Instructions) is een modulaire pijplijn die Imitatie Leren en Versterkend Leren combineert, geleid door natuurlijke taal-instructies en menselijke feedback. De pijplijn bestaat uit drie hoofdfasen:

1. Data Collectie en Imitatie Leren (Initialisatie)

Data: Een niet-expert gebruiker verzamelt demonstraties via teleoperatie (bijv. VR) in een simulatieomgeving (IsaacSim).
Verwerking: Deze demonstraties worden verwerkt tot een dataset van trajecten ( $\tau$ ) met successlabels en semantische segmentatie (bijv. grijpen, vervoeren, plaatsen).
IL Training: Er wordt een initiële "generieke" beleid (policy) getraind via Behavior Cloning (BC) met een Recurrent Gaussian Mixture Model (GMM-RNN). Dit beleid dient als een sterk gedrags-prior (prior) voor de volgende fase.

2. Versterkend Leren Verfijning (Refinement)

Het IL-beleid wordt verfijnd met behulp van Proximal Policy Optimization (PPO). Om te voorkomen dat het beleid de oorspronkelijke vaardigheden vergeet, wordt een gedrags-matching regularisatie toegevoegd aan de PPO-lossfunctie. Dit houdt het verfijnde beleid dicht bij het originele IL-beleid op de trainingsverdeling.

De verfijning richt zich op twee soorten aanpassingen:

Taakadaptatie: Aanpassing van de doelpositie of -oriëntatie.
Persoonlijke beperkingen: Toevoeging van nieuwe constraints (bijv. een glas rechtop houden tijdens vervoer).

3. Instructie-gedreven Personalisatie (Human-in-the-Loop)

Dit is het kerninnovatiepunt van PRISM:

LLM-gestuurde Beloning: In plaats van handmatig beloningen te ontwerpen, gebruikt het systeem een Large Language Model (LLM, specifiek een adaptatie van Eureka) om beloningsfuncties te genereren op basis van natuurlijke taal-instructies.
Hybride Feedback Loop: Het proces is iteratief.
1. De LLM genereert beloningskandidaten op basis van de taakinstructie.
2. Het RL-agent traint en voert rollouts uit.
3. Menselijke Correctie: Na een bepaald aantal iteraties (N) geeft de gebruiker specifieke, kwalitatieve feedback op de rollouts (bijv. "In rollout A wordt het blok wel geplaatst, maar niet rechtop gehouden").
4. Deze feedback wordt gebruikt om de instructie voor de LLM te verfijnen, wat leidt tot een betere beloningsfunctie.
Dit creëert een cyclus van Automatische Generatie + Menselijke Correctie, waardoor het systeem snel convergeert zonder constante menselijke supervisie.

Belangrijkste Bijdragen

Seamless Pipeline: Een geïntegreerde aanpak die IL en RL combineert, waarbij IL zorgt voor data-efficiëntie en RL voor robuustheid en aanpassing.
Instructie-gedreven Personalisatie: Een methode om beleidsstrategieën aan te passen aan nieuwe doelen en beperkingen via natuurlijke taal, zonder dat een expert beloningsfuncties hoeft te programmeren.
Hybride Mens-Machine Feedback: Een mechanisme dat de kracht van LLM's (voor automatische beloningsgeneratie) combineert met gerichte menselijke correcties, wat leidt tot snellere convergentie dan volledig geautomatiseerde methoden.
Behoud van Priors: Door regularisatie tijdens het RL-proces worden de oorspronkelijke vaardigheden behouden, wat voorkomt dat het robot "beloning exploiteert" (reward hacking) of fundamentele vaardigheden vergeet.

Resultaten

De methode werd getest in een gesimuleerde omgeving (IsaacSim) met een "pick-and-place" taak:

Opdracht: Een generiek beleid (ontwikkeld voor het "gooien" van een blok in een kast) werd getransformeerd naar een beleid dat het blok moet "plaatsen" op een tafel terwijl het rechtop blijft staan.
Prestaties:
- Het pure IL-beleid had een succesratio van slechts 21,2%.
- Het verfijnde PRISM-beleid bereikte een succesratio van 96,8%.
- De totale trainingsduur was ongeveer 4 uur.
Vergelijking:
- PRISM presteerde aanzienlijk beter dan een puur RL-benadering zonder IL-initialisatie (die faalde na 10 iteraties).
- De hybride aanpak (LLM + menselijke feedback) convergeerde sneller en was stabieler dan een volledig geautomatiseerde LLM-aanpak.
- Het verminderde de rekenlast en verbeterde de robuustheid bij implementatie.

Betekenis en Toekomstperspectief

PRISM toont aan dat het mogelijk is om robotmanipulatievaardigheden snel en effectief te personaliseren voor niet-expert gebruikers zonder zware technische kennis van beloningsontwerp.

Efficiëntie: Het reduceert de complexiteit van het monster (sample complexity) en elimineert de noodzaak voor dure, handmatige beloning-engineering.
Toepasbaarheid: Het biedt een praktische route naar aanpasbare robotsystemen die kunnen omgaan met variaties in doelen en gebruikersvoorkeuren.
Beperkingen & Toekomst: De huidige resultaten zijn puur gesimuleerd. Toekomstig werk moet zich richten op de "sim-to-real" kloof, het testen met diverse gebruikersgroepen, en het ontwikkelen van strategieën voor continue personalisatie op echte hardware.

Kortom, PRISM is een doorbraak in het maken van robots die niet alleen leren wat ze moeten doen, maar ook hoe een specifieke gebruiker dat graag wil zien, via een intuïtief taalinterface.