Learning Acrobatic Flight from Preferences

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een drone wilt leren om acrobatische trucs te doen, zoals een perfecte loop-de-loop of een verticale acht. Vroeger was dit een enorme klus voor programmeurs. Je moest als een strenge leraar elke beweging in detail uitleggen met een lijstje regels: "Als de drone te snel draait, krijg je een straf. Als hij te laag vliegt, krijg je een straf." Dit noemen we een beloningssysteem.

Het probleem is dat dit heel lastig is. Net als bij het beoordelen van een dansoptreden of een schilderij, is "mooi" of "goed" vaak subjectief. Een programmeur kan niet precies in woorden vatten waarom een bepaalde loop-de-loop er "strakker" uitziet dan een andere. In dit onderzoek ontdekten ze dat hun handgemaakte regels maar in 60% van de gevallen overeenkwamen met wat een mens echt mooi vond. De andere 40% was gewoon verkeerd.

De Oplossing: Leer van Meningen, niet van Regels

De auteurs van dit paper (Colin Merk, Ismail Geles en hun team) hebben een slimme nieuwe manier bedacht, genaamd REC. In plaats van de drone te vertellen wat hij moet doen, laten ze hem leren van meningen.

Stel je voor dat je een jonge danser hebt die nog nooit heeft gedanst.

De oude manier: Je geeft hem een boek met 1000 regels over hoe hij zijn armen moet bewegen.
De nieuwe manier (REC): Je laat hem twee dansjes doen. Vervolgens vraag je aan een toeschouwer: "Welke vond je mooier?" De drone kijkt naar het antwoord, probeert het, en vraagt weer: "Welke was nu beter?" Zo leert hij langzaam wat "mooi" is, zonder dat iemand de regels hoeft op te schrijven.

Het Geniale Detail: De "Onzekerheids-Ensemble"

Maar er zit een addertje onder het gras. Soms zijn twee dansjes bijna even goed. Dan is het antwoord van de toeschouwer willekeurig of onzeker. Als je een computer dat vertelt, kan hij in de war raken en denken dat hij het allemaal al perfect weet, terwijl hij eigenlijk niets begrijpt.

Hier komt de REC-methode om de hoek kijken. Ze gebruiken een slim trucje dat we een "Ensemble van Twijfelaars" kunnen noemen.

Stel je voor dat je niet één leraar hebt, maar een klas van 5 leraren die samen een oordeel vellen.

Ze kijken allebei naar twee dansjes.
Als ze het eens zijn ("Dit is duidelijk beter!"), dan is de drone zeker van zijn zaak.
Maar als ze het oneens zijn ("Ik vind A beter, maar ik vind B ook wel leuk"), dan weet de drone: "Aha, hier ben ik nog niet zeker van!"

In plaats van deze onzekerheid te negeren, gebruikt de drone deze twijfel als een kompas. Hij denkt: "Omdat mijn leraren het niet eens zijn over dit stukje, moet ik daar nog eens gaan oefenen!" Dit zorgt ervoor dat de drone niet vastloopt in een slechte routine, maar blijft zoeken naar de echte beste manier om te vliegen.

Wat hebben ze bereikt?

De onderzoekers hebben dit getest in een computerwereld en vervolgens op een echte drone van 220 gram (ongeveer het gewicht van een paar appels).

Resultaat: De drone die leerde van meningen met hun nieuwe "Onzekerheids-truc" (REC), deed het 88% zo goed als de drone die werd geleid door de perfecte, maar onmogelijke, handgemaakte regels. De oude methode (zonder de twijfel-truc) haalde maar 55%.
De Toekomst: Ze leerden de drone zelfs een nieuwe truc (een verticale acht) die ze nog nooit eerder hadden bedacht, puur door te zeggen: "Nee, die was niet mooi, probeer het anders." Geen enkele regel werd hiervoor geschreven.

Waarom is dit belangrijk?

Dit onderzoek laat zien dat we robots niet hoeven te dwingen met complexe lijsten van regels. We kunnen ze juist laten leren door te vragen: "Wat vind jij mooier?"

Het is alsof we stoppen met het schrijven van een strikt handboek voor een chef-kok, en in plaats daarvan gewoon zeggen: "Probeer deze twee gerechten, en vertel me welke je lekkerder vindt." Uiteindelijk wordt de kok (of de drone) hierdoor creatiever, flexibeler en beter in het doen van dingen die moeilijk in woorden te vatten zijn, zoals acrobatiek.

Kortom: REC is de slimme manier om robots te leren vliegen door te luisteren naar wat mensen vinden, en slim om te gaan met de twijfel die daarbij hoort.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De kernuitdaging bij het toepassen van versterkend leren (Reinforcement Learning - RL) op complexe, subjectieve taken zoals acrobatische vluchtmanoeuvres met drones, is het ontwerpen van effectieve beloningsfuncties (reward functions).

Subjektiviteit: De kwaliteit van acrobatische bewegingen hangt vaak af van menselijke voorkeuren (zoals vloeiendheid, timing en stijl) die moeilijk te formaliseren zijn in wiskundige regels.
Menselijke oordeelsvorming: Handmatig ontworpen beloningsfuncties blijken slechts in 60,7% van de gevallen overeen te komen met menselijke beoordelingen. Dit betekent dat traditionele RL-methoden vaak suboptimale of onnatuurlijke gedragingen leren omdat de beloning de werkelijke menselijke intentie niet goed vastlegt.
Onzekerheid: Bestaande methoden voor voorkeursgebaseerd RL (Preference-based RL of PbRL) negeren vaak de inherente onzekerheid in menselijke voorkeuren, wat kan leiden tot instabiel leren of overfitting op ruis.

Methodologie: Reward Ensemble under Confidence (REC)

De auteurs stellen REC voor, een probabilistisch framework voor voorkeursgebaseerd RL dat specifiek is ontworpen om onzekerheid in beloningen te modelleren en te benutten.

Probabilistische Beloningsmodellen:
- In plaats van één deterministisch beloningsmodel te gebruiken, maakt REC gebruik van een ensemble van distributionele beloningsmodellen (meerdere neurale netwerken).
- Elk model in het ensemble voorspelt niet alleen een beloningswaarde, maar ook de onzekerheid (standaardafwijking) per tijdstip.
- De voorkeur tussen twee trajecten ( $\tau_1$ en $\tau_2$ ) wordt niet berekend via de standaard Bradley-Terry softmax, maar via een Gaussische cumulatieve verdelingsfunctie (CDF). Hierbij wordt de kans berekend dat de totale beloning van $\tau_1$ hoger is dan die van $\tau_2$ , rekening houdend met de onzekerheid van beide trajecten.
Verkenning via Onzekerheid (Exploration):
- REC gebruikt de onenigheid (disagreement) tussen de leden van het ensemble om verkenning te stimuleren.
- Een ruisige aggregatiestrategie voegt een positieve beloningsbonus toe in gebieden waar het ensemble het oneens is (hoge onzekerheid). Dit moedigt de agent aan om toestanden te bezoeken waar de beloningsfunctie nog niet goed begrepen is, wat cruciaal is voor het ontdekken van complexe acrobatische manoeuvres.
Ensemble Resetting:
- Om te voorkomen dat alle leden van het ensemble convergeren naar identieke voorspellingen (wat de onzekerheidsschattingen ongeldig maakt), worden de slechtst presterende leden van het ensemble periodiek opnieuw geïnitieerd (reset) op basis van hun prestatie op nieuwe voorkeurslabels.
Trainingsflow:
- Trajecten worden gepresenteerd aan een annotator (mens of synthetisch) voor vergelijking.
- Deze labels trainen het ensemble.
- Het beleid (policy) wordt geoptimaliseerd via PPO (Proximal Policy Optimization) met de onzekerheidsbewuste beloningssignalen.
- De getrainde beleidsregels worden zero-shot overgebracht naar de echte wereld (Sim2Real) zonder verdere fijnafstelling.

Belangrijkste Bijdragen

REC Framework: Introductie van een probabilistisch beloningsleerframework dat per-tijdstip onzekerheid modelleert binnen een ensemble, vervangend voor de standaard deterministische aanpak.
Verbeterde Prestaties: Aantonen dat REC 88,4% van de prestaties van een handmatig ontworpen beloningsfunctie bereikt bij acrobatische quadrotor-besturing, vergeleken met slechts 55,2% voor standaard Preference PPO.
Sim2Real Transfer: Succesvolle overdracht van in simulatie getrainde beleidsregels naar een echte 220g drone, waarbij complexe manoeuvres zoals continue powerloops en een nieuwe verticale "Figure-8" (dubbele powerloop) worden uitgevoerd puur op basis van voorkeursfeedback.
Validatie van Subjectiviteit: Empirisch bewijs dat handmatige beloningsfuncties slechts in 60,7% van de gevallen overeenkomen met menselijk oordeel, wat de noodzaak onderstreept van voorkeursgebaseerde benaderingen voor subjectieve taken.

Resultaten

Simulatie (Quadrotor): REC bereikte een gemiddelde evaluatiebeloning van 382,4 (op een schaal waarbij de handmatige beloning 432,4 is), wat een aanzienlijke verbetering is ten opzichte van de 238,9 van standaard Preference PPO. Bovendien vertoonde REC een veel lagere variantie tussen verschillende trainingsscheuten (seeds), wat wijst op robuuster leren.
Benchmark (DM Control): Op de "walker-walk" taak uit de DM Control Suite bevestigde REC de generaliseerbaarheid van de methode, waarbij alle componenten (probabilistische loss, ruis, ensemble reset) bijdroegen aan betere of stabielere resultaten.
Real-World Deploy: De methoden slaagden erin om acrobatische figuren op een echte drone uit te voeren zonder enige handmatige beloning of hyperparameter-aanpassing voor de echte wereld. De menselijk getrainde agent slaagde er zelfs in om een nieuw manoeuvre (verticale Figure-8) te leren dat niet in de simulatie was gespecificeerd.

Betekenis en Conclusie

Dit werk markeert een belangrijke stap in de toepassing van RL op fysieke robotsystemen met complexe dynamica. Het toont aan dat:

Menselijke voorkeuren superieur kunnen zijn aan handmatige beloningsontwerpen voor subjectieve taken zoals acrobatiek.
Het modelleren van onzekerheid essentieel is voor stabiel en efficiënt leren in voorkeursgebaseerde RL, vooral bij uitdagende verkenningstaken.
Zero-shot Sim2Real transfer mogelijk is voor complexe acrobatische manoeuvres wanneer het systeem wordt getraind op voorkeursdata in plaats van op gedetailleerde fysieke beloningen.

De studie suggereert dat toekomstige systemen voor robotica minder afhankelijk moeten zijn van ingenieurs die complexe beloningsfuncties ontwerpen, en meer kunnen vertrouwen op relatieve menselijke feedback, mits de inherente onzekerheid in die feedback correct wordt gemodelleerd.

Learning Acrobatic Flight from Preferences

De Oplossing: Leer van Meningen, niet van Regels

Het Geniale Detail: De "Onzekerheids-Ensemble"

Wat hebben ze bereikt?

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Reward Ensemble under Confidence (REC)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression