SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een mensachtige robot wilt leren lopen. Normaal gesproken leer je dit door de robot een "godsoog" te geven: de robot weet precies waar hij staat, hoe snel hij gaat, en hoe zijn lichaam in de ruimte beweegt. Dit is als een piloot die een vliegtuig bestuurt met een perfecte radar en GPS.

Het probleem? In de echte wereld hebben robots die radar niet. Ze hebben alleen sensoren in hun eigen lichaam (zoals een mens die zijn evenwicht voelt zonder naar de horizon te kijken). Als je de robot die "godsoog" informatie wegneemt, valt hij vaak om, omdat hij niet meer weet hoe snel hij beweegt of waar zijn voeten zijn.

De onderzoekers van dit paper, SCDP, hebben een slimme oplossing bedacht om deze robot te leren lopen zonder die externe radar. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Grote Uitdaging: De "Blinde" Student

Stel je voor dat je een student (de robot) wilt leren fietsen.

De oude methode: Je geeft de student een bril die hem precies laat zien hoe snel hij rijdt en hoe de weg eruitziet. Hij leert makkelijk, maar als je de bril afhaalt, valt hij direct.
Het probleem: In de echte wereld hebben we die bril niet. We moeten de robot leren fietsen met alleen zijn eigen zintuigen (spieren en evenwicht), zonder te weten hoe snel hij precies gaat.

2. De Oplossing: "Mixed-Observation Distillation" (De Slimme Oefening)

De onderzoekers gebruiken een truc die ze "Mixed-Observation Distillation" noemen. Dit klinkt ingewikkeld, maar het is eigenlijk als een slimme trainingsmethode:

De Oefening: Tijdens het trainen in de computer (de simulatie) krijgen de robot-sensoren alleen de "blinde" informatie (zoals: "mijn knieën buigen" en "ik voel een duw").
De Geheimhouding: Maar de docent (de computer) weet nog steeds precies hoe snel de robot gaat en waar hij staat.
De Opdracht: De robot moet nu, puur op basis van zijn eigen "blinde" gevoel, voorspellen wat de docent ziet. Hij moet zeggen: "Als mijn knieën zo buigen en ik voel deze duw, dan moet ik nu eigenlijk 2 meter per seconde gaan."

Het is alsof je iemand leert schatten hoeveel water er in een emmer zit, alleen door naar het gewicht van de emmer in je hand te kijken, terwijl je een meetlat in je andere hand hebt om het antwoord te controleren. Na veel oefening leert de robot de "gevoelens" van snelheid en positie te interpreteren, zonder dat hij de meetlat (de externe sensoren) nodig heeft.

3. De Slimme Trucjes (De "Magie")

Om dit te laten werken, hebben ze nog drie specifieke trucs gebruikt:

De "Verboden" Snelheid (Restricted Denoising):
Normaal gesproken zou de robot tijdens het leren kunnen "valsspelen" door gewoon naar de snelheidsmeter te kijken. De onderzoekers hebben de snelheidsmeter tijdens het trainen voor de robot verborgen, maar de docent kijkt er nog steeds naar. De robot wordt zo gedwongen om de snelheid te voelen in plaats van hem te lezen. Hij leert een intern gevoel voor snelheid ontwikkelen.
De Context-Match (Context Distribution Alignment):
Soms leert een robot iets in de klas dat hij in het echt niet herkent. Hier zorgen ze ervoor dat de situatie waarin de robot traint (met ruis en onzekerheid) precies hetzelfde is als de situatie waarin hij later moet werken. Het is alsof je een piloot traint in een simulator met dezelfde storm en turbulentie als in het echt, zodat hij niet in paniek raakt.
De "Tijd-Reizende" Aandacht (Context-Aware Attention):
De robot kijkt niet alleen naar wat er nu gebeurt, maar onthoudt ook wat er de afgelopen seconden is gebeurd. Het is als een danser die niet alleen naar zijn eigen voeten kijkt, maar ook onthoudt hoe hij de vorige maat bewoog, om te voorspellen waar hij nu moet staan.

4. Het Resultaat: Een Robot die "Voelt"

In de simulatie en op een echte robot (de Unitree G1) werkt dit wonderbaarlijk goed:

De robot loopt stabiel, zelfs als hij wordt duwt of getrokken.
Hij kan precies volgen waar hij naartoe moet, zonder dat iemand hem via een computer vertelt hoe snel hij gaat.
Hij presteert net zo goed als robots die wel die "godsoog" informatie hebben, maar dan puur op basis van wat hij zelf voelt.

Kortom:
Deze paper laat zien dat je een robot niet nodig hebt met een supercomputer en externe sensoren om te laten lopen. Door slimme trainingsmethoden te gebruiken, kun je de robot leren om zijn eigen "innerlijk gevoel" te vertrouwen, net zoals een mens dat doet. Het is een grote stap naar robots die echt veilig en zelfstandig in onze wereld kunnen bewegen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation" in het Nederlands.

Titel en Context

Titel: SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation
Auteurs: Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou en Zhibin Li (University College London)
Doel: Het ontwikkelen van een besturingsframework voor humanoïde robots dat kan leren bewegen op basis van uitsluitend aan boord aanwezige sensoren (proprioceptie), zonder afhankelijk te zijn van onbetrouwbare of complexe schattingen van de volledige toestand (zoals globale positie of snelheid).

1. Het Probleem

Bestaande methoden voor het besturen van humanoïde robots (vaak gebaseerd op versterkingslering of diffusiemodellen) vertrouwen tijdens de implementatie op geprivilegieerde informatie. Dit betekent dat ze toegang hebben tot de volledige toestand van het lichaam, inclusief:

Globale positie en oriëntatie.
Basisversnelling en -snelheid.
Posities van stijve lichaamsonderdelen.

In de praktijk (buiten de labomgeving) zijn deze gegevens niet direct beschikbaar. Ze moeten worden geschat via complexe state-estimation pipelines (bijv. via motion capture of IMU-fusie), wat vaak onbetrouwbaar is. Als deze geprivilegieerde input wordt verwijderd en de robot alleen toegang heeft tot onboard-sensoren (zoals gewrichtshoeken, hoeksnelheden en versnellingen), presteren bestaande diffusiemodellen dramatisch slecht en leiden ze tot catastrofale fouten. Dit creëert een gedeeltelijk waarneembare Markov-besluitingsproces (POMDP), waarbij het beleid de verborgen globale toestand moet infereren uit onvolledige waarnemingen.

2. Methodologie: SCDP

De auteurs stellen Sensor-Conditioned Diffusion Policies (SCDP) voor. Dit is een framework dat een expert-beleid (getraind met versterkingslering) distilleert naar een diffusiemodel dat werkt met alleen onboard-sensoren. De kern van de methode is het ontkoppelen van waarneming en supervisie tijdens het trainen.

A. Mixed-Observation Distillation (Gekombineerde Waarnemingsdistillatie)

Trainingsopzet: Het diffusiemodel wordt getraind met een asymmetrische setup:
- Input (Conditioning): Het model kijkt alleen naar de geschiedenis van onboard-sensoren ( $o_t$ ) en commando's.
- Supervisie (Target): Het model wordt echter getraind om de toekomstige trajecten te voorspellen die de geprivilegieerde volledige toestand ( $s_t$ ) bevatten.
Effect: Deze asymmetrie dwingt het model om een intern, impliciet model van de globale lichaamsdynamica te leren. Het moet de verborgen snelheid en positie "afleiden" uit de historische sensordata, waardoor expliciete state-estimation tijdens de implementatie overbodig wordt.

B. Beperkte Denoising (Restricted Denoising)

Een specifiek probleem is dat modellen tijdens het trainen een "shortcut" kunnen nemen door de versnelingsinformatie direct uit de noisige input te halen.

Oplossing: De auteurs verwijderen de pelvis-lineaire snelheid ( $v_{pelvis}$ ) uit de input voor het denoising-proces, maar behouden deze wel in het trainingsdoel (supervisie).
Resultaat: Het model wordt gedwongen om de snelheid puur te infereren uit de context (historische sensoren en acties), wat robuuste snelheidsschatting mogelijk maakt zonder directe snelheidsfeedback.

C. Context Distributie Alignering (Context Distribution Alignment)

Om de kloof tussen training en implementatie te dichten:

Tijdens training wordt de context (de input voor het model) gegenereerd met verstoord gedrag (noisy actions), net zoals het model dit tijdens de inferentie zal ervaren (waar het model zelf fouten maakt).
Dit voorkomt een distributiemismatch en behoudt de causale relatie tussen toestand, actie en volgende toestand.

D. Context-bewuste Attention Maskering

In tegenstelling tot eerdere werken die strikte causale maskers gebruiken, staat SCDP bidirectionele attention toe binnen het contextvenster (de geschiedenis).

Dit stelt het model in staat om informatie uit het verleden en de toekomst binnen het venster te aggregeren om latente dynamica te infereren, terwijl causale beperkingen alleen gelden voor de voorspellingshorizon.

3. Belangrijkste Bijdragen

Mixed-Observation Training: Een trainingsparadigma dat het mogelijk maakt om globale dynamica te leren uit partiële sensoren door supervisie op geprivilegieerde data te combineren met sensor-only input.
Restricted Denoising: Een techniek om het model te dwingen snelheid te infereren uit context in plaats van deze direct te gebruiken als input.
Context Alignment & Attention: Methodes om de trainingsdistributie af te stemmen op de implementatie en de inferentie van dynamica te verbeteren.
Real-World Validatie: Succesvolle implementatie op een fysieke Unitree G1 humanoïde robot met een frequentie van 50 Hz, zonder externe motion capture of state-estimation.

4. Resultaten

De methode is getest in simulatie (IsaacLab) en op de echte robot.

Simulatie-resultaten:

Snelheidscontrole: SCDP bereikte een succespercentage van 99–100% bij navigatie en joystick-besturing, vergelijkbaar met methoden die geprivilegieerde data gebruiken.
Stabiliteit: Bij verstoringen (pushes) en waypoint-navigatie behaalde SCDP bijna perfecte scores, terwijl methoden zonder deze technieken (bijv. alleen context-observaties) faalden (<10-20% succes).
Bewegingstracking: Op de AMASS-testset bereikte SCDP een 93% succespercentage bij het volgen van complexe bewegingsreferenties, significant beter dan Behavior Cloning (31%) en vergelijkbaar met de expert-omgrens.
Ablatie-studies:
- Zonder "Mixed-Observation" faalde het model volledig (1,4% succes).
- "Representation Alignment" (een extra loss-functie) bleek schadelijk en werd verwijderd.
- Een contextlengte van 8 stappen bleek optimaal; langere geschiedenissen leidden tot degradatie door cumulatieve fouten.

Real-World Deploy (Unitree G1):

Het beleid draait op 50 Hz op een externe workstation (RTX 5090) en communiceert met de robot.
De robot toonde robuust lopen, snelheidsregeling en het uitvoeren van commando's (vooruit, achteruit, draaien) zonder externe sensoren.
Er was een lichte vertraging (~250-500 ms) bij richtingwissels, maar de tracking was soepel met minder oscillaties dan bestaande baselines.

5. Betekenis en Conclusie

Dit paper is een doorbraak in het veld van humanoïde robotbesturing omdat het de afhankelijkheid van onbetrouwbare state-estimation doorbreekt.

Sim-to-Real Transfer: Het bewijst dat complexe, generatieve modellen (diffusie) succesvol kunnen worden gedistilleerd naar realistische, sensor-only scenario's.
Praktische Toepasbaarheid: Het maakt humanoïde robots inzetbaar in onvoorspelbare omgevingen waar geen motion capture of GPS beschikbaar is.
Algemene Gültigheid: De technieken (zoals mixed-observation distillatie) bieden een nieuwe richting voor het trainen van robuuste beleidsmodellen in POMDP-omgevingen, niet alleen voor lopen maar ook voor andere complexe taken.

Samenvattend toont SCDP aan dat het mogelijk is om "slimme" locomotie te leren die de globale toestand intern reconstrueert, puur op basis van wat de robot zelf kan voelen, zonder dat er externe "god's eye view" data nodig is.