Embedding Morphology into Transformers for Cross-Robot Policy Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om te koken. Als je een robot met lange, dunne armen (zoals een kraanarm) en een robot met korte, stevige armen (zoals een menselijke hand) precies hetzelfde wilt laten doen, krijg je vaak problemen. De eerste robot moet zijn arm heel anders bewegen dan de tweede om dezelfde kom te pakken.

Tot nu toe waren de slimste robothersenen (zogenaamde "Transformers", net als de AI die dit artikel schrijft) een beetje als een zwakke student die alles uit het hoofd moet leren zonder hulpmiddelen. Ze zagen alleen de beelden van de robot in actie, maar wisten niet hoe de robot eruitzag of hoe zijn gewrichten samenwerkten. Ze moesten zelf raden: "Oh, als deze schouder beweegt, moet die elleboog ook wel iets doen." Dat kost veel tijd, veel data en werkt vaak niet goed als je de robot verwisselt.

De auteurs van dit paper hebben een oplossing bedacht: Ze geven de robot een "anatomieboek" in zijn hoofd.

Ze noemen hun methode het "inbedden van morfologie" (lichaamsbouw) in de AI. Hier is hoe ze dat doen, vertaald naar drie simpele concepten:

1. De "Gewricht-Notitieblokjes" (Kinematic Tokens)

Stel je voor dat de robot normaal gesproken een lange, rommelige lijst met instructies krijgt: "Beweeg arm, draai hand, pak object..."
De auteurs zeggen: "Nee, laten we dat opdelen."
In plaats van één grote boodschap, geven ze de robot specifieke notitieblokjes voor elk gewricht.

De analogie: Het is alsof je in plaats van één lange brief aan je hele familie stuurt, nu een kort, duidelijk berichtje stuurt naar je vader, een ander naar je moeder en een derde naar je broer.
Het effect: De robot ziet direct: "Ah, dit is wat mijn linkerelleboog moet doen, en dit is wat mijn pols moet doen." Dit maakt het veel makkelijker om te begrijpen hoe de verschillende onderdelen samenwerken, ongeacht of de robot lang of kort is.

2. De "Sociale Regels" (Topology-Aware Attention)

In een gewone AI mag elk stukje informatie met elk ander stukje praten. Dat is als een drukke feestzaal waar iedereen tegen iedereen schreeuwt.
Maar een robot heeft een vaste structuur: je hand is verbonden met je pols, die met je elleboog, en die met je schouder. Je hand kan niet direct met je schouder praten zonder via de pols te gaan.
De auteurs voegen sociale regels toe aan het gesprek van de robot:

De analogie: Stel je voor dat je een gesprek voert in een huis. Normaal mag iedereen tegen iedereen praten. Maar met deze nieuwe regel geldt: "Je mag alleen praten met de mensen in dezelfde kamer of de kamer direct ernaast."
Het effect: De robot leert sneller dat bewegingen logisch moeten doorgeven van het ene gewricht naar het andere. Ze hebben een slimme truc bedacht waarbij ze soms deze regels streng toepassen (alleen buren) en soms loslaten (hele huis), zodat de robot zowel lokale details als het grote plaatje ziet.

3. De "Persoonlijke Identiteitskaart" (Joint-Attribute Conditioning)

Soms zien twee gewrichten er in het netwerk hetzelfde uit, maar doen ze iets heel anders. Een gewricht dat alleen kan draaien (zoals een knie) is anders dan een gewricht dat kan schuiven (zoals een verstelbare stoel).
De auteurs geven elk gewricht een persoonlijke identiteitskaart.

De analogie: Het is alsof je op een feestje niet alleen zegt "Ik praat met de persoon links van me", maar je weet ook: "Ah, die persoon links is mijn broer die graag over voetbal praat, en die rechts is mijn tante die van muziek houdt."
Het effect: De robot weet niet alleen wie verbonden is met wie, maar ook wat elk gewricht kan. Is het een draaiend gewricht? Is het een schuivend gewricht? Hoe ver mag het bewegen? Dit helpt de robot om de juiste bewegingen te kiezen voor dat specifieke type gewricht.

Wat is het resultaat?

Toen ze deze drie dingen combineerden, gebeurde er iets magisch:

Binnen één robot: De robot werd sneller en stabieler in het leren van taken.
Tussen verschillende robots: Dit is het echte krachtige deel. Als je deze robot leert op een "Franka Panda" (een type robotarm) en hem daarna zomaar op een "Unitree G1" (een ander type robot) zet, werkt hij veel beter dan de oude modellen.

Kortom:
Vroeger moesten robothersenen raden hoe een lichaam eruitzag. Nu krijgen ze een bouwtekening en een handleiding mee. Hierdoor kunnen ze zich veel sneller aanpassen aan nieuwe lichamen, net zoals een mens die goed weet hoe zijn eigen lichaam werkt, zich makkelijker aanpast aan een nieuwe fiets of een nieuw paard dan iemand die dat niet begrijpt.

Dit is een stap in de richting van robots die niet voor één specifieke machine zijn gemaakt, maar echte "all-rounders" kunnen worden die overal en met elk type robotlichaam kunnen werken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Cross-robot policy learning (het trainen van één beleid dat goed presteert over meerdere robotlichamen) blijft een centrale uitdaging in robotica. Bestaande Transformer-gebaseerde beleidsmodellen, zoals Vision-Language-Action (VLA) modellen (bijv. $\pi0.5$ ), zijn doorgaans embodiment-agnostisch. Dit betekent dat ze de kinematische structuur van de robot (hoe de gewrichten met elkaar verbonden zijn) puur impliciet moeten afleiden uit waarnemingen.
Dit leidt tot twee hoofdproblemen:

Verlaagde robuustheid: Het beleid presteert minder goed wanneer het wordt overgebracht naar een ander robotplatform of wanneer er hardware-variaties optreden.
Beperkte prestaties: Zelfs binnen één enkel robotlichaam kan het ontbreken van expliciete structuur de prestaties beperken, omdat het model de coördinatie tussen gewrichten moet "leren" zonder de fysieke connectiviteit te kennen.

Bestaande methoden die robot-morfologie proberen in te bouwen (zoals Graph Neural Networks of topologie-bewuste attention), stuiten op drie beperkingen:

Gebrek aan een interface voor kinematische tokens in moderne VLA-modellen die actie-tokens comprimeren.
Een afweging tussen lokale en globale interacties in topologie-bewuste attention (te veel restrictie beperkt langeafstandscoördinatie).
Het ontbreken van gewrichtssemantiek: bestaande methoden kennen alleen de connectiviteit, maar niet de functie van een gewricht (bijv. type, asrichting, limieten).

Methodologie

De auteurs stellen een embodiment-bewuste Transformer-policy voor die robot-morfologie expliciet injecteert via drie mechanismen:

1. Kinematische Tokens (Kinematic Tokens - KT)

In plaats van alle gewrichten te comprimeren tot één actie-token per tijdstip (zoals in $\pi0.5$ ), worden de acties ontbonden in de ruimtelijke domein (per gewricht).

De tijdsreeks wordt opgedeeld in tijdsblokken (chunks).
Voor elk gewricht $j$ en elk blok $k$ wordt een kinematische token gegenereerd die de acties van dat gewricht over dat tijdsblok samenvat.
Dit creëert een compacte, per-gewricht weergave die de ruimtelijke structuur benadrukt en de basis vormt voor het inbrengen van topologie en semantiek.
Er worden ook Auxiliary Kinematic Tokens (AKT) geïntroduceerd om de token-capaciteit per gewricht te vergroten via extra encoders.

2. Topologie-bewuste Attention Bias

De auteurs moduleren de self-attention in de Transformer om de kinematische topologie (het graaf van verbonden gewrichten) als inductieve bias te gebruiken. Er worden drie varianten onderzocht:

Hard-Mask (Full-Mask): Toestemming is strikt beperkt tot het gewricht zelf en zijn directe buren (1-hop) in de kinematische graaf. Dit bevordert lokale berichtoverdracht maar kan globale coördinatie belemmeren.
Mix-Mask: Een hybride aanpak waarbij lagen afwisselen tussen hard-gemaskerde (lokale) lagen en volledig verbonden (globale) lagen. Dit balanceert lokale interactie met globale context.
Soft-Mask: Gebruikt een leerbare bias gebaseerd op de kortste pad-afstand (Shortest Path Distance) in de graaf. Dit geeft voorkeur aan nabijgelegen gewrichten zonder andere paren volledig te blokkeren.

3. Conditioning op Gewrichtsattributen (Joint-attribute Conditioning)

Topologie alleen is niet genoeg; gewrichten met dezelfde connectiviteit kunnen verschillende functies hebben.

Voor elk gewricht wordt een descriptor $s_j$ gedefinieerd die eigenschappen bevat zoals: gewrichtstype (prismatisch/revolutoir), asrichting, bewegingslimieten, en contacteigenschappen (wrijving, demping).
Deze descriptors worden gebruikt om de embedding van de kinematische token te moduleren via Feature-wise Linear Modulation (FiLM). Dit zorgt ervoor dat het model niet alleen weet hoe gewrichten verbonden zijn, maar ook wat ze doen.

Belangrijkste Bijdragen

Architecturale Innovatie: De eerste integratie van morfologie in een state-of-the-art VLA-architectuur ( $\pi0.5$ ) via een combinatie van kinematische tokens, topologie-bias en semantische conditioning.
Oplossing voor Token-Interface: Het introduceren van kinematische tokens lost het probleem op van het toepassen van morfologische priors in modellen die actie-tokens comprimeren.
Balans Local/Global: De "Mix-Mask" strategie lost het compromis op tussen strikte lokale beperkingen en noodzakelijke globale coördinatie.
Semantische Verrijking: Het toevoegen van gewrichtsattributen (FiLM) gaat verder dan alleen connectiviteit en verbetert de disambiguatie van gewrichtsrollen.

Resultaten

De methode is geëvalueerd op drie verschillende robotplatforms: DROID (Franka Panda), Unitree G1 Dex1, en SO101.

Single-Embodiment Evaluatie (DROID):
- De baseline $\pi0.5$ had een gemiddelde succesratio (SR) van 19,7%.
- Alleen het toevoegen van kinematische tokens verhoogde dit naar 36,0%.
- De combinatie van alle drie de componenten (KT + Mix-Mask + FiLM) bereikte de beste prestatie met een SR van 47,4%.
- Specifiek voor taak 2 en 3 werden successraties met een factor 5 en 2,3 verbeterd.
Single-Embodiment Evaluatie (Unitree G1 Dex1):
- De methode bleef effectief op dit platform met 16-DoF actieruimte. De beste configuratie (KT + Mix-Mask + FiLM) bereikte een SR van 28,0%, vergeleken met 24,7% voor de baseline.
Multi-Embodiment Evaluatie (DROID + SO101):
- Bij gezamenlijk trainen op twee verschillende robots (8-DoF vs 6-DoF) presteerde het embodiment-bewuste model consistent beter dan de baseline gedurende het hele trainingsproces.
- Op 50k trainingsstappen bereikte het voorgestelde model een Macro SR van 15,5% tegenover slechts 5,0% voor de baseline.
Ablatiestudies:
- Chunk-grootte: Een enkele tijdschunk ( $G=1$ ) bleek het meest effectief.
- Auxiliary Tokens: Het toevoegen van AKT verbeterde de prestaties aanzienlijk, vooral in combinatie met Mix-Mask.
- Soft-Mask vs. Hard-Mask: Hoewel Soft-Mask flexibeler is, presteerden Hard-Mask varianten (vooral Mix-Mask) consistent beter en stabieler.

Betekenis en Impact

Dit werk is significant omdat het een brug slaat tussen de flexibiliteit van grote Transformer-modellen en de fysieke realiteit van robotica. Door morfologie expliciet te coderen in de architectuur, wordt de noodzaak voor per-robot fijnafstemming (fine-tuning) verminderd en wordt de robuustheid van beleidsmodellen over verschillende platforms verhoogd.

Dit is een belangrijke stap richting algemene robotica-fundatiemodellen die zich kunnen aanpassen aan nieuwe taken, omgevingen en robotlichamen zonder volledige hertraining, vergelijkbaar met de flexibiliteit van menselijke intelligentie. De resultaten suggereren dat het inbrengen van fysieke inductieve prioren essentieel is voor schaalbare en betrouwbare robotbesturing.

Embedding Morphology into Transformers for Cross-Robot Policy Learning

1. De "Gewricht-Notitieblokjes" (Kinematic Tokens)

2. De "Sociale Regels" (Topology-Aware Attention)

3. De "Persoonlijke Identiteitskaart" (Joint-Attribute Conditioning)

Wat is het resultaat?

Probleemstelling

Methodologie

1. Kinematische Tokens (Kinematic Tokens - KT)

2. Topologie-bewuste Attention Bias

3. Conditioning op Gewrichtsattributen (Joint-attribute Conditioning)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Improvement of DVB-S2/S2X Performance Using External Synchronization

ospEDA: Orthogonal Subspace Projection for Electrodermal Activity Decomposition

IOGRUCloud: A Scalable AI-Driven IoT Platform for Climate Control in Controlled Environment Agriculture

On the Isospectral Nature of Minimum-Shear Covariance Control

Learning interpretable and stable dynamical models via mixed-integer Lyapunov-constrained optimization