Embedding Morphology into Transformers for Cross-Robot Policy Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, einen Kaffee zu kochen. Das ist für einen Roboter mit einem langen, dünnen Arm (wie einen menschlichen Arm) ganz einfach. Aber was passiert, wenn du denselben Roboter-Code auf einen Roboter mit vier kurzen Beinen oder einen mit zwei Armen überträgst?

Normalerweise scheitert das. Der Roboter ist wie ein Schüler, der nur gelernt hat, wie ein bestimmter Körper funktioniert. Wenn sich die Form des Körpers ändert, weiß er nicht mehr, wie er seine Gelenke bewegen soll.

Dieses Papier von Kei Suzuki und seinem Team von Mitsubishi Electric Research Laboratories (MERL) schlägt eine Lösung vor: Wir geben dem Roboter eine „Anatomie-Karte" direkt in sein Gehirn.

Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

Das Problem: Der „blinde" Roboter

Bisherige Roboter-Köpfe (die auf einer Technologie namens „Transformer" basieren, ähnlich wie bei KI-Chatbots) sind sehr schlau, aber sie sind körperblind. Sie schauen nur auf die Kamera und hören auf den Sprachbefehl. Sie müssen sich erraten, wie viele Gelenke sie haben und wie diese miteinander verbunden sind.

Das ist so, als würdest du einem Musiker ein Lied vorspielen und sagen: „Spiele das!" – aber du sagst ihm nicht, ob er ein Klavier, eine Geige oder ein Schlagzeug hat. Er muss erst raten, welche Tasten oder Saiten er drücken muss. Das geht oft schief, besonders wenn er auf ein ganz anderes Instrument umsteigen soll.

Die Lösung: Drei Tricks für ein „körperbewusstes" Gehirn

Die Autoren haben dem Transformer-Modell drei neue Werkzeuge gegeben, damit es seinen eigenen Körper versteht, egal ob er aus Metall, Plastik oder aus drei Armen besteht.

1. Die „Gelenk-Karten" (Kinematic Tokens)

Stell dir vor, der Roboter muss eine ganze Choreografie für 10 Sekunden planen. Normalerweise packt er das alles in einen einzigen, riesigen Koffer.
Der neue Trick: Sie zerlegen diesen Koffer. Statt alles in einen Haufen zu werfen, machen sie für jedes Gelenk (z. B. Ellbogen, Handgelenk) eine eigene kleine Karte.

Die Analogie: Statt einem einzigen langen Brief, den der Roboter lesen muss, bekommt er jetzt ein Notizbuch mit einer Seite pro Gelenk. So kann er genau sehen: „Oh, mein Ellbogen muss sich heute anders bewegen als mein Handgelenk." Das macht es viel einfacher, die Bewegung zu planen.

2. Der „Schnur-Filter" (Topology-Aware Attention)

In normalen KI-Modellen darf jedes Gelenk mit jedem anderen Gelenk reden. Das ist wie eine riesige Party, bei der jeder mit jedem spricht. Das ist laut und chaotisch.
Der neue Trick: Sie hängen eine unsichtbare Schnur zwischen den Gelenken, die physikalisch verbunden sind. Der Ellbogen darf nur mit dem Handgelenk und dem Oberarm reden, aber nicht direkt mit dem Knie (wenn es ein Roboterarm ist).

Die Analogie: Stell dir ein Telefonnetzwerk vor. Früher durfte jeder jeden anrufen (was zu viel Lärm führte). Jetzt gibt es nur noch direkte Leitungen zwischen benachbarten Gelenken. Der Ellbogen ruft nur den Handgelenk an, der Handgelenk ruft nur die Finger an. So fließt die Information genau dort hin, wo sie physikalisch hingehört. Das verhindert Verwirrung.

3. Der „Namensschild-Filter" (Joint-Attribute Conditioning)

Manchmal sehen zwei Gelenke gleich aus (sie sind beide verbunden), haben aber eine andere Aufgabe. Ein Gelenk ist vielleicht ein Drehgelenk (wie ein Ellbogen), das andere ein Schiebegelenk (wie ein Teleskop).
Der neue Trick: Sie kleben ein virtuelles Namensschild auf jedes Gelenk. Darauf steht: „Ich bin ein Drehgelenk, ich kann nur bis 90 Grad drehen" oder „Ich bin ein Schiebegelenk, ich kann nur geradeaus".

Die Analogie: Stell dir ein Orchester vor. Alle Musiker haben ein Instrument, aber der Dirigent (die KI) weiß nicht, wer was spielt. Mit diesen Namensschildern weiß der Dirigent sofort: „Aha, du bist die Trompete, du spielst laut und hoch. Du bist die Geige, du spielst leise und sanft." So versteht der Roboter nicht nur, wo die Gelenke sind, sondern auch, was sie tun dürfen.

Das Ergebnis: Ein Roboter, der sich überall zurechtfindet

Wenn man diese drei Tricks kombiniert, passiert Magie:

Der Roboter lernt schneller.
Er macht weniger Fehler.
Und das Wichtigste: Er kann das Gelernte auf ganz andere Roboter übertragen.

Wenn man einen Roboterarm trainiert, der einen Würfel in eine Schale legt, kann derselbe „Gehirn-Code" (mit diesen neuen Tricks) fast sofort auf einen Roboter mit vier Beinen oder einen mit zwei Armen angewendet werden, ohne dass man alles neu lernen muss.

Zusammenfassung

Die Forscher haben den Roboter-KI-Modellen nicht nur „Augen" (Kamera) und „Ohren" (Sprache) gegeben, sondern ihnen auch ein Gefühl für ihren eigenen Körper. Sie haben dem Modell beigebracht: „Du hast Gelenke, sie sind durch Knochen verbunden, und jedes Gelenk hat eine spezielle Aufgabe."

Dadurch werden Roboter nicht mehr zu starren Maschinen, die nur für einen einzigen Körper gebaut sind, sondern zu flexiblen Helfern, die sich an verschiedene Formen anpassen können – genau wie wir Menschen, die sowohl mit einem Fahrrad als auch mit einem Auto fahren können, obwohl die Fahrzeuge völlig unterschiedlich sind.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das zentrale Problem der Arbeit ist das Cross-Robot Policy Learning (Lernen einer einzigen Policy für mehrere Roboter-Embodiments). Obwohl Transformer-basierte Modelle, insbesondere Vision-Language-Action (VLA) Modelle wie $\pi0.5$ , durch Skalierung auf große Datensätze immer leistungsfähiger werden, bleiben sie in der Regel embodiment-agnostisch (körperunabhängig).

Herausforderung: Diese Modelle müssen die kinematische Struktur (die physische Verbindung der Gelenke) und die Koordination zwischen den Gelenken rein aus Beobachtungen inferieren. Dies führt zu einer geringeren Robustheit, wenn die Policy auf verschiedene Roboterplattformen übertragen wird, und kann die Leistung sogar innerhalb eines einzelnen Robotertyps einschränken.
Limitationen bestehender Ansätze:
1. Fehlende Schnittstelle für kinematische Tokens in modernen VLA-Modellen, die Aktionen oft stark komprimieren.
2. Ein Trade-off bei topologiebewusster Aufmerksamkeit: Zu starke Lokalisierung fördert die Nachrichtenweitergabe, schränkt aber die globale Koordination ein.
3. Fehlende Semantik einzelner Gelenke: Reine Topologie (Verbindungen) erfasst nicht die funktionale Rolle eines Gelenks (z. B. Drehgelenk vs. Schubgelenk, Bewegungsgrenzen).

2. Methodik

Die Autoren schlagen eine embodiment-bewusste Transformer-Policy vor, die die Morphologie des Roboters durch drei spezifische Mechanismen explizit in die Architektur injiziert:

A. Kinematische Tokens (Kinematic Tokens - KT)

Um die Aktionen über die Gelenke zu faktorisieren und zeitliche Informationen zu komprimieren, werden neben den Standard-Aktions-Tokens spezielle kinematische Tokens eingeführt.

Funktionsweise: Der Aktionshorizont wird in zeitliche Blöcke (Chunks) unterteilt. Für jedes Gelenk $j$ und jeden Chunk $k$ wird ein Vektor erstellt, der die Aktionen dieses Gelenks über diesen Zeitraum zusammenfasst.
Ziel: Dies schafft eine kompakte, pro-Gelenk-Sicht, die die räumliche Struktur (zwischen den Gelenken) betont und eine Einbettung von Topologie und Semantik ermöglicht.
Erweiterung: Es werden auch Auxiliary Kinematic Tokens (AKT) eingeführt, um die Kapazität pro Gelenk durch zusätzliche, unabhängige Encoder zu erhöhen.

B. Topologie-bewusste Aufmerksamkeits-Bias (Topology-aware Attention)

Anstatt die Token-Sequenz als vollständig verbundenen Graphen zu behandeln, wird die kinematische Topologie des Roboters als induktive Verzerrung (Inductive Bias) in den Self-Attention-Mechanismus integriert.

Hard-Mask (Full-Mask & Mix-Mask):
- Full-Mask: Erlaubt Aufmerksamkeit nur zwischen einem Gelenk und seinen direkten Nachbarn (1-Hop) im kinematischen Graphen.
- Mix-Mask: Wechselt zwischen maskierten (lokalen) und unmaskierten (globalen) Schichten, um sowohl lokale Nachrichtenweitergabe als auch globale Koordination zu ermöglichen.
Soft-Mask: Fügt einen lernbaren Bias basierend auf der kürzesten Pfaddistanz (Shortest-Path Distance) im Graphen hinzu, begünstigt nahe Gelenke, blockiert aber keine Verbindungen strikt.

C. Joint-Attribute Conditioning

Um die reine Topologie durch semantische Informationen zu ergänzen, werden die Embeddings der kinematischen Tokens mit pro-Gelenk-Beschreibungen konditioniert.

Mechanismus: Verwendung von FiLM (Feature-wise Linear Modulation).
Attribute: Jedes Gelenk wird durch Deskriptoren wie Gelenktyp (prismatisch/revolutorisch), Achsrichtung, Bewegungsgrenzen und Kontakt-Eigenschaften (Reibung, Steifigkeit) beschrieben.
Effekt: Dies ermöglicht dem Modell, funktionale Rollen von Gelenken zu unterscheiden, selbst wenn diese topologisch ähnlich sind.

3. Wichtige Beiträge

Strukturierte Morphologie-Integration: Der erste Ansatz, der kinematische Tokens, Topologie-Bias und semantische Gelenk-Attribute in einem einheitlichen Transformer-Framework für VLA-Modelle kombiniert.
Verbesserte Token-Schnittstelle: Die Einführung kinematischer Tokens löst das Problem der Anwendung von Morphologie-Methoden auf komprimierte VLA-Aktionsräume.
Hybride Aufmerksamkeitsstrategie: Die „Mix-Mask"-Strategie überwindet den Trade-off zwischen lokaler und globaler Koordination effektiver als reine Hard- oder Soft-Mask-Ansätze.
Semantische Konditionierung: Die Integration von Gelenk-Attributen über FiLM geht über reine Graph-Topologie hinaus und erfasst physikalische Eigenschaften.

4. Ergebnisse

Die Methode wurde auf drei verschiedenen Robotern und in verschiedenen Szenarien evaluiert: DROID (Franka Panda), Unitree G1 Dex1 und SO101.

Single-Embodiment (Einzelroboter):
- Auf dem DROID-Datensatz (Franka Panda) steigerte die Kombination aller drei Komponenten (KT + Mix-Mask + FiLM) die durchschnittliche Erfolgsrate (Success Rate, SR) von 19,7 % (Baseline $\pi0.5$ ) auf 47,4 %.
- Auf dem Unitree G1 (16-DoF) erreichte die Kombination eine SR von 28,0 % gegenüber 24,7 % der Baseline.
- Die Ergebnisse zeigen, dass selbst ohne Cross-Robot-Training die explizite Morphologie-Enkodierung die Robustheit und Leistung innerhalb eines Robotertyps signifikant verbessert.
Multi-Embodiment (Kreuzroboter):
- Beim gemeinsamen Training auf gemischten Daten von Panda und SO101 (unterschiedliche Gelenk-Dimensionen) übertraf das Modell die Baseline konsistent während des gesamten Trainingsverlaufs.
- Bei 50.000 Trainingsschritten erreichte das vorgeschlagene Modell eine Macro SR von 15,5 %, während die Baseline nur bei 5,0 % lag.
Ablationsstudien:
- Chunk-Größe: Ein einzelner Chunk ( $G=1$ ) erwies sich als optimal.
- Auxiliary Tokens: Die Hinzunahme von AKT verbesserte die Leistung weiter, insbesondere in Kombination mit Mix-Mask.
- Soft-Mask vs. Hard-Mask: Hard-Mask-Varianten (insbesondere Mix-Mask) waren stabiler und leistungsfähiger als Soft-Mask-Varianten, was frühere Befunde zur Optimierungsinstabilität von Soft-Mask bestätigt.

5. Bedeutung und Ausblick

Diese Arbeit adressiert eine fundamentale Lücke in der Robotik: Die Unfähigkeit aktueller generischer VLA-Modelle, die physikalische Struktur des Roboters effizient zu nutzen.

Robustheit: Durch die explizite Einbettung der Morphologie wird die Policy robuster gegenüber Hardware-Variationen, Ausfällen oder dem Wechsel auf völlig neue Plattformen.
Generalisierung: Der Ansatz bewegt sich in Richtung echter „Generalist"-Roboter-Policies, die sich ähnlich flexibel wie menschliche Intelligenz an neue Embodiments anpassen können, ohne für jeden neuen Roboter komplett neu trainiert werden zu müssen.
Zukunft: Die Autoren planen, die Token-Repräsentation weiter zu optimieren, stabilere Soft-Mask-Methoden zu entwickeln und effizientere Trainingsstrategien für Multi-Embodiment-Szenarien (z. B. Curriculum Learning) zu erforschen.

Zusammenfassend demonstriert das Paper, dass die Integration von physikalischem Wissen (Morphologie) in die Architektur von Transformer-Policies nicht nur die Dateneffizienz steigert, sondern auch die Leistungsgrenzen für Cross-Robot-Lernen signifikant anhebt.