Embedding Morphology into Transformers for Cross-Robot Policy Learning

Die Autoren schlagen einen morphologiebewussten Transformer vor, der durch kinematische Tokens, topologiebewusste Aufmerksamkeitsverzerrungen und Gelenk-Attribut-Bedingungen die Robustheit und Leistung von Cross-Robot-Policies im Vergleich zu herkömmlichen VLA-Modellen wie pi0.5 signifikant verbessert.

Kei Suzuki, Jing Liu, Ye Wang, Chiori Hori, Matthew Brand, Diego Romeres, Toshiaki Koike-Akino

Veröffentlicht 2026-03-03
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, einen Kaffee zu kochen. Das ist für einen Roboter mit einem langen, dünnen Arm (wie einen menschlichen Arm) ganz einfach. Aber was passiert, wenn du denselben Roboter-Code auf einen Roboter mit vier kurzen Beinen oder einen mit zwei Armen überträgst?

Normalerweise scheitert das. Der Roboter ist wie ein Schüler, der nur gelernt hat, wie ein bestimmter Körper funktioniert. Wenn sich die Form des Körpers ändert, weiß er nicht mehr, wie er seine Gelenke bewegen soll.

Dieses Papier von Kei Suzuki und seinem Team von Mitsubishi Electric Research Laboratories (MERL) schlägt eine Lösung vor: Wir geben dem Roboter eine „Anatomie-Karte" direkt in sein Gehirn.

Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

Das Problem: Der „blinde" Roboter

Bisherige Roboter-Köpfe (die auf einer Technologie namens „Transformer" basieren, ähnlich wie bei KI-Chatbots) sind sehr schlau, aber sie sind körperblind. Sie schauen nur auf die Kamera und hören auf den Sprachbefehl. Sie müssen sich erraten, wie viele Gelenke sie haben und wie diese miteinander verbunden sind.

Das ist so, als würdest du einem Musiker ein Lied vorspielen und sagen: „Spiele das!" – aber du sagst ihm nicht, ob er ein Klavier, eine Geige oder ein Schlagzeug hat. Er muss erst raten, welche Tasten oder Saiten er drücken muss. Das geht oft schief, besonders wenn er auf ein ganz anderes Instrument umsteigen soll.

Die Lösung: Drei Tricks für ein „körperbewusstes" Gehirn

Die Autoren haben dem Transformer-Modell drei neue Werkzeuge gegeben, damit es seinen eigenen Körper versteht, egal ob er aus Metall, Plastik oder aus drei Armen besteht.

1. Die „Gelenk-Karten" (Kinematic Tokens)

Stell dir vor, der Roboter muss eine ganze Choreografie für 10 Sekunden planen. Normalerweise packt er das alles in einen einzigen, riesigen Koffer.
Der neue Trick: Sie zerlegen diesen Koffer. Statt alles in einen Haufen zu werfen, machen sie für jedes Gelenk (z. B. Ellbogen, Handgelenk) eine eigene kleine Karte.

  • Die Analogie: Statt einem einzigen langen Brief, den der Roboter lesen muss, bekommt er jetzt ein Notizbuch mit einer Seite pro Gelenk. So kann er genau sehen: „Oh, mein Ellbogen muss sich heute anders bewegen als mein Handgelenk." Das macht es viel einfacher, die Bewegung zu planen.

2. Der „Schnur-Filter" (Topology-Aware Attention)

In normalen KI-Modellen darf jedes Gelenk mit jedem anderen Gelenk reden. Das ist wie eine riesige Party, bei der jeder mit jedem spricht. Das ist laut und chaotisch.
Der neue Trick: Sie hängen eine unsichtbare Schnur zwischen den Gelenken, die physikalisch verbunden sind. Der Ellbogen darf nur mit dem Handgelenk und dem Oberarm reden, aber nicht direkt mit dem Knie (wenn es ein Roboterarm ist).

  • Die Analogie: Stell dir ein Telefonnetzwerk vor. Früher durfte jeder jeden anrufen (was zu viel Lärm führte). Jetzt gibt es nur noch direkte Leitungen zwischen benachbarten Gelenken. Der Ellbogen ruft nur den Handgelenk an, der Handgelenk ruft nur die Finger an. So fließt die Information genau dort hin, wo sie physikalisch hingehört. Das verhindert Verwirrung.

3. Der „Namensschild-Filter" (Joint-Attribute Conditioning)

Manchmal sehen zwei Gelenke gleich aus (sie sind beide verbunden), haben aber eine andere Aufgabe. Ein Gelenk ist vielleicht ein Drehgelenk (wie ein Ellbogen), das andere ein Schiebegelenk (wie ein Teleskop).
Der neue Trick: Sie kleben ein virtuelles Namensschild auf jedes Gelenk. Darauf steht: „Ich bin ein Drehgelenk, ich kann nur bis 90 Grad drehen" oder „Ich bin ein Schiebegelenk, ich kann nur geradeaus".

  • Die Analogie: Stell dir ein Orchester vor. Alle Musiker haben ein Instrument, aber der Dirigent (die KI) weiß nicht, wer was spielt. Mit diesen Namensschildern weiß der Dirigent sofort: „Aha, du bist die Trompete, du spielst laut und hoch. Du bist die Geige, du spielst leise und sanft." So versteht der Roboter nicht nur, wo die Gelenke sind, sondern auch, was sie tun dürfen.

Das Ergebnis: Ein Roboter, der sich überall zurechtfindet

Wenn man diese drei Tricks kombiniert, passiert Magie:

  • Der Roboter lernt schneller.
  • Er macht weniger Fehler.
  • Und das Wichtigste: Er kann das Gelernte auf ganz andere Roboter übertragen.

Wenn man einen Roboterarm trainiert, der einen Würfel in eine Schale legt, kann derselbe „Gehirn-Code" (mit diesen neuen Tricks) fast sofort auf einen Roboter mit vier Beinen oder einen mit zwei Armen angewendet werden, ohne dass man alles neu lernen muss.

Zusammenfassung

Die Forscher haben den Roboter-KI-Modellen nicht nur „Augen" (Kamera) und „Ohren" (Sprache) gegeben, sondern ihnen auch ein Gefühl für ihren eigenen Körper. Sie haben dem Modell beigebracht: „Du hast Gelenke, sie sind durch Knochen verbunden, und jedes Gelenk hat eine spezielle Aufgabe."

Dadurch werden Roboter nicht mehr zu starren Maschinen, die nur für einen einzigen Körper gebaut sind, sondern zu flexiblen Helfern, die sich an verschiedene Formen anpassen können – genau wie wir Menschen, die sowohl mit einem Fahrrad als auch mit einem Auto fahren können, obwohl die Fahrzeuge völlig unterschiedlich sind.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →