LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

Die Arbeit stellt LAR-MoE vor, ein zweistufiges Framework für das Imitationslernen in der Robotik, das durch latente Ausrichtung der Expert-Routing-Mechanismen eine strukturierte Spezialisierung ohne manuelle Phasenannotationen ermöglicht und dabei hohe Erfolgsraten auf Benchmarks sowie eine erfolgreiche Zero-Shot-Übertragung auf ex-vivo-Gewebe demonstriert.

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man kocht. Das Problem ist: Ein Kochkurs besteht aus vielen verschiedenen Schritten – erst schneidet man Gemüse, dann rührt man den Topf um, und schließlich füllt man den Teller auf.

Wenn man einem Roboter einfach alle diese Schritte auf einmal zeigt, neigt er dazu, alles zu „vermischen". Er versucht, eine mittlere Bewegung zu finden, die halb Schneiden und halb Rühren ist. Das Ergebnis? Ein chaotischer, unbrauchbarer Roboter, der weder gut schneidet noch gut rührt.

Das ist das große Problem beim „Imitationslernen" (Lernen durch Nachahmen) in der Robotik: Komplexe Aufgaben bestehen aus vielen kleinen, unterschiedlichen Teilen, und ein einziger „Gehirn"-Modell versucht oft, alles gleichzeitig zu machen, was zu schlechten Ergebnissen führt.

Hier kommt die Idee aus dem Papier LAR-MoE ins Spiel. Man kann es sich wie ein großes Team von Spezialisten vorstellen, die in einer Küche arbeiten.

1. Das Problem: Der „Alleskönner", der nichts kann

Stell dir vor, du hast einen einzigen Koch, der versuchen muss, Suppe zu kochen, Pizza zu backen und Salat zu schneiden. Er wird versuchen, alles gleichzeitig zu tun, und am Ende wird er wahrscheinlich die Suppe verbrennen, weil er versucht, die Pizza zu schneiden.

In der Robotik nennen wir das „Expert Collapse" (Experten-Kollaps). Das System versucht, alle Aufgaben mit einem einzigen Modell zu lösen, und verliert dabei die Feinheiten.

2. Die Lösung: Ein Team von Spezialisten (MoE)

Die Autoren schlagen vor, statt eines einzigen Kochs ein Team von Spezialisten zu haben:

  • Experte A ist nur für das Schneiden zuständig.
  • Experte B ist nur für das Rühren da.
  • Experte C kümmert sich um das Servieren.

Das Problem bei solchen Teams ist aber: Wer entscheidet, welcher Experte gerade arbeiten soll? Normalerweise braucht man dafür einen strengen Chef, der sagt: „Jetzt ist Phase 1, also schneidet Experte A!" Aber in der echten Welt (besonders in der Chirurgie) gibt es oft keine solchen klaren Anweisungen oder Beschriftungen. Man hat nur Videos von Menschen, die die Aufgabe erledigen, ohne dass jemand sagt: „Jetzt schneiden wir."

3. Der Trick: LAR-MoE (Das „Gefühl" für die Aufgabe)

Hier kommt die geniale Idee des Papiers ins Spiel: LAR-MoE.

Stell dir vor, du hast einen intuitiven Assistenten (den „Studenten"), der den Kochkurs beobachtet. Dieser Assistent bekommt nicht den Chef als Lehrer, sondern lernt allein, indem er schaut, was der Koch gerade tut und was als Nächstes passieren wird.

  • Schritt 1: Lernen ohne Lehrer (Unsupervised Learning)
    Der Assistent schaut sich an: „Ah, wenn der Koch das Messer hebt, wird gleich geschnitten. Wenn er den Löffel nimmt, wird gerührt." Er lernt eine innere Landkarte (einen „latenten Raum") der Aufgabe. Er versteht die Struktur der Handlung, ohne dass ihm jemand sagt, welche Phase gerade ist. Er spürt einfach: „Moment, hier geht es ums Schneiden."

  • Schritt 2: Die Spezialisten werden eingeteilt (Routing)
    Sobald der Assistent diese Landkarte verstanden hat, nutzt er sie, um die Spezialisten (die Experten) zu steuern. Wenn der Assistent merkt: „Wir sind in der Schneiden-Phase", ruft er automatisch Experte A. Er muss nicht explizit sagen „Phase 1", er folgt einfach der Landkarte, die er gelernt hat.

Die Metapher:
Stell dir vor, du fährst mit dem Auto. Ein normales System versucht, das Lenkrad, das Gas und die Bremsen gleichzeitig zu steuern, was zu Zittern führt.
LAR-MoE ist wie ein erfahrener Beifahrer, der die Straße kennt. Er sagt nicht: „Jetzt bremse!" (das wäre eine explizite Anweisung). Stattdessen schaut er auf die Straße, erkennt: „Oh, da kommt eine Kurve", und lenkt automatisch den richtigen Mechanismus (den Brems-Experten) ein. Er weiß intuitiv, was als Nächstes kommt, basierend auf dem, was er gerade sieht.

4. Warum ist das so cool? (Die Ergebnisse)

Die Forscher haben das an zwei Orten getestet:

  1. Im Computer (Simulation): Der Roboter hat Aufgaben gelöst, bei denen er Objekte greifen und bewegen musste. Mit nur 150 Millionen Parametern (was für KI-Modelle recht klein ist) war er besser als riesige Modelle mit Milliarden von Parametern. Er war schneller und effizienter.
  2. Im echten Leben (Chirurgie): Das ist der beeindruckendste Teil. Sie haben den Roboter trainiert, einen Darm zu greifen und zu dehnen (eine sehr schwierige Operation).
    • Normalerweise müsste man dem Roboter genau sagen: „Jetzt greifen", „Jetzt warten", „Jetzt ziehen". Das ist teuer und schwer zu machen.
    • Mit LAR-MoE hat der Roboter das ohne diese Anweisungen gelernt. Er hat einfach die Videos von Chirurgen geschaut, die Landkarte gelernt und dann selbstständig die richtigen Spezialisten aktiviert.
    • Das Wunder: Als sie den Roboter dann auf echtes Schweinefleisch (nicht nur Plastik-Modelle) gesetzt haben, hat er das auch gekonnt! Er hat die Fähigkeiten „von Null auf" (Zero-Shot) auf eine neue, realistischere Umgebung übertragen.

Zusammenfassung

LAR-MoE ist wie ein cleverer Manager, der ein Team von Spezialisten leitet. Anstatt dem Team stur vorzuschreiben, was zu tun ist, lernt der Manager selbst, wie die Aufgabe aufgebaut ist, indem er einfach zuschaut. Dann weist er automatisch den richtigen Spezialisten zu, genau dann, wenn er gebraucht wird.

Das Ergebnis: Roboter, die komplexe, mehrstufige Aufgaben (wie chirurgische Eingriffe) viel besser, effizienter und ohne teure menschliche Anleitungen lernen können. Es ist, als würde man einem Roboter beibringen, nicht nur die Bewegungen nachzuahmen, sondern den Rhythmus und die Logik der Handlung zu verstehen.