Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA

Die Arbeit stellt einen integrierten Rahmen vor, der durch RL-gestützte Teleoperation (IMCopilot) und eine Mixture-of-Dexterous-Experts-VLA-Architektur (MoDE-VLA) hochkomplexe, kontaktreiche zweihändige Manipulationsaufgaben mit menschenähnlicher Präzision ermöglicht.

Tutian Tang, Xingyu Ji, Wanli Xing, Ce Hao, Wenqiang Xu, Lin Shao, Cewu Lu, Qiaojun Yu, Jiangmiao Pang, Kaifeng Zhang

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einen Roboter beibringen, einen Apfel zu schälen. Das klingt einfach, ist für eine Maschine aber eine der schwierigsten Aufgaben überhaupt. Warum? Weil es nicht nur darum geht, den Apfel zu greifen, sondern ihn geschickt in der Hand zu drehen, während die andere Hand mit dem Messer arbeitet – alles ohne den Apfel fallen zu lassen oder ihn zu zerquetschen.

Dieser Artikel beschreibt einen neuen Ansatz, wie wir Robotern genau diese „menschliche Geschicklichkeit" beibringen können. Die Forscher haben ein System entwickelt, das wie ein Super-Team aus drei Teilen funktioniert.

Hier ist die Erklärung, einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Roboter ist zu steif

Bisher waren Roboterhände wie einfache Greifzangen. Sie können Dinge gut aufnehmen und ablegen (wie ein Paket vom Fließband), aber sie können keine feinen Bewegungen ausführen. Wenn ein Mensch einen Apfel schält, nutzt er:

  • Sehen: Um zu wissen, wo das Messer ist.
  • Fingerspitzen-Gefühl: Um zu spüren, ob die Schale rutscht oder ob zu viel Druck auf dem Messer liegt.
  • Intuition: Um den Apfel in der Hand zu drehen, ohne ihn loszulassen.

Roboter hatten daran zwei große Probleme:

  1. Datenmangel: Es ist extrem schwer, einen Menschen zu finden, der einen Roboter mit 63 Gelenken so präzise steuert, dass er einen Apfel schält. Das ist wie zu versuchen, mit beiden Händen gleichzeitig Klavier zu spielen, während man blind ist.
  2. Fehlende Sinne: Roboter haben oft keine „Fingerspitzengefühle" (Taktile Sensoren) oder Kraftmessung in ihren KI-Modellen integriert. Sie sehen nur, fühlen aber nicht.

2. Die Lösung: Ein dreiteiliges Team

Die Forscher haben eine Lösung namens MoDE-VLA entwickelt. Man kann sich das wie ein hochmodernes Koch-Team vorstellen:

Teil A: Der „Co-Pilot" (IMCopilot) – Der erfahrene Sous-Chef

Stellen Sie sich vor, Sie steuern einen Roboterarm per Fernsteuerung (Teleoperation). Normalerweise müssten Sie jeden einzelnen Finger bewegen. Das ist zu schwer.

  • Die Idee: Der Roboter hat einen „Co-Piloten" (IMCopilot). Dieser ist ein kleiner, trainierter KI-Assistent, der nur eine Sache perfekt kann: Dinge in der Hand drehen oder festhalten.
  • Die Analogie: Wenn Sie den Roboter steuern, müssen Sie nur die groben Bewegungen machen (z. B. „Greif den Apfel"). Sobald der Apfel in der Hand ist, drücken Sie mit dem Fuß ein Pedal. Der Co-Pilot übernimmt sofort: „Ich drehe den Apfel jetzt perfekt, während Sie weiterarbeiten."
  • Der Vorteil: So können die Forscher viel schneller Daten sammeln. Und später, wenn der Roboter allein arbeitet, ruft die Haupt-KI diesen Co-Piloten auf, wenn eine schwierige Drehbewegung nötig ist. Es ist wie ein Dirigent, der den Solisten (den Co-Piloten) ruft, wenn ein schwieriges Stück kommt.

Teil B: Der „Sinnes-Verstärker" (MoDE-Modul) – Der Übersetzer

Die Haupt-KI des Roboters (das VLA-Modell) ist wie ein genialer Koch, der schon Millionen von Rezepten (Bilder und Sprache) gelernt hat. Aber sie hat ein Problem: Sie kann keine Kraft oder Berührung „schmecken".

  • Das Problem: Wenn man einem KI-Modell einfach nur Zahlen für Kraft und Berührung hinzufügt, ist das wie, wenn man einem Koch plötzlich rohe Eier in die Suppe wirft. Es verwirrt ihn nur.
  • Die Lösung (MoDE): Die Forscher haben eine spezielle „Übersetzungs-Station" eingebaut. Diese Station nimmt die Signale von den Kraftsensoren (wie stark drückt der Arm?) und den Fingersensoren (rutscht der Apfel?) und übersetzt sie in eine Sprache, die die Haupt-KI versteht.
  • Die Analogie: Es ist wie ein Dolmetscher bei einem wichtigen Treffen. Der Dolmetscher (MoDE) hört die sensiblen Signale der Fingerspitzen und sagt der Haupt-KI: „Pass auf, der Apfel rutscht leicht, drücke etwas fester!" Die Haupt-KI behält dabei ihr großes Wissen über die Welt bei, bekommt aber durch den Dolmetscher das nötige Feingefühl.

Teil C: Das Teamwork (Hierarchie)

Das System funktioniert in Schichten:

  1. Die Haupt-KI (Der Chef): Plant die grobe Aufgabe: „Schäle den Apfel." Sie nutzt Kamera und Sprache.
  2. Der Co-Pilot (Der Spezialist): Übernimmt die feine Motorik: „Drehe den Apfel jetzt."
  3. Der Dolmetscher (MoDE): Sorgt dafür, dass alle wissen, was die Fingerspitzen fühlen.

3. Das Ergebnis: Der erste Roboter, der Äpfel schält

Die Forscher haben ihr System an vier Aufgaben getestet:

  • Schrauben zusammenbauen.
  • Ladekabel einstecken.
  • Reagenzgläser umsortieren.
  • Und das Highlight: Einen Apfel schälen.

Das Ergebnis:

  • Ohne ihr System schafften es Roboter kaum, einen Apfel zu schälen (sie ließen ihn fallen oder schälten nur ein Stück).
  • Mit dem System schafften sie es in 30 % der Fälle, den ganzen Apfel zu schälen. Das klingt nach wenig, ist aber für einen Roboter ein riesiger Sprung.
  • Besonders wichtig: Der Roboter schaffte es, den Apfel in der Hand zu drehen, während er schälte – eine Aufgabe, die ohne den „Co-Piloten" (IMCopilot) fast unmöglich war.

Fazit

Dieser Artikel zeigt, wie man Robotern beibringt, Dinge nicht nur zu greifen, sondern sie wirklich zu manipulieren wie ein Mensch.

  • Der Co-Pilot hilft beim Lernen und bei der Ausführung von schwierigen Drehbewegungen.
  • Der Dolmetscher sorgt dafür, dass der Roboter „fühlt", was er tut.

Es ist ein großer Schritt hin zu Robotern, die uns im Haushalt oder in der Industrie wirklich helfen können – nicht nur als einfache Greifarme, sondern als geschickte Helfer, die auch mit empfindlichen Dingen umgehen können.