RACAS: Controlling Diverse Robots With a Single Agentic System

Die Studie stellt RACAS vor, ein roboteragnostisches Agentic-System, das mittels natürlicher Sprache und großer Sprachmodelle diverse Roboterplattformen ohne Anpassung des Quellcodes steuern kann und so die Hürden für die Prototypenentwicklung senkt.

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, Ali Abualsaud, Nurzhan Yesmagambet, Shinkyu Park, Eric Feron, Jürgen Schmidhuber

Veröffentlicht Mon, 09 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben drei völlig unterschiedliche Fahrzeuge: einen kleinen geländegängigen Roboter-Roller, einen riesigen Unterwasser-U-Boot-Roboter und einen mechanischen Arm, der wie ein menschliches Glied aussieht.

Normalerweise müsste man für jedes dieser Fahrzeuge einen völlig neuen Fahrer ausbilden, der die spezifischen Knöpfe, Hebel und Sensoren genau kennt. Wenn Sie vom Roller auf das U-Boot wechseln, müssten Sie den alten Fahrer entlassen und einen neuen einstellen. Das ist teuer, langsam und kompliziert.

RACAS ist die Lösung der Forscher, um dieses Problem zu lösen. Es ist wie ein universeller „Super-Fahrer", der mit nur einer einzigen Sprache auskommt: Deutsch (oder Englisch) – also menschlicher Sprache.

Hier ist die einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Das Problem: Die Sprachbarriere

Roboter haben oft eine „Befehlsliste" (eine API), die sehr technisch ist. Ein Ingenieur muss programmieren, um dem Roboter zu sagen: „Bewege Motor 1 um 0,5 Grad". Das ist wie ein Dolmetscher, der nur Fachchinesisch spricht. Wenn Sie einen neuen Roboter kaufen, müssen Sie den Dolmetscher neu programmieren.

2. Die Lösung: RACAS (Der dreiköpfige Agenten-Team)

RACAS ist kein einzelner Roboter, sondern ein Team aus drei KI-Experten, die nur miteinander reden, indem sie normale Sätze schreiben. Sie müssen nichts programmieren, sondern nur dem Team eine kurze Beschreibung des Roboters geben.

Stellen Sie sich das Team so vor:

  • Der Controller (Der Kapitän):
    Er ist der Boss. Er bekommt die Aufgabe (z. B. „Finde den Feuerlöscher"). Er denkt nach und fragt sich: „Was muss ich als Nächstes tun?" Aber er kann nicht direkt die Motoren ansteuern. Stattdessen schreibt er eine Frage an seine Mitarbeiter.

    • Analogie: Der Kapitän auf einem Schiff, der den Kurs bestimmt, aber nicht selbst das Ruder dreht.
  • Die Monitore (Die Augen):
    Diese KI-Module schauen durch die Kameras des Roboters. Der Kapitän fragt sie: „Was siehst du links von mir?" oder „Ist da ein rotes Objekt?" Die Monitore antworten in ganzen Sätzen: „Ich sehe einen roten Feuerlöscher etwa 2 Meter links."

    • Analogie: Die Wachen auf dem Mast, die das Meer beobachten und dem Kapitän beschreiben, was sie sehen, statt nur Koordinaten zu rufen.
  • Der Memory Curator (Der Bibliothekar):
    Das ist das wichtigste neue Element. Wenn der Roboter viele Schritte macht, wird die Geschichte sehr lang. Der Bibliothekar fasst alles zusammen. Er merkt sich: „Wir sind jetzt 5 Meter nach vorne gelaufen, der Feuerlöscher war links, aber jetzt sind wir weiter." Er löscht das Unwichtige und behält das Wichtige.

    • Analogie: Ein erfahrener Navigator, der eine Karte führt. Er weiß nicht nur, wo man gerade ist, sondern auch, wo man schon war und welche Wege funktioniert haben. Ohne ihn würde der Roboter schnell verwirrt werden und vergessen, wo er war.

3. Wie sie zusammenarbeiten (Der Tanz)

  1. Der Kapitän sagt: „Ich muss den Feuerlöscher finden. Monitore, schaut mal rechts!"
  2. Die Monitore schauen und sagen: „Rechts ist eine Wand."
  3. Der Kapitän denkt: „Okay, dann links." Er fragt den Bibliothekar: „Wo waren wir?" Der Bibliothekar sagt: „Wir waren am Start."
  4. Der Kapitän entscheidet: „Drehen wir uns nach links."
  5. Er wandelt diesen Gedanken in einen einfachen Befehl um: „Dreh links".
  6. Der Roboter dreht sich.
  7. Der Kreis beginnt von vorne.

4. Das Geniale daran: Keine Schulung nötig!

Das ist der „Game Changer". Normalerweise muss man eine KI mit Tausenden von Videos trainieren, wie ein Roboterarm sich bewegt.
Bei RACAS müssen Sie dem System nur eine Beschreibung geben:

  • „Ich bin ein Unterwasser-U-Boot mit 6 Motoren."
  • „Ich kann vorwärts, rückwärts, hoch und runter fahren."
  • „Meine Aufgabe ist es, eine blaue Kiste zu finden."

Das System versteht das sofort, weil es auf großen Sprachmodellen basiert, die die Welt bereits „kennen". Es braucht keine neuen Daten, keine neuen Gewichte und keinen neuen Code. Es funktioniert sofort, egal ob es ein U-Boot, ein Auto oder ein Roboterarm ist.

5. Was haben sie getestet?

Die Forscher haben das System an drei völlig unterschiedlichen Dingen getestet:

  • Einem Rad-Roboter (Dingo), der über den Boden fährt.
  • Einem Unterwasser-U-Boot (BlueROV2), das im Wasser schwebt.
  • Einem neuartigen Roboterarm (Alhakami Limb), den die KI noch nie zuvor gesehen hatte.

In allen Fällen hat das gleiche „Super-Fahrer-Team" die Aufgaben gelöst, ohne dass jemand den Code ändern musste. Es war, als würde man demselben Fahrer sagen: „Fahr jetzt das U-Boot" statt „Fahr jetzt das Auto", und er würde sofort wissen, was zu tun ist.

Fazit

RACAS ist wie ein universeller Übersetzer und Navigator. Es nimmt die komplexe, technische Welt der Roboter und macht sie für eine KI verständlich, die nur Sprache versteht. Das bedeutet, dass wir in Zukunft viel schneller neue Roboter entwickeln und testen können, ohne monatelang Programmierer beschäftigen zu müssen. Es senkt die Hürde, Roboter für fast jede Aufgabe einzusetzen, drastisch.