RACAS: Controlling Diverse Robots With a Single Agentic System

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben drei völlig unterschiedliche Fahrzeuge: einen kleinen geländegängigen Roboter-Roller, einen riesigen Unterwasser-U-Boot-Roboter und einen mechanischen Arm, der wie ein menschliches Glied aussieht.

Normalerweise müsste man für jedes dieser Fahrzeuge einen völlig neuen Fahrer ausbilden, der die spezifischen Knöpfe, Hebel und Sensoren genau kennt. Wenn Sie vom Roller auf das U-Boot wechseln, müssten Sie den alten Fahrer entlassen und einen neuen einstellen. Das ist teuer, langsam und kompliziert.

RACAS ist die Lösung der Forscher, um dieses Problem zu lösen. Es ist wie ein universeller „Super-Fahrer", der mit nur einer einzigen Sprache auskommt: Deutsch (oder Englisch) – also menschlicher Sprache.

Hier ist die einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Das Problem: Die Sprachbarriere

Roboter haben oft eine „Befehlsliste" (eine API), die sehr technisch ist. Ein Ingenieur muss programmieren, um dem Roboter zu sagen: „Bewege Motor 1 um 0,5 Grad". Das ist wie ein Dolmetscher, der nur Fachchinesisch spricht. Wenn Sie einen neuen Roboter kaufen, müssen Sie den Dolmetscher neu programmieren.

2. Die Lösung: RACAS (Der dreiköpfige Agenten-Team)

RACAS ist kein einzelner Roboter, sondern ein Team aus drei KI-Experten, die nur miteinander reden, indem sie normale Sätze schreiben. Sie müssen nichts programmieren, sondern nur dem Team eine kurze Beschreibung des Roboters geben.

Stellen Sie sich das Team so vor:

Der Controller (Der Kapitän):
Er ist der Boss. Er bekommt die Aufgabe (z. B. „Finde den Feuerlöscher"). Er denkt nach und fragt sich: „Was muss ich als Nächstes tun?" Aber er kann nicht direkt die Motoren ansteuern. Stattdessen schreibt er eine Frage an seine Mitarbeiter.
- Analogie: Der Kapitän auf einem Schiff, der den Kurs bestimmt, aber nicht selbst das Ruder dreht.
Die Monitore (Die Augen):
Diese KI-Module schauen durch die Kameras des Roboters. Der Kapitän fragt sie: „Was siehst du links von mir?" oder „Ist da ein rotes Objekt?" Die Monitore antworten in ganzen Sätzen: „Ich sehe einen roten Feuerlöscher etwa 2 Meter links."
- Analogie: Die Wachen auf dem Mast, die das Meer beobachten und dem Kapitän beschreiben, was sie sehen, statt nur Koordinaten zu rufen.
Der Memory Curator (Der Bibliothekar):
Das ist das wichtigste neue Element. Wenn der Roboter viele Schritte macht, wird die Geschichte sehr lang. Der Bibliothekar fasst alles zusammen. Er merkt sich: „Wir sind jetzt 5 Meter nach vorne gelaufen, der Feuerlöscher war links, aber jetzt sind wir weiter." Er löscht das Unwichtige und behält das Wichtige.
- Analogie: Ein erfahrener Navigator, der eine Karte führt. Er weiß nicht nur, wo man gerade ist, sondern auch, wo man schon war und welche Wege funktioniert haben. Ohne ihn würde der Roboter schnell verwirrt werden und vergessen, wo er war.

3. Wie sie zusammenarbeiten (Der Tanz)

Der Kapitän sagt: „Ich muss den Feuerlöscher finden. Monitore, schaut mal rechts!"
Die Monitore schauen und sagen: „Rechts ist eine Wand."
Der Kapitän denkt: „Okay, dann links." Er fragt den Bibliothekar: „Wo waren wir?" Der Bibliothekar sagt: „Wir waren am Start."
Der Kapitän entscheidet: „Drehen wir uns nach links."
Er wandelt diesen Gedanken in einen einfachen Befehl um: „Dreh links".
Der Roboter dreht sich.
Der Kreis beginnt von vorne.

4. Das Geniale daran: Keine Schulung nötig!

Das ist der „Game Changer". Normalerweise muss man eine KI mit Tausenden von Videos trainieren, wie ein Roboterarm sich bewegt.
Bei RACAS müssen Sie dem System nur eine Beschreibung geben:

„Ich bin ein Unterwasser-U-Boot mit 6 Motoren."
„Ich kann vorwärts, rückwärts, hoch und runter fahren."
„Meine Aufgabe ist es, eine blaue Kiste zu finden."

Das System versteht das sofort, weil es auf großen Sprachmodellen basiert, die die Welt bereits „kennen". Es braucht keine neuen Daten, keine neuen Gewichte und keinen neuen Code. Es funktioniert sofort, egal ob es ein U-Boot, ein Auto oder ein Roboterarm ist.

5. Was haben sie getestet?

Die Forscher haben das System an drei völlig unterschiedlichen Dingen getestet:

Einem Rad-Roboter (Dingo), der über den Boden fährt.
Einem Unterwasser-U-Boot (BlueROV2), das im Wasser schwebt.
Einem neuartigen Roboterarm (Alhakami Limb), den die KI noch nie zuvor gesehen hatte.

In allen Fällen hat das gleiche „Super-Fahrer-Team" die Aufgaben gelöst, ohne dass jemand den Code ändern musste. Es war, als würde man demselben Fahrer sagen: „Fahr jetzt das U-Boot" statt „Fahr jetzt das Auto", und er würde sofort wissen, was zu tun ist.

Fazit

RACAS ist wie ein universeller Übersetzer und Navigator. Es nimmt die komplexe, technische Welt der Roboter und macht sie für eine KI verständlich, die nur Sprache versteht. Das bedeutet, dass wir in Zukunft viel schneller neue Roboter entwickeln und testen können, ohne monatelang Programmierer beschäftigen zu müssen. Es senkt die Hürde, Roboter für fast jede Aufgabe einzusetzen, drastisch.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „RACAS: Controlling Diverse Robots With a Single Agentic System" auf Deutsch:

1. Problemstellung

Derzeit erfordert die Anwendung von Robotern auf neue Aufgaben eine komplexe Pipeline, die von niedrigen Steuerungsbefehlen (APIs für Aktoren/Sensoren) zu hochleveligem autonomen Verhalten führt. Diese Pipeline besteht typischerweise aus getrennten Modulen für Wahrnehmung, Planung und Steuerung, die oft spezifisches Fachwissen erfordern.

Herausforderung: Bestehende Ansätze scheitern entweder an der Notwendigkeit, für jede neue Roboterplattform (Embodiment) neu zu trainieren (z. B. durch End-to-End-Policies), oder sie wurden nur auf strukturell ähnlichen Plattformen validiert.
Lücke: Es fehlt ein System, das eine Zero-Training-Generalisierung über radikal heterogene Plattformen hinweg ermöglicht, bei denen Morphologie, Dynamik und Umgebungen fundamental unterschiedlich sind, ohne dass Quellcode, Modellgewichte oder Belohnungsfunktionen angepasst werden müssen.

2. Methodik: RACAS (Robot-Agnostic Control via Agentic Systems)

RACAS ist eine kooperative Agenten-Architektur, die die Robotersteuerung in drei Module aufteilt, die ausschließlich über natürliche Sprache kommunizieren. Das System benötigt lediglich eine natürliche Sprachbeschreibung des Roboters, eine Definition der verfügbaren Aktionen und eine Aufgabenbeschreibung.

Die drei Module:

Controller (Steuerung):
- Generiert basierend auf dem aktuellen Kontext (Aufgabe, Gedächtnis, Propriozeption) eine gezielte visuelle Abfrage ( $q_t$ ).
- Empfängt die Umgebungsbeschreibungen von den Monitoren, führt eine logische Schlussfolgerung durch und wählt eine einzelne Aktion aus.
- Wird bei jedem Schritt mit einem dynamisch zusammengesetzten System-Prompt initialisiert.
Monitore (Wahrnehmung):
- Verarbeiten Kamerabilder basierend auf der Abfrage des Controllers.
- Nutzen Vision-Language-Models (VLMs), um natürliche Sprachbeschreibungen der Szene ( $o_t$ ) zu generieren.
- Dies ermöglicht eine aufgabenadaptive Wahrnehmung, die sich an den Kontext anpasst, anstatt starre numerische Ausgaben (wie Bounding Boxes) zu liefern.
Memory Curator (Gedächtnis):
- Ein separates LLM-Modul, das eine strukturierte, begrenzte Repräsentation des gesammelten Wissens verwaltet.
- Funktionsweise: Statt Beobachtungen einfach anzuhängen, wird das Gedächtnis nach jedem Schritt umgeschrieben. Es komprimiert redundante Informationen, löst Widersprüche und verwirft irrelevante Details.
- Struktur: Das Gedächtnis ist in vier Kategorien unterteilt: physische Umgebung, Roboterzustand, kuratierte Historie signifikanter Befehle und Aufgabenzustand.
- Raumgedächtnis: Das System leitet Objektpositionen durch die Kombination von Kameraperspektive und ausgeführten Aktionen ab (z. B. „Objekt wurde nach links bewegt, also ist es rechts"), um die fehlende metrische Tiefenschätzung der VLMs zu kompensieren.

Anpassung an neue Roboter:
Die Anpassung erfolgt rein durch deklarative Prompt-Konfigurationen (Robot-Beschreibung, Aktions-JSON, Aufgabenbeschreibung). Keine Änderungen am Code oder den Modellgewichten sind erforderlich.

3. Experimentelles Setup und Evaluation

Das System wurde an drei radikal unterschiedlichen Plattformen getestet, ohne dass die Kontrolllogik oder die LLM-Module geändert wurden:

Alhakami et al. Limb: Ein neuartiger, 4-DOF (Degrees of Freedom) Roboterarm mit mehreren Kameras. Aufgabe: Lokalisierung eines Feuerlöschers in einem unordentlichen Labor.
Clearpath Dingo: Ein 3-DOF Radroboter (simuliert und real). Aufgabe: Annäherung an ein Zielobjekt basierend auf visuellem Feedback.
BlueROV2: Ein Unterwasser-Fahrzeug (ROV) mit 6-DOF. Aufgabe: Navigation in einem Wasserbecken (klein und groß) zu einem markierten Ziel.

Wichtige Parameter:

Alle Module nutzten OpenAI GPT-4.1 (Mini oder Vollversion).
Die Steuerungsschleife lief mit ca. 1 Aktion pro 5–10 Sekunden (dominiert durch API-Latenz).
Vergleichsbaseline: Zufällige Aktionsauswahl (wo sicher durchführbar).

4. Ergebnisse

Erfolgsrate: RACAS löste erfolgreich alle zugewiesenen Aufgaben auf allen drei Plattformen.
Effizienz: Im Vergleich zur zufälligen Baseline benötigte RACAS signifikant weniger Schritte, um die Aufgaben zu lösen (z. B. beim Limb: ~9,5 Schritte vs. ~22 bei Random; beim Dingo-Sim: ~16,4 vs. 25).
Generalisierung: Das System zeigte Zero-Training-Generalisierung. Es konnte einen Roboterarm steuern, über den das LLM keine Vorwissen hatte, sowie in simulierten und realen Umgebungen operieren.
Gedächtnis-Effekt: Ein Ablationsstudium (Blackjack-Experiment) bestätigte, dass der strukturierte Memory Curator entscheidend für die Leistungsfähigkeit ist, um aus vergangenen Episoden zu lernen und die Entscheidungsqualität zu verbessern.
Limitationen: Die Leistung wurde primär durch die Sensorqualität (Fehlende Tiefeninformation, niedrige Auflösung bei manuellen Kameras) und die API-Latenz begrenzt, nicht durch die Architektur selbst. Das System neigte dazu, das Ziel schnell zu finden und dann direkt anzusteuern.

5. Hauptbeiträge

Architektur: Einführung von RACAS, einer kooperativen Multi-Modul-Agenten-Architektur für geschlossene Regelkreise, die ausschließlich natürliche Sprache zur Kommunikation nutzt.
Trennung von Wissen und Logik: Nachweis, dass alle plattformspezifischen und aufgabenspezifischen Kenntnisse in deklarative Prompt-Konfigurationen ausgelagert werden können, ohne Code oder Modellgewichte zu ändern.
Erste Zero-Training-Generalisierung: Demonstration eines einheitlichen Steuerungsframeworks über drei fundamental unterschiedliche Roboterplattformen hinweg (Arm, Radfahrzeug, Unterwasserfahrzeug), einschließlich einer neuartigen Plattform, die dem LLM unbekannt war.

6. Bedeutung und Ausblick

RACAS adressiert die traditionellen Barrieren bei der Robotik-Entwicklung (Datensammlung, maßgeschneiderte Zustandsrepräsentationen, plattformspezifisches Training). Es ermöglicht Praktikern, Roboterlösungen durch reine natürliche Sprachbeschreibungen und bestehende APIs zu prototypisieren.

Zukunft: Die Autoren sehen Potenzial in der Erweiterung auf manipulationsspezifische Aufgaben (Kontakt-reiche Aufgaben) und der Integration von Tiefensensoren (LiDAR) zur Verbesserung der räumlichen Inferenz.
Fazit: Agentic AI hat das Potenzial, die Hürden für die Prototypisierung und den Test robotischer Lösungen auf diversen Plattformen drastisch zu senken, da die Anpassung an neue Embodiments ohne erneutes Training oder Code-Änderungen möglich ist.

RACAS: Controlling Diverse Robots With a Single Agentic System

1. Das Problem: Die Sprachbarriere

2. Die Lösung: RACAS (Der dreiköpfige Agenten-Team)

3. Wie sie zusammenarbeiten (Der Tanz)

4. Das Geniale daran: Keine Schulung nötig!

5. Was haben sie getestet?

Fazit

1. Problemstellung

2. Methodik: RACAS (Robot-Agnostic Control via Agentic Systems)

3. Experimentelles Setup und Evaluation

4. Ergebnisse

5. Hauptbeiträge

6. Bedeutung und Ausblick

Mehr davon

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem