Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

Die Arbeit stellt den Act-Observe-Rewrite (AOR)-Rahmen vor, der multimodale Sprachmodelle befähigt, Robotermanipulationsaufgaben durch das visuelle Beobachten von Fehlern und das automatische Neu-Schreiben des zugrunde liegenden Python-Steuerungscode zwischen den Versuchen zu meistern, ohne dabei Demonstrationen, Reward-Engineering oder Gradienten-Updates zu benötigen.

Vaishak Kumar

Veröffentlicht 2026-03-06
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🤖 Der Roboter, der aus Fehlern lernt – ohne Lehrer und ohne Mathe-Übungen

Stell dir vor, du möchtest einem Roboter beibringen, einen Würfel von einem Tisch zu heben oder eine Dose in einen Mülleimer zu werfen. Normalerweise braucht man dafür entweder:

  1. Tausende von menschlichen Demonstrationen (der Roboter schaut zu, wie ein Mensch es macht).
  2. Oder riesige Datenmengen und Rechenpower, um den Roboter durch Millionen von Versuchen zu trainieren (wie ein Schüler, der stundenlang Matheaufgaben löst, bis er es kann).

Das Paper von Vaishak Kumar stellt eine völlig neue Idee vor: Was wäre, wenn der Roboter einfach nur einen sehr schlauen Computer-Code-Experten (eine KI) hätte, der ihm nach jedem Versuch sagt: „Hey, das war falsch, hier ist der Fehler im Code, und hier ist der neue Code"?

Das nennt sich Act–Observe–Rewrite (AOR).


🎭 Die Geschichte vom „Roboter-Programmierer"

Stell dir den Roboter wie einen Musiker vor, der ein neues Lied spielen soll.

  • Der alte Weg: Der Musiker übt das Lied stundenlang, macht Fehler, wird korrigiert, übt weiter, bis er es perfekt kann. (Das ist das normale maschinelle Lernen).
  • Der neue Weg (AOR): Der Musiker spielt den ersten Takt. Dann hält er inne. Ein genialer Dirigent (die KI) schaut zu, hört den Fehler, sagt: „Moment, du hast den Takt falsch gezählt, weil du die Noten falsch gelesen hast." Und dann schreibt der Dirigent das gesamte Notenblatt neu. Der Musiker spielt das neue Blatt. Wenn es wieder hakt, schreibt der Dirigent es nochmal um.

In diesem Papier ist der „Dirigent" eine multimodale KI (eine KI, die Bilder und Text versteht). Sie ist kein Roboter, der trainiert wird, sondern ein Code-Generator.

🛠️ Wie funktioniert das genau? (Die drei Schritte)

Das System läuft in einem Kreislauf ab, der so einfach ist wie ein Tag im Büro:

  1. Act (Handeln):
    Der Roboter versucht eine Aufgabe (z. B. einen Würfel greifen). Er nutzt einen Python-Code, der ihm sagt, wie er seine Arme bewegt. Das ist wie das Notenblatt.

    • Ergebnis: Der Würfel fällt runter. Der Roboter hat versagt.
  2. Observe (Beobachten):
    Die KI schaut sich an, was passiert ist. Sie sieht nicht nur Zahlen, sondern Fotos von dem Moment, als der Roboter versagt hat.

    • Die Erkenntnis: „Aha! Der Roboter hat den Würfel gesehen, aber er dachte, er wäre 5 cm höher, als er wirklich ist. Das liegt an einem Fehler in der Formel, die die Kamera-Bilder in 3D-Positionen umrechnet."
    • Wichtig: Die KI versteht nicht nur, dass es schiefging, sondern warum (wegen eines Zeichens in der Formel, das falsch war).
  3. Rewrite (Umformulieren):
    Die KI schreibt den kompletten Code neu. Sie ändert nicht nur einen kleinen Wert (wie die Lautstärke), sondern sie korrigiert die Logik.

    • Neuer Code: „Okay, ich drehe das Vorzeichen in der Formel um und berechne die Position neu."
    • Der Roboter lädt den neuen Code und versucht es sofort wieder.

💡 Warum ist das so besonders?

Normalerweise sind Roboter-Programme wie eine Blackbox (eine schwarze Kiste). Wenn sie scheitern, weiß man oft nicht, ob das am Sensor lag, am Motor oder am Algorithmus. Man muss dann mühsam nachjustieren.

Bei AOR ist der Code lesbar.

  • Vergleich: Stell dir vor, du fährst ein Auto und es geht nicht.
    • Normal: Du drehst an allen Schrauben, bis es läuft.
    • AOR: Ein Mechaniker schaut in den Motor, liest den Bauplan, findet: „Ah, hier ist ein Schraube falsch herum!" und schraubt sie richtig. Fertig.

Die KI kann also architektonische Fehler finden. Sie kann sagen: „Dein ganzer Plan, wie du die Kamera benutzt, ist falsch, weil wir die Koordinaten verwechselt haben." Und sie schreibt den Plan komplett um.

🏆 Was haben sie herausgefunden?

Die Forscher haben den Roboter drei Aufgaben lösen lassen:

  1. Würfel heben: Der Roboter hat es nach 3 Versuchen perfekt gemacht. Die KI fand heraus, dass die Kamera-Bilder verzerrt waren, und korrigierte den Code.
  2. Dose in den Mülleimer: Auch hier fand die KI einen Fehler: Die Dose sah auf dem Bild rot aus (wegen des Lichts), aber der Roboter suchte nach Silber. Die KI änderte den Code, damit er nach Rot sucht.
  3. Stapel bauen: Das war schwer. Der Roboter schaffte es zu 91%. Bei den restlichen 9% berührte der Greifer versehentlich den unteren Würfel. Die KI hat das Problem erkannt („Ich berühre den anderen Würfel!"), aber sie hat keinen neuen Weg gefunden, wie man das vermeidet. Sie ist an einer „Sackgasse" im Denken hängen geblieben.

🌟 Das Fazit für den Alltag

Dieses Papier zeigt, dass wir Roboter nicht mehr nur mit riesigen Datenmengen „füttern" müssen, damit sie lernen. Wir können ihnen stattdessen einen intelligenten Assistenten geben, der:

  • Keine Daten braucht (kein Training).
  • Keine Belohnungssysteme braucht (kein „Gute-Junge"-Hundetraining).
  • Sofort versteht, warum etwas schiefgelaufen ist, indem es den Code liest.

Es ist, als würde man einem Roboter nicht beibringen, wie man läuft, sondern ihm einen Schritt-für-Schritt-Anleitungsbuch geben, das sich nach jedem Stolpern automatisch selbst verbessert.

Kurz gesagt: Statt den Roboter zu trainieren, schreiben wir ihm das Programm neu, sobald er einen Fehler macht – und zwar so lange, bis es klappt. Und das alles ohne einen einzigen menschlichen Lehrer, der ihm zeigt, wie es geht.