Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models

Diese Arbeit zeigt, dass eine starke Einschritt-Aktionsgenerierung für Vision-Language-Action-Modelle allein durch das Biasen der Trainingszeitverteilung hin zu Zuständen mit hohem Rauschen erreicht werden kann, wodurch die Notwendigkeit komplexer Destillation oder Hilfsziele, die typischerweise in der Bildsynthese erforderlich sind, entfällt und gleichzeitig die Leistung von Mehrschritt-Diffusions-Policies erreicht oder übertroffen wird.

Ursprüngliche Autoren: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu

Veröffentlicht 2026-06-05✓ Author reviewed
📖 6 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Die große Idee: Hör auf, die Bewegung zu überdenken

Stellen Sie sich vor, Sie bringen einem Roboter bei, Schach zu spielen.

  • Der alte Weg (Bildgenerierung): In der Welt der KI-Bilderzeugung (wie beim Erstellen eines Bildes einer Katze) muss die KI gleichzeitig Millionen von Pixeln erraten. Es ist, als würde man versuchen, ein Meisterwerk zu malen, indem man mit einer leeren, von statischem Rauschen bedeckten Leinwand beginnt und das Rauschen Schritt für Schritt wegwischt, um die Katze zum Vorschein zu bringen. Dies erfordert viele Schritte (Iterationen), um es richtig zu machen.
  • Der neue Weg (Roboteraktionen): Dieses Paper argumentiert, dass das Lehren eines Roboters, sich zu bewegen, etwas anderes ist. Der Roboter hat bereits ein sehr klares Bild des Raums, der Aufgabe und seines eigenen Körpers. Er muss nicht Millionen von Pixeln erraten; er muss nur eine kleine, spezifische Bewegung entscheiden (wie „greife die Tasse“).

Die Autoren sagen: „Warum nutzen wir einen 10-Schritte-Malprozess, um ein einfaches 1-Schritt-Rätsel zu lösen?“

Sie fanden heraus, dass, indem sie ändern, wann der Roboter lernt, Entscheidungen zu treffen, er die richtige Bewegung in einem einzigen Schritt genauso gut (oder sogar besser) bewältigen kann wie die langsamen, mehrstufigen Methoden.


Das Kernproblem: Die Diskrepanz zwischen „Reichem Zustand, Einfachem Ziel“

Um zu verstehen, warum das funktioniert, denken Sie an den Unterschied zwischen dem Schreiben einer Geschichte und dem Beantworten einer Trivia-Frage.

  1. Bildgenerierung (Eine Geschichte schreiben): Sie geben der KI einen Prompt wie „Eine Katze“. Die KI muss die gesamte Geschichte erfinden, wie die Katze aussert, wo sie ist, die Beleuchtung, die Felltextur usw. Es gibt unendliche Möglichkeiten. Sie benötigt viele Schritte, um die Optionen einzugrenzen.
  2. Roboteraktion (Eine Trivia-Frage beantworten): Sie geben dem Roboter eine Kameraansicht einer Tasse, einen Sprachbefehl „Hebe die Tasse auf“ und eine Sensormessung seiner Armposition. Die Antwort ist sehr spezifisch. Es gibt nur ein oder zwei gute Wege, diese Tasse zu greifen. Das „Ziel“ ist klein und einfach.

Das Paper nennt dies eine „Condition-Target“-Diskrepanz (Zustands-Ziel-Diskrepanz). Der Roboter hat eine reiche Menge an Informationen (den Zustand), muss aber nur eine winzige Menge an Output vorhersagen (die Aktion). Da die Antwort angesichts der Hinweise so offensichtlich ist, benötigt die KI nicht die komplexe, mehrstufige „Denoising“-Maschinerie (Entrauschung), die für Bilder verwendet wird.

Das Geheimrezept: Training im „Dunkeln“

Die Autoren entdeckten einen einfachen Trick, um dem Roboter diese einstufige Fähigkeit beizubringen.

Die Analogie: Schwimmenlernen im tiefen Ende

  • Standardmäßiges Training: Normalerweise werden KI-Modelle darauf trainiert, schrittweise zu lernen. Sie beginnen mit ein wenig Rauschen (einem flachen Becken) und lernen dann langsam, mit mehr Rauschen umzugehen (tieferes Wasser), bis sie die endgültige Antwort vorhersagen können.
  • Die Methode des Papers: Die Autoren entschieden sich dafür, den Roboter direkt ins tiefe Ende zu werfen. Sie verzerrten das Training so, dass der Roboter hauptsächlich übte, wenn der Input sehr verrauscht war (fast zufällig).

Warum funktioniert das?
Stellen Sie sich vor, Sie versuchen, die Telefonnummer eines Freundes zu erraten.

  • Wenn Ihnen die Nummer mit nur einer fehlenden Ziffer gegeben wird, könnten Sie zu viel darüber nachdenken und falsch liegen.
  • Aber wenn Ihnen eine völlig verschlüsselte, zufällige Zahlenfolge gegeben wird und Sie gebeten werden, die echte Nummer allein basierend auf dem Namen und der Adresse Ihres Freundes (dem reichen Kontext) zu erraten, ist Ihr Gehirn gezwungen, das Rauschen zu ignorieren und sich voll und ganz auf die Hinweise zu konzentrieren.

Indem man den Roboter darauf trainiert, die korrekte Bewegung selbst dann vorherzusagen, wenn der Input chaotisch ist (hohes Rauschen), lernt der Roboter, sich stark auf die Kamera- und Sprachhinweise zu verlassen. Wenn er schließlich in der realen Welt läuft (wo der Input sauber ist), kann er sofort in einem Schritt zur richtigen Antwort „springen“, weil er gelernt hat, das Rauschen zu ignorieren und dem Kontext zu vertrauen.

Die Experimente: Funktioniert es tatsächlich?

Das Team testete diese Idee auf drei Arten:

  1. Der „Spielzeug“-Test (MNIST Grid): Um das Prinzip zu isolieren, drehten die Forscher die übliche Logik der KI um. Normalerweise generiert KI aus Text ein Bild (Text-zu-Bild). Hier zeigten sie der KI ein klares, sauberes Bild eines Rasters mit handschriftlichen Zahlen (die „reiche Bedingung“) und baten sie, die Zahlenfolge als Text auszugeben (das „kompakte Ziel“). Der Trick bestand darin, das Rauschen auf die Text-Ausgabe anzuwenden, nicht auf das Bild. Die KI musste also die korrekte Zahlenfolge aus einem verrauschten Textzustand vorhersagen, während sie das klare Bild als Anker nutzte. Dies simulierte perfekt die Situation eines Roboters: Viel visuelle Information, aber nur eine kleine, präzise Antwort. In diesem Setup konnte die KI die Zahlenfolge in einem einzigen Schritt viel genauer vorhersagen als mit herkömmlichen Methoden.
  2. Die Roboter-Benchmarks (LIBERO): Sie testeten dies bei Standard-Roboteraufgaben (wie dem Stapeln von Blöcken oder dem Bewegen von Objekten).
    • Ergebnis: Ein mit dieser „hohem Rauschen“-Methode trainierter Roboter konnte eine perfekte Bewegung in einem Schritt ausführen.
    • Vergleich: Dieser einstufige Roboter war genauso gut wie – und manchmal sogar besser als – Roboter, die zehn Schritte brauchten, um die Bewegung zu bestimmen.
    • Skalierbarkeit: Selbst bei einem massiven Modell (1,4 Milliarden Parameter) erreichte die einstufige Methode eine Erfolgsquote von 95,6 % bei Langzeitaufgaben.
  3. Der echte Roboter-Test: Sie testeten dies an einem echten, physischen zweiarmigen Roboter. Selbst ohne das „Gehirn“ des Roboters zu ändern, sondern nur die Art und Weise, wie er „denkt“ (unter Verwendung eines Schrittes statt zehn), performte er bei Aufgaben wie dem Verschrauben eines Deckels oder dem Stapeln eines Turms besser oder gleichwertig zur langsamen Methode.

Was sie NICHT getan haben

Es ist wichtig, festzuhalten, was das Paper nicht getan hat, um die Analogie korrekt zu halten:

  • Sie haben keinen neuen Typ von Robotergehirn erfunden.
  • Sie haben keinen „Lehrer-Roboter“ eingesetzt, der dem Schüler zeigt, wie es geht (keine Distillation).
  • Sie haben keine komplexen zusätzlichen Trainingsphasen hinzugefügt.

Sie haben lediglich die Standard-Trainingsmethode genommen und den „Zeitplan“ verschoben, um den Fokus stärker auf Szenarien mit hohem Rauschen zu legen.

Das Fazit

Die Hauptbotschaft des Papers ist simpel: Benutzen Sie keinen Vorschlaghammer, um eine Nuss zu knacken.

Da Roboteraktionen klein und spezifisch sind (im Gegensatz zu komplexen Bildern), benötigen wir nicht die schwere, mehrstufige Maschinerie, die für die Bildgenerierung entwickelt wurde. Indem wir den Roboter während des Übens darauf trainieren, mit Chaos (hohem Rauschen) umzugehen, lernt er, den Hinweisen zu vertrauen und die richtige Bewegung sofort auszuführen. Dies macht Roboter schneller und einfacher zu trainieren, ohne dass komplexe neue Algorithmen erforderlich sind.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →