VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stell dir einen Roboterarm vor, der versuchen soll, eine Tasse Kaffee auf einem Herd zu platzieren. Ein normaler Roboter (wie die bisherigen Modelle) würde so handeln: Er schaut sich den Raum einmal an, merkt sich alles, denkt kurz nach und führt dann seine Handbewegung aus. Das Problem? Wenn er sich irrt oder die Tasse nicht genau sieht, kann er nicht mehr „nachschauen". Er muss blind weitermachen, bis er scheitert.

VLA-Thinker ist wie ein neuer, viel schlauerer Roboter-Assistent. Hier ist die Erklärung, wie er funktioniert, ohne technisches Fachchinesisch:

1. Der große Unterschied: „Einmal gucken" vs. „Nachschauen"

Stell dir vor, du musst einen Schlüssel in einem dunklen, unordentlichen Zimmer finden.

Der alte Weg (Text-basiertes Denken): Du machst die Augen einmal auf, scanst den Raum, schreibst dir eine Liste von Gedanken auf („Der Schlüssel könnte auf dem Tisch sein") und versuchst dann, ihn blind zu greifen. Wenn du daneben greifst, hast du Pech gehabt.
Der neue Weg (VLA-Thinker): Dieser Roboter denkt: „Moment, ich sehe den Schlüssel nicht klar genug." Also sagt er: „Stopp! Ich rufe mein Werkzeug auf, um genauer hinzusehen." Er zoomt digital auf den Tisch, sieht den Schlüssel klar, und greift dann erst zu.

Das ist das Herzstück von VLA-Thinker: Er behandelt das „Sehen" nicht als einmaligen Startschuss, sondern als ein Werkzeug, das er während des Denkens aktiv benutzen kann. Er kann jederzeit sagen: „Ich brauche eine bessere Ansicht von diesem Knopf" oder „Ich bin mir bei diesem Objekt unsicher, lass mich näher ranzoomen."

2. Wie lernt er das? (Die zwei-Phasen-Methode)

Damit ein Roboter so komplexes Verhalten lernt, reicht es nicht, ihm einfach nur Befehle zu geben. Die Forscher haben eine clevere Trainingsmethode entwickelt, die man sich wie das Lernen eines neuen Sports vorstellen kann:

Phase 1: Der Lehrmeister (SFT / Kaltstart)
Zuerst wird der Roboter von einem sehr klugen KI-Lehrer (einem großen Sprachmodell) unterrichtet. Dieser Lehrer zeigt ihm tausende Beispiele, wie man Probleme löst, indem man schaut, denkt, nachschaut, denkt und dann handelt. Der Roboter lernt hier die Grundregeln: „Wenn du unsicher bist, frag nach einem Bild" und „So formulierst du deine Gedanken". Er lernt die Form des Denkens.
Phase 2: Der Wettkampftrainer (GRPO / Belohnung)
Jetzt wird es spannend. Der Roboter darf nun selbst ausprobieren. Er bekommt keine Punkte für jeden einzelnen Schritt, sondern nur am Ende: Hat er die Aufgabe erfolgreich erledigt?
- Wenn er die Tasse erfolgreich auf den Herd stellt, gibt es einen großen Erfolgspunkt.
- Wenn er scheitert, gibt es nichts.
Durch dieses „Versuch-und-Irrtum"-Spiel (verstärktes Lernen) lernt der Roboter schnell: „Aha! Wenn ich zu oft nachzoomen, vergeude ich Zeit. Wenn ich gar nicht nachschaue, greife ich daneben. Ich muss den perfekten Moment finden, um nachzuschauen." Er lernt also nicht nur was zu tun ist, sondern wann es nötig ist, genauer hinzusehen.

3. Warum ist das so wichtig?

Stell dir vor, du musst einen sehr langen, komplizierten Weg gehen (ein „langes Horizont"-Problem).

Ein normaler Roboter läuft los, stolpert über einen Stein, weiß nicht, wo er ist, und fällt hin.
VLA-Thinker stolpert, stoppt, schaut sich den Stein genauer an, denkt: „Oh, das ist ein Stein, ich muss um ihn herumgehen", und setzt seinen Weg fort.

Dank dieser Fähigkeit, während des Denkens aktiv nachzufragen („Thinking-with-Image"), ist der Roboter viel robuster. Er macht weniger Fehler, kann sich von Zwischenfehlern erholen und schafft Aufgaben, die früher als zu schwierig galten.

Die Ergebnisse in Zahlen

Die Tests haben gezeigt, dass dieser Ansatz wirklich funktioniert:

Auf dem LIBERO-Test (eine Art Roboter-Schule für Alltagsaufgaben) erreichte er eine Erfolgsquote von 97,5 %. Das ist ein riesiger Sprung im Vergleich zu vorherigen Modellen.
Auch bei sehr schwierigen, langen Aufgaben (wie das Stapeln von Schüsseln oder das Übergeben von Gegenständen mit zwei Armen) war er deutlich besser als alle anderen.

Fazit

VLA-Thinker ist wie ein Roboter, der gelernt hat, dass „Sehen" nicht nur ein passives Empfangen von Bildern ist, sondern ein aktiver Teil des Denkprozesses. Er weiß, wann er nachschauen muss, um sicherzugehen. Genau wie ein guter Mensch, der bei einer schwierigen Aufgabe kurz innehält und genauer hinsieht, bevor er handelt, ist dieser Roboter jetzt viel zuverlässiger, klüger und erfolgreicher im echten Leben.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Action (VLA) Modelle haben sich als vielversprechender Ansatz für die verkörperte Intelligenz (Embodied Intelligence) etabliert, indem sie Sprachanweisungen und visuelle Eingaben direkt in motorische Steuerbefehle umwandeln. Ein kritischer Engpass der aktuellen State-of-the-Art-Ansätze liegt jedoch in ihrem textbasierten Chain-of-Thought (CoT) Paradigma:

Statische Wahrnehmung: Visuelle Eingaben werden einmalig als statischer Kontext kodiert und bleiben während des gesamten Denkprozesses unverändert.
Passive Rolle: Die Wahrnehmung ist passiv und nicht in den aktiven Denkprozess integriert. Das Modell kann die Umgebung nicht aktiv „nachschauen", um Mehrdeutigkeiten zu klären oder Fehler in Zwischenschritten zu korrigieren.
Folgen: Dies führt zu Schwierigkeiten bei langfristigen Manipulationsaufgaben (Long-Horizon Tasks), bei denen Unsicherheiten auftreten oder die Sicht auf relevante Objekte blockiert sein kann. Herkömmliche Modelle scheitern oft, weil sie nicht dynamisch auf neue visuelle Informationen zugreifen können, während sie „nachdenken".

2. Methodik: VLA-Thinker

Das Paper stellt VLA-Thinker vor, ein Framework, das die Wahrnehmung als expliziten, dynamisch aufrufbaren Teil des Denkprozesses modelliert („Thinking-with-Image").

Kernkonzept: Interleaved Perception-Reasoning-Action

Im Gegensatz zu traditionellen Modellen, die Wahrnehmung und Handeln trennen, erlaubt VLA-Thinker dem Modell, während des Reasoning-Prozesses aktiv visuelle Werkzeuge aufzurufen.

Prozess: Das Modell generiert einen Text-Reasoning-Schritt ( $T_k$ ), entscheidet dann, ob es ein visuelles Werkzeug (z. B. „Zoom-In" oder „Cropping") aufrufen muss ( $C_k$ ), erhält das neue Bildmaterial ( $V_k$ ) und nutzt dies für den nächsten Denk- oder Aktionsschritt ( $A_k$ ).
Werkzeug: Als primäres Beispiel wird ein Zoom-In-Mechanismus verwendet, der es dem Roboter erlaubt, in spezifische Bildbereiche zu zoomen, um Details zu erkennen, die in der Gesamtansicht unklar sind.

Zwei-Stufen-Trainingspipeline

Das Training stellt eine Herausforderung dar, da das Modell lernen muss, was zu denken ist, wann visuelle Informationen abgerufen werden müssen und wie dies mit dem Erfolg der Aufgabe korreliert.

Phase 1: SFT Cold-Start (Supervised Fine-Tuning)
- Ziel: Aktivierung grundlegender Reasoning-Fähigkeiten und Erlernen des Werkzeuggebrauchs.
- Daten: Da existierende Datensätze keine expliziten CoT-Annotationen mit Werkzeugaufrufen enthalten, werden hochwertige embodied Chain-of-Thought-Daten synthetisiert (unter Verwendung von Qwen3-VL-30B).
- Methode: Wichtige Schlüsselframes (basierend auf Greiferzustandsänderungen) werden annotiert, um strukturierte Reasoning-Pfade und korrekte Tool-Aufrufe zu lehren. Dies etabliert die Formatierung und kausale Verknüpfung zwischen Unsicherheit und Tool-Nutzung.
Phase 2: Reinforcement Learning mit GRPO
- Ziel: Optimierung der gesamten Reasoning-Aktions-Trajektorie auf den Aufgaben-Erfolg hin.
- Algorithmus: Group Relative Policy Optimization (GRPO).
- Belohnung (Reward): Die Belohnung ist spärlich und wird nur am Ende der Trajektorie basierend auf dem Erfolg der Aufgabe ( $I_{success}$ ) vergeben. Zusätzlich gibt es eine kleine Format-Belohnung ( $I_{format}$ ), um die Einhaltung des Reasoning-Schemas sicherzustellen.
- Vorteil: GRPO eliminiert die Notwendigkeit einer expliziten Wertfunktion und reduziert die Varianz bei der Optimierung langer Trajektorien mit spärlichem Feedback. Das Modell lernt so, den Trade-off zwischen Rechenaufwand (Anzahl der Tool-Aufrufe) und Erfolg zu balancieren.

3. Wichtige Beiträge

Erstes „Thinking-with-Image" VLA-Modell: VLA-Thinker ist das erste Modell, das visuelle Wahrnehmung als dynamisch aufrufbare Reasoning-Aktion integriert, anstatt sie als statischen Kontext zu behandeln. Dies ermöglicht einen echten multimodalen CoT.
Neue Trainingsstrategie: Die Kombination aus SFT-Cold-Start (für strukturelle Stabilität und Tool-Nutzung) und GRPO-basiertem Trajektorien-Alignment (für effiziente Aufgabenlösung) löst das Problem des Trainings von Modellen mit spärlichen Belohnungen in komplexen Umgebungen.
Nachweis der Effektivität: Die Arbeit zeigt, dass aktives Nachschauen (Active Perception) entscheidend für die Robustheit bei langfristigen Aufgaben ist und Fehlerakkumulation reduziert.

4. Ergebnisse

Die Methode wurde auf zwei führenden Benchmarks evaluiert: LIBERO und RoboTwin 2.0.

LIBERO Benchmark:
- VLA-Thinker erreicht eine durchschnittliche Erfolgsrate von 97,5 %.
- Dies ist eine Steigerung von +6,5 % gegenüber dem starken Baseline-Modell OpenVLA-OFT (91,0 %).
- Besonders starke Verbesserungen wurden bei den „Spatial" (+7,1 %) und „Long" (+10,4 %) Suites erzielt, was die Überlegenheit bei räumlichem Verständnis und langfristiger Planung unterstreicht.
RoboTwin 2.0 Benchmark (Dual-Arm Manipulation):
- Kurzfristige Aufgaben: 62,3 % Erfolgsrate (vs. 21,3 % bei OpenVLA-OFT).
- Mittelfristige Aufgaben: 70,7 % Erfolgsrate.
- Langfristige Aufgaben: 64,6 % Erfolgsrate.
- Die Leistungsvorteile nehmen mit der Komplexität und Länge der Aufgaben zu, was zeigt, dass das Modell bei langen Ketten von Aktionen stabiler bleibt.
Ablationsstudien:
- Nur SFT ohne RL führt zu 95,0 % (gut, aber nicht optimal).
- Nur GRPO ohne SFT führt zu einem starken Leistungsabfall (88,2 %), was die Notwendigkeit des Cold-Starts für strukturelle Stabilität beweist.
- Die Kombination beider Phasen ist essenziell für das beste Ergebnis.

5. Bedeutung und Fazit

VLA-Thinker markiert einen Paradigmenwechsel in der Entwicklung von VLA-Modellen. Anstatt die Wahrnehmung als einmaligen Input zu behandeln, wird sie als aktiver, iterativer Prozess integriert, der eng mit dem Reasoning und Handeln verzahnt ist.

Robustheit: Das Modell kann Unsicherheiten in der Umgebung durch gezieltes Nachschauen (Zoom-In) auflösen, was die Fehlerrate bei komplexen Manipulationsaufgaben drastisch senkt.
Effizienz: Durch das RL-Training lernt das Modell, Werkzeuge nur bei Bedarf einzusetzen, was redundante Berechnungen vermeidet.
Zukunftsausblick: Obwohl das Paper aktuell den „Zoom-In"-Mechanismus als Beispiel nutzt, bietet das Framework eine skalierbare Basis für die Integration komplexerer visueller Werkzeuge in zukünftigen Forschungsarbeiten.

Zusammenfassend beweist VLA-Thinker, dass die explizite Kopplung von Wahrnehmung und Reasoning für robuste, langfristige Entscheidungen in der verkörperten Intelligenz unverzichtbar ist.

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

1. Der große Unterschied: „Einmal gucken" vs. „Nachschauen"

2. Wie lernt er das? (Die zwei-Phasen-Methode)

3. Warum ist das so wichtig?

Die Ergebnisse in Zahlen

Fazit

1. Problemstellung

2. Methodik: VLA-Thinker

Kernkonzept: Interleaved Perception-Reasoning-Action

Zwei-Stufen-Trainingspipeline

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers