VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen Assistenten, der zwar viel weiß, aber manchmal Probleme hat, wenn er Bilder betrachten muss. Wenn du ihm ein Diagramm zeigst und fragst: „Wie viele Äpfel sind hier?", antwortet er vielleicht einfach: „Normalerweise gibt es fünf Äpfel in einem Korb", weil er sich an Text erinnert, statt wirklich hinzusehen. Er nutzt seine „Wort-Bibliothek", statt seine „Augen" zu benutzen.

Das ist das Problem, das die Forscher mit VTool-R1 lösen wollen. Hier ist die Erklärung, wie sie das erreichen, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Assistent schaut nicht wirklich hin

Bisherige KI-Modelle (die sogenannten VLMs) sind wie ein Detektiv, der nur liest, aber nicht sieht. Wenn er ein Bild bekommt, wandelt er es sofort in Text um und denkt dann nur noch in Worten.

Die Metapher: Stell dir vor, du hast einen Koch, der ein Rezept liest. Wenn du ihm ein Foto von einem verbrannten Kuchen zeigst und fragst: „Ist der Kuchen fertig?", sagt er: „Ja, Kuchen sind immer fertig, wenn sie im Ofen waren", weil er nur das Rezept im Kopf hat, nicht das Bild. Er ignoriert die Realität.

2. Die Lösung: „Denken mit Bildern" (Think with Images)

Die Forscher haben dem Assistenten eine neue Fähigkeit beigebracht: Er darf nicht nur reden, sondern auch zeichnen und bearbeiten, bevor er antwortet.

Die Metapher: Wir geben dem Koch einen Zettel und einen roten Stift. Bevor er antwortet, darf er auf dem Foto des Kuchens Kreise machen, Teile abdecken oder bestimmte Bereiche hervorheben. Er sagt: „Moment, ich male mir erst mal den verbrannten Teil rot an, dann sehe ich, dass er noch nicht fertig ist."
Das nennt man „Multimodale Denkketten". Der Assistent denkt nicht nur in Sätzen, sondern in einer Mischung aus Sätzen und bearbeiteten Bildern.

3. Wie lernen sie das? (Reinforcement Learning)

Früher mussten Lehrer (Menschen) dem Assistenten Schritt für Schritt zeigen: „Mach erst einen Kreis, dann schreib das hier." Das ist mühsam und teuer.
Bei VTool-R1 machen die Forscher es anders. Sie nutzen eine Methode, die man „Belohnung durch Ergebnis" nennt.

Die Metapher: Stell dir vor, du trainierst einen Hund. Du sagst ihm nicht: „Hebe zuerst die linke Pfote, dann die rechte." Du stellst einfach einen Ball hin. Wenn der Hund den Ball bringt, bekommt er einen Leckerbissen. Wenn nicht, bekommt er nichts.
Der Hund lernt schnell: „Ah, ich muss den Ball holen, um den Leckerbissen zu bekommen." Er probiert verschiedene Wege aus (vielleicht springt er, vielleicht läuft er).
Genauso ist es bei VTool-R1: Der KI wird eine Aufgabe gegeben (z. B. „Wie viele Balken sind im Diagramm?"). Wenn sie die richtige Antwort gibt, bekommt sie eine „Belohnung" (ein positives Signal). Wenn sie falsch liegt, bekommt sie keine.
Der Clou: Die KI lernt dadurch selbst, wann es sinnvoll ist, das Bild zu bearbeiten (den Stift zu benutzen) und wann sie es lassen kann. Sie lernt, dass das „Zeichnen" manchmal der Schlüssel zum Erfolg ist.

4. Die Werkzeuge: Der „Zauberkasten"

Damit der Assistent überhaupt zeichnen kann, haben die Forscher ihm einen kleinen Werkzeugkasten aus Python-Code gegeben.

Die Metapher: Es ist wie ein digitaler Marker. Der Assistent kann damit:
- Wichtige Zeilen in einer Tabelle rot anmalen (Hervorheben).
- Unwichtige Teile weiß übermalen (Ausblenden).
- Um bestimmte Bereiche einen roten Kasten zeichnen.
Wenn er diese Werkzeuge benutzt, entsteht ein neues, bearbeitetes Bild. Dieses neue Bild schickt er sich selbst zurück, als wäre es ein neuer Hinweis, und denkt dann weiter darüber nach.

5. Das Ergebnis: Ein smarterer Denker

Durch dieses Training (das sie RFT nennen) wird der Assistent viel besser in Aufgaben, die Diagramme und Tabellen betreffen.

Das Ergebnis: Er macht weniger Fehler, weil er nicht mehr nur auf „Wort-Tricks" hereinfällt. Er lernt, das Bild aktiv zu untersuchen, genau wie ein Mensch, der sich eine Landkarte ansieht und sich mit dem Finger den Weg nachzeichnet, bevor er losläuft.

Zusammenfassung in einem Satz

VTool-R1 ist wie ein Trainer, der einem KI-Assistenten beibringt, nicht nur zu reden, sondern aktiv mit einem Stift auf Bildern herumzuzeichnen, um die richtige Antwort zu finden – und zwar nur durch Belohnung für das Endergebnis, ohne dass jemand ihm jeden einzelnen Strich vorgeben muss.

Es ist der erste Schritt, damit KIs wirklich „sehen" lernen, statt nur über Bilder zu sprechen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Aktuelle Fortschritte bei Large Language Models (LLMs) durch Reinforcement Learning Finetuning (RFT) haben die Fähigkeit zu logischem Schlussfolgern („Chain of Thought") und zur Nutzung externer Tools erheblich verbessert. Bei Vision-Language Models (VLMs) bleibt dieser Fortschritt jedoch hinter dem zurück.

Text-Dominanz: Bisherige Ansätze zur Verbesserung von VLMs konzentrieren sich fast ausschließlich auf textbasiertes Schlussfolgern, das auf festen Bild-Eingaben basiert. Die Modelle generieren reine Text-Antworten, ohne visuelle Zwischenschritte in die Antwortkette zu integrieren.
Fehleranfälligkeit: Wenn die Textdominanz überwiegt, neigen Modelle dazu, „Sprach-Abkürzungen" zu nutzen (z. B. die Annahme, eine Hand habe immer fünf Finger, selbst wenn das Bild sechs zeigt), anstatt das Bild tatsächlich zu analysieren.
Fehlende Trainingsmechanismen: Inferenz-basierte Methoden wie „Visual Sketchpad" können zwar visuelle Zwischenschritte generieren, benötigen jedoch extrem leistungsfähige Modelle (wie GPT-4o) und besitzen keine Trainingsmechanismen, um diese Fähigkeiten bei kleineren oder Open-Source-Modellen zu erlernen.

Das Ziel von VTOOL-R1 ist es, VLMs beizubringen, aktiv mit Bildern zu „denken", indem sie visuelle Bearbeitungswerkzeuge nutzen, um ihre eigene Argumentation zu unterstützen, und dies durch Reinforcement Learning zu erlernen.

2. Methodik: VTOOL-R1 Framework

VTOOL-R1 ist ein RFT-Framework, das VLMs trainiert, multimodale „Chain of Thought" (CoT) zu generieren, bei denen Text und visuelle Zwischenschritte abwechselnd auftreten.

A. Architektur und Inferenz-Workflow:

Interleaved Reasoning: Das Modell generiert eine Antwortkette, die Text-Überlegungen („Thoughts"), Tool-Aufrufe („Actions") und die daraus resultierenden bearbeiteten Bilder („Observations") enthält.
Visuelle Tools: Das Framework integriert Python-basierte Bildbearbeitungswerkzeuge (basierend auf dem Refocus-Datensatz). Diese Tools können z. B. Spalten oder Zeilen in Tabellen hervorheben, maskieren oder umranden, um die Aufmerksamkeit des Modells auf relevante Bildbereiche zu lenken.
Iterativer Prozess:
1. Das Modell erhält eine Bild- und Texteingabe.
2. Es entscheidet, ob ein Tool aufgerufen werden muss.
3. Falls ja, wird Python-Code generiert, der im externen Umfeld ausgeführt wird, um ein modifiziertes Bild zu erzeugen.
4. Das modifizierte Bild wird zusammen mit dem Originalbild als zweiter Eingabekanal zurück an das VLM gesendet.
5. Das Modell führt eine zweite Inferenz durch, um basierend auf dem bearbeiteten Bild die finale Antwort zu generieren.

B. Training mit Reinforcement Learning (RFT):

Ziel: Das Modell wird trainiert, den optimalen Pfad (direkte Antwort vs. Tool-Nutzung) autonom zu wählen, um die Genauigkeit der Endantwort zu maximieren.
Algorithmus: Es wird Group Relative Policy Optimization (GRPO) verwendet. Dies ist eine stabile, kritikerfreie Variante des Policy Gradient, die die Vorteile innerhalb einer Gruppe von Stichproben schätzt.
Belohnungssignal (Reward):
- Outcome-Based Reward: Das System verwendet ausschließlich eine Belohnung basierend auf der Korrektheit der Endantwort (z. B. durch einen LLM-basierten Judge oder String-Match).
- Keine Prozess-Belohnung: Es gibt keine expliziten Belohnungen oder Strafen für das bloße Erstellen von Tool-Aufrufen oder den Erfolg des Tool-Aufrufs an sich. Dies verhindert „Reward Hacking" (z. B. das Erzeugen sinnloser Tool-Aufrufe nur, um eine Belohnung zu erhalten). Das Modell lernt somit intrinsisch, wann und wie es Tools nutzen muss, um das Endergebnis zu verbessern.
Optimierungsziel: Nur die finale Antwort $y$ wird optimiert, nicht der Zwischenschritt $y'$ (der Tool-Aufruf). Dies fördert eine end-to-end Lernstrategie.

3. Wichtige Beiträge

Erstes RFT-Framework für multimodales Denken: VTOOL-R1 ist das erste Framework, das VLMs erfolgreich trainiert, visuelle Zwischenschritte (durch Tool-Nutzung) direkt in die generierte Antwortkette zu integrieren („Thinking with images").
Strategische Tool-Nutzung ohne Prozess-Supervision: Das Framework demonstriert, dass reine Ergebnis-basierte Belohnungen ausreichen, um Modelle zu lehren, strategisch visuelle Editier-Tools einzusetzen, um die Argumentationsqualität zu steigern.
Validierung auf strukturierten Daten: Die Methode wurde rigoros auf Datensätzen für Tabellen- und Diagramm-Reasoning (VWTQ, ChartQA) getestet und zeigt, dass das Modell lernt, visuelle Aufmerksamkeit selektiv zu steuern.

4. Ergebnisse

Die Experimente wurden mit Qwen2.5-VL Modellen (3B, 7B, 32B Parameter) durchgeführt.

Leistungssteigerung: VTOOL-R1 übertrifft sowohl direkte Inferenz-Baselines als auch Modelle, die nur zur Tool-Nutzung promptet wurden, aber nicht durch RFT trainiert wurden.
- Auf dem Chart-Split erreichte das 7B-Modell mit VTOOL-R1 eine Genauigkeit von 80,7 % (verglichen mit 53,4 % bei direkter Tool-Nutzung ohne Training und 76,2 % bei reinem Text-Run).
- Auf dem Table-Split erreichte das 7B-Modell 71,7 % (vs. 41,1 % ohne Training).
Vergleich mit State-of-the-Art: VTOOL-R1 (7B) übertrifft das concurrente Modell „Deepeyes" (60,0 %) deutlich auf strukturierten Bilddaten. Es erreicht auf Chart-Daten sogar die Leistung von GPT-4o (80,7 % vs. 80,5 %).
Lernverhalten: Das Training zeigt, dass die Modelle lernen, Tools selektiv einzusetzen. Die Tool-Nutzungsrate steigt nicht monoton; Modelle lernen, Tools nur dann zu nutzen, wenn es für die Lösung notwendig ist, und vermeiden sie bei einfachen Aufgaben. Dies führt zu einer höheren Gesamtgenauigkeit.
Skalierbarkeit: Die Methode funktioniert effektiv über verschiedene Modellgrößen (3B bis 32B), wobei auch kleinere Modelle (3B) durch RFT in die Lage versetzt werden, sinnvolle visuelle Zwischenschritte zu generieren, was vorher bei Open-Source-Modellen kaum möglich war.

5. Bedeutung und Ausblick

VTOOL-R1 markiert einen Paradigmenwechsel in der multimodalen KI-Forschung:

Überwindung der Text-Dominanz: Es beweist, dass VLMs nicht nur Bilder „sehen", sondern aktiv mit ihnen interagieren können, um komplexe Schlussfolgerungen zu ziehen.
Effizienz: Durch den Verzicht auf teure Prozess-Belohnungen oder menschliche Annotationen für jeden Zwischenschritt ist der Ansatz skalierbar und robust.
Zukunft: Das Framework legt den Grundstein für zukünftige Agenten-Systeme, die über mehrere Runden hinweg komplexe visuelle Aufgaben lösen können, indem sie Werkzeuge iterativ nutzen. Es öffnet die Tür für Anwendungen, die tiefes visuelles Verständnis und logisches Reasoning kombinieren, weit über das hinaus, was in den Modellparametern kodiert ist.

Zusammenfassend zeigt VTOOL-R1, dass Reinforcement Learning VLMs befähigen kann, nicht nur auf Bildern zu antworten, sondern aktiv mit ihnen zu „arbeiten", um ihre eigene Argumentation zu verbessern.

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

1. Das Problem: Der Assistent schaut nicht wirklich hin

2. Die Lösung: „Denken mit Bildern" (Think with Images)

3. Wie lernen sie das? (Reinforcement Learning)

4. Die Werkzeuge: Der „Zauberkasten"

5. Das Ergebnis: Ein smarterer Denker

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: VTOOL-R1 Framework

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization