Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten Roboter-Fotografen, der Bilder sehen und Fragen dazu beantworten kann. Wenn du ihn fragst: „Was hält der Mann links in der Hand?", muss er erst genau hinschauen, den richtigen Bereich im Bild finden und dann darüber nachdenken.

Das Problem mit den bisherigen Robotern war, dass sie beim „Hinschauen" zwei große Schwierigkeiten hatten. Die neue Methode aus diesem Papier, genannt NV-CoT, löst diese Probleme auf eine sehr clevere Art.

Hier ist die Erklärung in einfachen Worten:

1. Das alte Problem: Der „Zettel-und-Stift"-Ansatz vs. Der „Pixel-Raster"

Bisher gab es zwei Arten, wie diese Roboter versuchten, einen Bereich im Bild zu markieren:

Methode A (Text-basiert): Der Roboter musste die Koordinaten (z. B. „x=10, y=20") als Text schreiben.
- Das Problem: Stell dir vor, du musst einem Freund sagen, wo genau ein Punkt auf einer Landkarte ist, aber du darfst nur ganze Zahlen sagen. Wenn der Punkt bei 10,3 liegt, musst du entweder 10 oder 11 sagen. Das ist ungenau. Außerdem ist es für den Roboter verwirrend, weil Zahlen im Bild eigentlich fließend sind, er sie aber als einzelne Buchstaben (wie „1", "0", ".") behandeln muss. Das ist wie wenn man versucht, eine fließende Wasserströmung mit einzelnen Wörtern zu beschreiben – es passt nicht richtig zusammen.
Methode B (Feste Raster): Der Roboter schaute sich das Bild in einem starren Schachbrettmuster an.
- Das Problem: Stell dir vor, du hast ein Bild, das in 100 große Kacheln unterteilt ist. Wenn das Objekt, das du suchst, genau zwischen zwei Kacheln liegt, passt es nirgendwo perfekt hinein. Der Roboter ist gezwungen, das Objekt zu vergrößern oder zu verkleinern, um es in eine Kachel zu zwingen. Das ist unflexibel.

2. Die neue Lösung: NV-CoT (Der „Gleitende Zeiger")

Die Forscher haben eine neue Methode entwickelt, die NV-CoT heißt. Stell dir das so vor:

Statt dem Roboter einen Zettel mit Zahlen zu geben oder ihn auf ein starres Schachbrett zu zwingen, geben wir ihm einen perfekt gleitenden Zeiger.

Wie es funktioniert: Der Roboter kann nun direkt sagen: „Ich schaue genau auf den Punkt bei 42,2 und 21,4". Er benutzt keine festen Wörter oder grobe Kacheln mehr. Er denkt in fließenden Zahlen (wie ein Lineal, das millimetergenau abliest).
Der Vorteil: Er kann jeden winzigen Bereich im Bild exakt auswählen, egal wie klein oder wo er liegt. Es ist wie der Unterschied zwischen dem Versuch, ein Bild mit groben Kreidestrichen zu zeichnen, und dem Zeichnen mit einem feinen Stift, der jede Bewegung deiner Hand genau verfolgt.

3. Wie lernt der Roboter das? (Der Trainings-Trainer)

Damit der Roboter diese neue Fähigkeit lernt, haben die Forscher zwei Trainingsmethoden entwickelt:

Beim Lernen mit Anleitung (SFT): Der Trainer zeigt dem Roboter das Bild und sagt: „Schau genau hier hin!" Der Roboter lernt dann, die genauen Zahlen zu nennen, die diesem Punkt entsprechen. Es ist wie wenn ein Lehrer einem Schüler sagt: „Nicht 'ungefähr hier', sondern genau auf den Punkt 5,3 zeigen!"
Beim Lernen durch Ausprobieren (RL): Hier gibt es keine genauen Antworten vom Trainer. Der Roboter muss selbst raten. Wenn er den richtigen Bereich findet und die Frage richtig beantwortet, bekommt er einen Punkt (Belohnung). Wenn er daneben liegt, bekommt er keine Punkte.
- Der Clou: Da der Roboter jetzt mit fließenden Zahlen arbeitet, kann er beim Raten auch „ein bisschen daneben" liegen, ohne komplett zu versagen. Er lernt so, seine Unsicherheit zu messen (z. B. „Ich bin mir zu 90% sicher, dass es hier ist"). Das macht ihn viel schlauer und schneller beim Lernen als die alten Methoden.

4. Warum ist das so toll? (Die Ergebnisse)

Die Forscher haben ihren neuen Roboter gegen die alten getestet:

Genauigkeit: Der neue Roboter findet die Objekte viel genauer. Er verpasst nicht mehr Teile des Bildes oder schaut auf den falschen Hintergrund.
Geschwindigkeit: Er lernt schneller, weil er nicht mehr mit dem „Zählen von Buchstaben für Zahlen" oder dem „Zwängen in Schachbretter" kämpfen muss.
Flexibilität: Er funktioniert sowohl, wenn er genaue Antworten bekommt, als auch wenn er selbst herausfinden muss, was richtig ist.

Zusammenfassung in einer Metapher

Stell dir vor, du suchst einen bestimmten Stein in einem riesigen Sandhaufen.

Die alten Roboter hatten entweder eine Lupe mit einem groben Gitter (sie sahen nur große Bereiche) oder sie mussten den Stein beschreiben, indem sie ihn in Wörter klebten (z. B. „Stein bei Buchstabe A, Zeile 3"). Das war ungenau und umständlich.
Der neue Roboter (NV-CoT) hat einen Laserpointer. Er kann den Finger direkt auf den winzigen Stein richten und sagt: „Da ist er, genau bei Koordinaten X und Y". Er braucht keine groben Kacheln und keine verwirrenden Wörter. Er zeigt einfach direkt hin.

Das Ergebnis: Der Roboter sieht die Welt klarer, findet Dinge schneller und macht weniger Fehler. Das ist ein großer Schritt für künstliche Intelligenz, wenn es darum geht, Bilder wirklich zu „verstehen".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) nutzen zunehmend visuelle Chain-of-Thought (CoT)-Verfahren, um bildbasiertes Schlussfolgern durchzuführen. Dabei müssen Modelle relevante Bildregionen lokalisieren, um detaillierte Analysen durchzuführen. Bisherige Ansätze leiden jedoch unter zwei wesentlichen Mängeln:

Textbasierte Koordinaten (Diskretisierung): Herkömmliche Methoden kodieren Bounding-Box-Koordinaten als Text-Token (z. B. ["x1", "y1", "x2", "y2"]). Dies führt zu einem Modality Mismatch (Kontinuum vs. Diskret) und semantischer Fragmentierung. Da Koordinaten als diskrete Tokens trainiert werden (Cross-Entropy), wird die geometrische Nähe ignoriert (z. B. wird die Vorhersage „3,2" bei einem Ziel von „3,1" genauso stark bestraft wie „4,1"). Zudem ist das numerische Vergleichen von Token-Sequenzen fehleranfällig.
Patch-basierte Ansätze (Feste Granularität): Andere Methoden operieren direkt auf visuellen Patches. Diese sind jedoch durch die feste Granularität des visuellen Backbones eingeschränkt, was eine präzise und flexible Regionenauswahl verhindert. Zudem erfordern sie oft erhebliche architektonische Änderungen.

2. Methodik: Numerical Visual Chain-of-Thought (NV-CoT)

NV-CoT schlägt vor, den Aktionsraum von MLLMs von diskreten Vokabular-Token auf einen kontinuierlichen euklidischen Raum zu erweitern. Das Modell generiert direkt numerische Bounding-Box-Koordinaten als Aktionen.

Kernkomponenten:

Erweiterter Aktionsraum: Anstelle von Text-Token werden vier lineare Köpfe hinzugefügt, die die Koordinaten $[x_1, y_1, x_2, y_2]$ direkt als kontinuierliche Werte vorhersagen.
Stochastische Policies für RL: Um Reinforcement Learning (RL) zu ermöglichen, wird die deterministische Vorhersage durch eine stochastische Policy ersetzt.
- Gaussian Policy: Das Modell predicts einen Mittelwert $\mu$ und eine Standardabweichung $\sigma$ . Die Aktionen werden über den Reparameterization-Trick gesampelt: $b = \mu + \sigma \cdot \epsilon$ . Dies ermöglicht Exploration und ist kompatibel mit GRPO (Group Relative Policy Optimization).
- Laplace Policy: Als Alternative wird eine Laplace-Verteilung verwendet, die empirisch robuster für Lokalisierungsaufgaben ist (entspricht einem $\ell_1$ -Verlust).
Training-Phasen:
- Supervised Fine-Tuning (SFT): Der Verlust wird von Cross-Entropy auf einen Regressionsverlust ( $\ell_2^2$ für Gaussian, $\ell_1$ für Laplace) umgestellt, um die Koordinaten zu überwachen.
- Reinforcement Learning (RL): Das Framework nutzt GRPO. Da die Policy nun kontinuierlich ist, werden die Importance Ratios und die KL-Strafe analytisch für Gaußsche/Laplace-Verteilungen berechnet, anstatt für kategoriale Verteilungen.
Minimaler Eingriff: Die Architekturänderung beschränkt sich auf das Hinzufügen von fünf leichten linearen Köpfen, was NV-CoT modular und leicht anwendbar macht.

3. Hauptbeiträge

Kontinuierlicher Aktionsraum: NV-CoT erweitert den Aktionsraum von MLLMs von diskreten Tokens auf einen kontinuierlichen euklidischen Raum, was die direkte Generierung numerischer Bounding-Box-Koordinaten ermöglicht.
Kompatible Policy-Optimierung: Entwicklung von Gaußschen und Laplace-Policies mit reparametrisiertem Sampling und analytischen Importance Ratios, die eine nahtlose Integration in gängige RL-Algorithmen (wie GRPO) für kontinuierliche Aktionen ermöglichen.
Umfassende Evaluation: Experimente auf drei Benchmarks gegen acht Baseline-Modelle (Text-basiert, Patch-basiert, SFT und RL) belegen signifikante Verbesserungen.

4. Ergebnisse

Die Evaluierung erfolgte auf den Benchmarks V*Bench, HR-Bench 4K und HR-Bench 8K.

Überlegene Leistung: NV-CoT übertrifft sowohl textbasierte (z. B. DeepEyes, Vis-CoT) als auch patch-basierte (z. B. LVR, PaDT) Ansätze konsistent.
- Im RL-Setting (auf DeepEyes-7B basierend) erreichte NV-CoT eine Steigerung von +2,6 % bis +2,7 % in der Gesamtgenauigkeit auf V*Bench.
- Im SFT-Setting (auf Vis-CoT-7B basierend) wurden Steigerungen von +3,4 % bis +3,7 % erzielt.
- Ein 7B-Modell mit NV-CoT übertraf sogar ein 32B-Modell (Qwen2.5-VL-32B) in allen Benchmarks.
Präzision und Konvergenz: NV-CoT zeigt eine deutlich höhere Lokalisierungsgenauigkeit (IoU) und konvergiert während des Trainings schneller als diskrete Ansätze.
Ablationsstudien:
- Die Laplace-Policy (entsprechend $\ell_1$ -Verlust) erwies sich als robuster und leistungsfähiger als die Gaussian-Policy ( $\ell_2^2$ ).
- Die Verwendung eines geteilten Unsicherheitsparameters ( $\sigma$ oder $\alpha$ ) für alle Koordinaten war ebenso effektiv wie die Vorhersage individueller Parameter, was die Komplexität reduziert.
- Die Analyse des Skalierungsparameters $\alpha$ zeigte, dass erfolgreiche Trajektorien mit geringerer Unsicherheit (kleineres $\alpha$ ) korrelieren.

5. Bedeutung und Fazit

NV-CoT adressiert fundamentale Schwächen bestehender visueller CoT-Methoden, indem es die Diskrepanz zwischen der kontinuierlichen Natur visueller Daten und der diskreten Verarbeitung durch Sprachmodelle überbrückt.

Technischer Fortschritt: Es demonstriert, dass die Behandlung von Bildlokalisierung als kontinuierliche Aktion die semantische Fragmentierung und Modality-Mismatch-Probleme löst.
Effizienz: Durch die Vermeidung komplexer architektonischer Änderungen (im Gegensatz zu Patch-basierten Methoden) und die Beschleunigung der Trainingskonvergenz ist NV-CoT eine skalierbare Lösung.
Anwendbarkeit: Die Methode verbessert nicht nur die finale Antwortgenauigkeit, sondern auch die Fähigkeit des Modells, genau auf relevante Bildbereiche zu fokussieren, was für Anwendungen wie Visual Question Answering (VQA) und optische Zeichenerkennung (OCR) entscheidend ist.

Zusammenfassend etabliert NV-CoT einen neuen Standard für „Thinking with Images", indem es numerische Koordinaten als primäre Aktionsform nutzt und so die visuelle Reasoning-Fähigkeit von MLLMs signifikant steigert.

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

1. Das alte Problem: Der „Zettel-und-Stift"-Ansatz vs. Der „Pixel-Raster"

2. Die neue Lösung: NV-CoT (Der „Gleitende Zeiger")

3. Wie lernt der Roboter das? (Der Trainings-Trainer)

4. Warum ist das so toll? (Die Ergebnisse)

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik: Numerical Visual Chain-of-Thought (NV-CoT)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

Logic-Gated Time-Shared Feedforward Networks for Alternating Finite Automata: Exact Simulation and Learnability

CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology

DarwinNet: An Evolutionary Network Architecture for Agent-Driven Protocol Synthesis