DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

DeepEyes: Wenn KI lernt, mit ihren „Augen" zu denken

Stell dir vor, du hast einen sehr klugen Freund, der ein Buch lesen und Fragen dazu beantworten kann. Er ist brillant im Textverständnis. Aber wenn du ihm ein Foto zeigst und fragst: „Ist auf diesem Bild links oder rechts eine Uhr?", stößt er oft an seine Grenzen. Er versucht, das Bild nur mit seinem „Wortschatz" zu beschreiben, statt wirklich hinzusehen. Er rät vielleicht, basierend auf dem, was er in anderen Bildern gesehen hat, statt das Bild genau zu prüfen.

Das ist das Problem, das DeepEyes lösen will. Es ist ein neues KI-Modell, das gelernt hat, nicht nur über Bilder zu sprechen, sondern aktiv mit ihnen zu denken.

1. Der Unterschied: Lesen vs. Suchen

Frühere KI-Modelle waren wie jemand, der ein Buch liest, aber die Bilder im Buch ignoriert. Sie versuchen, alles aus dem Text abzuleiten.
DeepEyes hingegen ist wie ein Detektiv oder ein Wissenschaftler im Labor. Wenn er eine Frage hat, sagt er nicht nur: „Ich denke, die Uhr ist hier." Er sagt: „Moment, ich bin mir nicht sicher. Ich werde jetzt heranzoomen, um mir den Bereich genauer anzusehen."

Das nennt man „Active Perception" (Aktive Wahrnehmung). Das Modell entscheidet selbst:

„Ich brauche mehr Details." -> Es zoomt in einen Teil des Bildes hinein.
„Ich habe genug gesehen." -> Es gibt die Antwort.

2. Wie lernt das Modell das? (Das Training ohne Lehrbuch)

Normalerweise muss man KI-Modelle erst mit tausenden Beispielen füttern („Hier ist ein Bild, hier ist die Antwort, hier ist der Gedankengang"), damit sie lernen, wie man Bilder analysiert. Das ist wie ein Schüler, der eine Formel auswendig lernt, ohne zu verstehen, warum sie funktioniert.

DeepEyes macht es anders. Es gibt ihm kein fertiges Lehrbuch. Stattdessen nutzen die Forscher eine Methode namens Reinforcement Learning (Bestärkendes Lernen).

Die Analogie: Stell dir vor, du trainierst einen Hund. Du sagst ihm nicht, wie er einen Ball apportieren soll. Du wirfst den Ball. Wenn der Hund den Ball bringt, gibt es einen Leckerbissen (Belohnung). Wenn er ihn liegenlässt, gibt es nichts.
Bei DeepEyes: Das Modell bekommt eine Frage und ein Bild. Es darf so oft zoomen, wie es will. Wenn es am Ende die richtige Antwort gibt und dabei das Bild sinnvoll untersucht hat, bekommt es eine große „Belohnung". Wenn es nur rät oder sich im Kreis dreht, bekommt es keine Belohnung.
Das Ergebnis: Durch viele Versuche lernt das Modell von selbst: „Aha! Wenn ich erst mal heranzoomen, finde ich die Antwort sicherer!" Es entwickelt diese Fähigkeit ganz natürlich, ohne dass jemand ihm vorher gezeigt hat, wie man zoomt.

3. Die drei Phasen des Lernens

Das Paper beschreibt eine spannende Reise, die das Modell während des Trainings macht:

Das Neugierige Kind (Anfang): Am Anfang ist das Modell noch ungeschickt. Es zoomt wild herum, oft an die falschen Stellen, wie ein Kind, das zum ersten Mal durch ein Fernglas schaut. Es findet nichts, aber es lernt, dass Zoomen wichtig ist.
Der Eifrige Sucher (Mitte): Bald darauf zoomt es zu viel. Es untersucht jeden Zentimeter des Bildes, auch wenn es nicht nötig ist. Es ist sehr fleißig, aber nicht effizient.
Der Meister-Detektiv (Ende): Schließlich wird es schlau. Es weiß genau, wann es zoomen muss und wo. Es spart Zeit, zoomt nur an die entscheidende Stelle und findet die Antwort schnell und präzise. Es entwickelt Muster, die menschlichem Denken sehr ähnlich sind: Suchen, Vergleichen und Bestätigen.

4. Warum ist das so wichtig?

Keine Halluzinationen: Oft erfinden KIs Dinge, die nicht da sind (z. B. „Ich sehe einen Hund", obwohl da nur ein Stein ist). DeepEyes kann sich selbst korrigieren: „Moment, ich sehe keinen Hund. Ich zoom mal ran... Ah, es ist ein Stein."
Hohe Auflösung: Bei sehr großen Bildern mit winzigen Details (z. B. winzige Schrift auf einem Plakat) scheitern normale KIs oft. DeepEyes kann sich auf die winzige Stelle konzentrieren, genau wie wir es tun, wenn wir eine kleine Schrift lesen wollen.
Alles in einem: Früher brauchte man für das Zoomen ein extra Werkzeug und für das Denken ein extra Modell. DeepEyes macht beides in einem Schritt. Es ist ein „All-in-One"-System.

Fazit

DeepEyes ist wie ein KI-Assistent, der gelernt hat, dass man nicht alles aus dem Kopf raten sollte. Stattdessen hat es gelernt, aktiv nachzusehen, heranzuzoomen und die Details zu prüfen, bevor es eine Antwort gibt. Es ist ein großer Schritt hin zu einer Künstlichen Intelligenz, die nicht nur „spricht", sondern wirklich „sieht" und versteht, wie ein Mensch.

Die Forscher nennen das „Denken mit Bildern". Und das Beste daran: Das Modell hat sich das alles selbst beigebracht, indem es einfach nur belohnt wurde, wenn es gute Arbeit leistete.

Each language version is independently generated for its own context, not a direct translation.

Titel: DeepEyes: Incentivizing „Thinking with Images" via Reinforcement Learning

1. Problemstellung

Große Vision-Language-Modelle (VLMs) sind zwar in der multimodalen Verständnisleistung fortschrittlich, stoßen jedoch an Grenzen, wenn es darum geht, visuelle Informationen tief in ihre überwiegend textbasierten Schlussfolgerungsprozesse zu integrieren.

Herausforderung: Herkömmliche Modelle führen ihr „Denken" (Chain-of-Thought, CoT) primär im Textmodus durch. Im Gegensatz dazu kombiniert menschliche Kognition Sehen und Denken nahtlos, indem sie Informationen durch sequenzielle visuelle Fixierungen extrahiert.
Bestehende Ansätze: Bisherige Methoden zur Integration visueller Daten in CoT nutzen oft vordefizierte Workflows oder externe spezialisierte Modelle (z. B. für Objekterkennung oder Zoom). Diese modularen Designs führen jedoch zu suboptimalen Leistungen und mangelnder Flexibilität.
Ziel: Ein Modell zu entwickeln, das visuelles „Denken" (Thinking with Images) nativ und autonom beherrscht, ohne auf externe Tools oder umfangreiche vorab gesammelte Reasoning-Daten für ein Cold-Start-Supervised Fine-Tuning (SFT) angewiesen zu sein.

2. Methodik

Das Paper stellt DeepEyes vor, ein einheitliches multimodales Large Language Model, das durch End-to-End-Reinforcement Learning (RL) trainiert wird.

Interleaved Multi-modal Chain-of-Thought (iMCoT):
- DeepEyes nutzt einen Reasoning-Prozess, bei dem Text und visuelle Aktionen (wie das Zoomen in Bildbereiche) abwechselnd (interleaved) auftreten.
- Das Modell entscheidet autonom nach jedem Text-Schritt, ob es direkt antwortet oder eine aktive Wahrnehmung (Active Perception) durchführt.
- Als Werkzeug generiert das Modell Bounding-Box-Koordinaten, um relevante Bildbereiche zuzuschneiden (Zoom-in). Diese zugeschnittenen Bilder werden als neue Eingabe in den Reasoning-Pfad eingefügt.
Reinforcement Learning (RL) ohne Cold-Start SFT:
- Im Gegensatz zu früheren Ansätzen, die SFT für Zwischenschritte benötigen, wird DeepEyes direkt mit Outcome-Rewards trainiert.
- Reward-Design: Die Belohnungsfunktion besteht aus drei Teilen:
  1. Accuracy Reward ( $R_{acc}$ ): Korrektur der finalen Antwort.
  2. Format Reward ( $R_{format}$ ): Einhaltung der Ausgabeformatierung.
  3. Conditional Tool Bonus ( $R_{tool}$ ): Ein Bonus wird nur gewährt, wenn die Antwort korrekt ist und mindestens ein aktiver Wahrnehmungsschritt (Zoom) durchgeführt wurde. Dies incentivisiert das Modell, visuelle Informationen strategisch zu nutzen, statt sie unnötig oder ohne Erfolg einzusetzen.
Trainingsdaten-Kuration:
- Um die Effizienz des RL-Starts ohne SFT zu gewährleisten, wurde ein kuratiertes Dataset erstellt, das aus drei Quellen stammt: $V^*$ (feingranulare visuelle Suche), ArxivQA (Diagramme/Charts) und ThinkLite-VL (schwieriges Reasoning).
- Ein mehrstufiger Filterprozess selektiert Daten, die das Potenzial haben, aktives Wahrnehmungsverhalten zu fördern (z. B. durch Entfernen zu einfacher oder unmöglicher Aufgaben).
Optimierung:
- Es wird Group Relative Policy Optimization (GRPO) verwendet.
- Der MDP (Markov Decision Process) wird erweitert, um Beobachtungstokens (die zugeschnittenen Bilder) als Teil des Zustands zu betrachten.

3. Wichtige Beiträge

Natives „Thinking with Images": DeepEyes demonstriert, dass die Fähigkeit, aktiv visuelle Bereiche zu inspizieren und in den Reasoning-Prozess zu integrieren, rein durch RL und ohne externe spezialisierte Modelle oder Cold-Start-SFT erlernt werden kann.
Strategische Incentivierung: Einführung einer datenbasierten Selektionsmechanik und einer bedingten Reward-Strategie. Diese kombinieren, um das Modell zu zwingen, aktives Wahrnehmen nur dann einzusetzen, wenn es für die korrekte Lösung notwendig ist.
Entdeckte Trainingsdynamik: Die Autoren identifizieren drei Phasen der Entwicklung während des RL-Trainings:
- Phase 1 (Exploration): Ineffektives, zufälliges Zoomen.
- Phase 2 (Engagement): Häufiges, aber oft ineffizientes Nutzen der Funktion.
- Phase 3 (Effiziente Nutzung): Selektives, präzises und strategisches Zoomen, das menschliche kognitive Prozesse nachahmt.
Vielfältige Reasoning-Muster: Das Modell entwickelt Muster wie visuelle Suche, visuellen Vergleich, visuelle Bestätigung und Halluzinationsreduktion.

4. Ergebnisse

DeepEyes wurde auf einer Vielzahl von Benchmarks evaluiert und zeigt signifikante Verbesserungen:

High-Resolution Benchmarks:
- Auf dem $V^*$ -Bench erreicht das 7B-Modell eine Genauigkeit von 90,1% (Steigerung von +18,9% gegenüber dem Baseline Qwen2.5-VL 7B).
- Auf HR-Bench-4K und HR-Bench-8K wurden Steigerungen von +6,3% bzw. +7,3% erzielt.
- DeepEyes übertrifft damit auch komplexe Pipeline-Ansätze und proprietäre Modelle wie GPT-4o in spezifischen Aufgaben.
Allgemeine Wahrnehmung und Reasoning:
- Auf dem MME-RealWorld-Lite Benchmark erzielt das 7B-Modell Top-Ergebnisse und schlägt sogar die 32B-Versionen von Qwen2.5-VL.
- Verbesserungen wurden auch bei Grounding (refCOCO, ReasonSeg) und der Reduktion von Halluzinationen (POPE) festgestellt.
Mathematisches Reasoning:
- Konsistente Verbesserungen auf Benchmarks wie MathVista, MathVerse und WeMath, was zeigt, dass die visuelle Integration auch abstrakte Schlussfolgerungen unterstützt.
Zero-Shot Generalisierung: Das Modell kann neue Tools (z. B. Rotation von Bildern) durch reine System-Prompt-Anpassung nutzen, ohne neu trainiert werden zu müssen.

5. Bedeutung und Fazit

DeepEyes markiert einen Paradigmenwechsel in der Entwicklung multimodaler Modelle. Anstatt visuelle und textuelle Reasoning-Prozesse zu trennen oder auf starre Workflows zu setzen, ermöglicht das Paper, dass Modelle autonom entscheiden, wann und wie sie visuelle Informationen einholen müssen.

Skalierbarkeit: Die Methode skaliert effektiv mit der Modellgröße (von 7B auf 32B), wobei größere Modelle komplexere Reasoning-Ketten und präzisere Grounding-Fähigkeiten entwickeln.
Menschliche Kognition: Die emergenten Reasoning-Muster (Suchen, Vergleichen, Bestätigen) ähneln stark menschlichen visuellen Denkprozessen, was die Interpretierbarkeit und Robustheit von KI-Systemen erhöht.
Effizienz: Durch den Verzicht auf SFT für Zwischenschritte und externe Tools wird die Trainingspipeline vereinfacht und die Generalisierungsfähigkeit auf neue Aufgaben erhöht.

Zusammenfassend beweist DeepEyes, dass Reinforcement Learning ein mächtiges Werkzeug ist, um Vision-Language-Modelle zu befähigen, visuell zu „denken" und so die Lücke zwischen menschlicher visueller Kognition und maschineller Wahrnehmung zu schließen.

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

DeepEyes: Wenn KI lernt, mit ihren „Augen" zu denken

1. Der Unterschied: Lesen vs. Suchen

2. Wie lernt das Modell das? (Das Training ohne Lehrbuch)

3. Die drei Phasen des Lernens

4. Warum ist das so wichtig?

Fazit

Titel: DeepEyes: Incentivizing „Thinking with Images" via Reinforcement Learning

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization