DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, extrem detaillierten Fotoalbum (das ist dein Bild) und eine sehr spezifische Frage dazu, zum Beispiel: „Welche Nummer steht auf dem Shirt des Bibers mit den Ohrenhaaren?"

Ein normales KI-Modell (ein „Large Vision-Language Model" oder LVLM) schaut sich das ganze Album oft auf einen Blick an. Es versucht, die Antwort sofort zu erraten. Aber das Problem ist: Das Bild ist voller Ablenkungen – andere Tiere, Bäume, Wolken. Die KI gerät leicht in Panik, schaut in die falsche Richtung (wie wenn man in einem lauten Raum versucht, eine einzelne Stimme zu hören) und antwortet dann falsch oder ratet einfach.

DeepScan ist wie ein neuer, schlauer Detektiv für diese KIs. Es ist ein Werkzeug, das die KI nicht neu trainieren muss, sondern das man einfach „dazusteckt", damit sie besser wird.

Hier ist, wie DeepScan funktioniert, erklärt mit einfachen Vergleichen:

1. Der alte Weg: Der „Ein-Schuss"-Versuch

Die alten Methoden versuchen, das ganze Bild auf einmal zu scannen, um den Bibershirt zu finden. Das ist wie wenn du versuchst, eine einzelne Nadel in einem Heuhaufen zu finden, indem du einfach schnell über den ganzen Heuhaufen springst. Wenn der Heuhaufen groß und unordentlich ist, verpasst du die Nadel oder greifst nach einem Strohhalmspitze, die nur ähnlich aussieht.

2. Der DeepScan-Weg: Der „Kleinen-Schritt-für-Kleinen-Schritt"-Ansatz

DeepScan macht es anders. Es nutzt drei Tricks, die wir uns wie eine Detektivarbeit vorstellen können:

Schritt A: Der „Mikroskop-Scan" (Hierarchical Scanning)

Statt das ganze Bild auf einmal zu betrachten, schneidet DeepScan das Bild in viele kleine Puzzleteile (Flicken).

Die Analogie: Stell dir vor, du suchst nach einem winzigen Fehler in einem riesigen Teppich. Du nimmst eine Lupe und gehst Zentimeter für Zentimeter über den Teppich.
Was passiert: DeepScan schaut sich jeden kleinen Fleck an und fragt: „Hey, hier gibt es einen interessanten Hinweis!" (z. B. ein kleines Stück Stoff oder eine Farbe). Es ignoriert dabei den ganzen Rest des Bildes.
Der Clou: Sobald es einen kleinen Hinweis findet, zoomt es nicht sofort raus, sondern nutzt diesen Hinweis, um das eigentliche Ziel (den Bibershirt) genau zu lokalisieren. Es baut die Antwort von unten nach oben auf (Bottom-Up), statt von oben nach unten zu raten.

Schritt B: Der „Fokus-Reset" (Refocusing)

Manchmal findet die KI zwar den Biber, aber der Ausschnitt ist zu eng (nur der Biber ist zu sehen) oder zu weit (zu viel Hintergrund).

Die Analogie: Stell dir vor, du hast eine Kamera. Du hast das Motiv gefunden, aber der Bildausschnitt ist schief. DeepScan sagt: „Moment mal, lass uns den Bildausschnitt korrigieren."
Was passiert: Die KI und ein spezielles „Experten-Tool" (ein anderer, sehr guter Bild-Scanner) arbeiten zusammen. Sie zoomen genau richtig heran oder heraus, um sicherzustellen, dass der Biber perfekt im Bild ist und man alle wichtigen Details (wie die Ohrenhaare) sieht, ohne von unnötigem Hintergrund abgelenkt zu werden.

Schritt C: Der „Erinnerungs-Notizblock" (Evidence-Enhanced Reasoning)

Jetzt hat die KI alle die richtigen Puzzleteile und den perfekten Bildausschnitt.

Die Analogie: Ein Detektiv legt alle gefundenen Hinweise (den kleinen Stofffetzen, den perfekten Zoom) auf einen Tisch und sagt: „Okay, jetzt habe ich alle Beweise. Was bedeutet das?"
Was passiert: Die KI fasst alle diese genauen Informationen zusammen und gibt eine Antwort, die nicht nur richtig ist, sondern auch erklärt, warum sie richtig ist („Ich sehe die Nummer 7, weil ich hier genau hingeschaut habe").

Warum ist das so cool?

Kein neues Training nötig: Du musst die KI nicht mühsam neu lernen lassen. Du gibst ihr einfach DeepScan als Werkzeug in die Hand, und sie wird sofort schlauer.
Robustheit: Selbst wenn das Bild sehr chaotisch ist (viele andere Tiere, lauter Hintergrund), findet DeepScan den Biber, weil es sich nicht von der Masse ablenken lässt. Es sucht nach den winzigen, wichtigen Details.
Für alle Größen: Es funktioniert gut mit kleinen KIs und wird noch besser mit riesigen KIs.

Zusammengefasst:
Während andere KIs versuchen, das ganze Bild auf einen Blick zu „schlucken" und dabei oft verdaut werden, isst DeepScan das Bild in kleinen, verdaulichen Bissen, schaut sich jeden Bissen genau an, korrigiert den Blickwinkel und liefert dann eine Antwort, die auf harten Beweisen basiert. Es ist der Unterschied zwischen „Ich glaube, ich habe was gesehen" und „Ich habe genau hingeschaut und kann es beweisen."

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Vision-Sprach-Modelle (LVLMs) sind zwar leistungsfähig, scheitern jedoch oft an komplexen visuellen Aufgaben, die eine visuell fundierte Begründung (Visually Grounded Reasoning) erfordern.

Herausforderung: Bestehende Methoden folgen meist einem „Top-Down"-Paradigma (grob-zu-fein). Sie versuchen, evidenzbasierte Regionen in einem einzigen Schritt (One-Shot) im gesamten Bild zu lokalisieren.
Fehlerquellen: Dieser Ansatz ist anfällig für Aufmerksamkeits-Sinks (Attention Sinks, wo das Modell irrelevante, aber saliente Bereiche fokussiert) und Aufmerksamkeits-Drift (Attention Drift, wo das Modell bei semantisch ähnlichen Objekten den Fokus verliert).
Folge: Das Modell lokalisiert die falschen Beweise, ignoriert feine Details oder macht uninformierte Vermutungen, was besonders bei hochauflösenden Bildern und kleinen Zielen zu Halluzinationen führt.
Menschlicher Vergleich: Menschen lösen solche Aufgaben hingegen oft „Bottom-Up": Sie scannen lokale Patches nach subtilen Hinweisen (Cues), verifizieren diese und rekonstruieren dann den Kontext, um das Ziel robust zu finden.

2. Methodik: DeepScan Framework

DeepScan ist ein trainingsfreies Framework, das LVLMs ohne Feinabstimmung (Fine-Tuning) verbessert. Es kombiniert drei Hauptkomponenten, um eine robuste, bottom-up Beweislokalisierung zu erreichen:

A. Hierarchisches Scannen (Hierarchical Scanning)

Dies ist der Kern des Bottom-Up-Ansatzes, der Rauschen im Kontext unterdrückt.

Lokale Cue-Exploration: Das Bild wird in Patches unterteilt. Ein „Search Expert" (basierend auf GradCAM) analysiert jeden Patch und identifiziert potenzielle Hinweisregionen (Cues) mittels Otsus Schwellenwertmethode.
Punkt-basierte Proxy-Erstellung: Anstatt ganze Regionen zu vorschlagen, werden für jede Cue-Region innere Punkte (Proxies) berechnet. Diese Punkte werden basierend auf geometrischer Distanz zum Rand und semantischer Aufmerksamkeit (Attention Scores) gewählt, um robuste Ankerpunkte zu erhalten.
Multi-Skalen-Beweis-Extraktion: Diese Punkte werden an einen „Visual Expert" (z. B. LangSAM) übergeben, der eine Segmentierungsmaske (Evidence Mask) erstellt.
Morphologische Nachbearbeitung: Um Lücken in den Masken zu schließen und den Kontext zu erweitern, werden morphologische Operationen (Schließen und Dilatieren) angewendet.
Heuristische Beschleunigung: Um die Rechenzeit zu begrenzen, werden nur die $k$ kleinsten, aber relevantesten Beweisregionen ausgewählt, da große Regionen oft bereits vom LVLM erkannt werden, während kleine, subtile Details oft übersehen werden.

B. Refocusing (Nachfokussierung)

Da die initiale Lokalisierung durch das Scannen manchmal ungenau ist oder zu viel/zu wenig Kontext liefert, wird ein kollaborativer Suchprozess eingeführt.

Ziel: Finden einer optimalen Ansicht, die alle notwendigen Beweise enthält, aber störenden Kontext minimiert.
Prozess: Das System startet mit der aggregierten Beweisregion und führt eine begrenzte Suche durch:
- Zoom-In: Verkleinerung des Kontexts basierend auf Detektionen.
- Zoom-Out: Vergrößerung des Kontexts, um fehlende Informationen wiederherzustellen.
Auswahl: Ein LVLM bewertet verschiedene Ansichten (State Reward) und wählt diejenige aus, die die Frage am besten beantworten kann, wobei eine Balance zwischen Vollständigkeit und Kompaktheit gewahrt wird.

C. Beweis-Verbessertes Reasoning (Evidence-Enhanced Reasoning)

Hybride Beweis-Speicher: Es wird ein Speicher aufgebaut, der sowohl die feinkörnigen Beweise (aus dem Scannen) als auch die grobkörnigen, optimierten Ansichten (aus dem Refocusing) enthält.
Reasoning: Das LVLM erhält diese multi-granularen Informationen als Prompt und generiert eine Antwort, die auf den lokalisierten Beweisen basiert. Dies führt zu präziseren und interpretierbareren Ergebnissen.

3. Schlüsselbeiträge

DeepScan Framework: Ein trainingsfreies System, das LVLMs durch explizite Lokalisierung, Neukalibrierung und Integration von Beweisen vor der Antwortgenerierung verbessert.
Hierarchisches Scannen: Ein neues Bottom-Up-Paradigma, das Rauschen durch lokale Cue-Exploration und Multi-Skalen-Extraktion effektiv reduziert.
Refocusing: Ein kollaborativer Suchmechanismus zwischen LVLM und externen visuellen Experten, um den Kontext der Beweise zu optimieren.
Umfassende Evaluation: Demonstration, dass DeepScan die Leistung von LVLMs über verschiedene Architekturen und Größen hinweg signifikant steigert, ohne zusätzliche Anpassungskosten.

4. Ergebnisse

Die Experimente wurden auf Benchmarks wie V*, HR-Bench und TreeBench durchgeführt.

Leistung auf V Bench:* DeepScan integriert mit Qwen2.5-VL-7B erreicht eine Gesamtgenauigkeit von 90,6 %. Dies ist eine Steigerung von +16,3 % gegenüber dem Basis-Modell (Qwen2.5-VL-7B) und übertrifft sowohl trainingsfreie Baselines (z. B. DyFo, ZoomRefine) als auch RL-basierte Methoden (z. B. DeepEyes, PixelReasoner).
Skalierbarkeit: Das Framework skaliert nahtlos auf größere Modelle (bis Qwen2.5-VL-72B) und erzielt dort sogar noch höhere Verbesserungen (bis zu +9,4 %).
Vergleich mit SOTA: DeepScan erreicht State-of-the-Art-Ergebnisse in feinkörnigen visuellen Verständnisaufgaben und übertrifft sogar einige 70B-Parameter-Modelle in Perzeptionsaufgaben, obwohl es auf einem 7B-Modell basiert.
Effizienz: Trotz der mehrstufigen Verarbeitung ist DeepScan effizienter als viele RL-basierte Agenten, da es deterministische Stichproben und Batch-Verarbeitung nutzt, anstatt teure sequenzielle Suchbäume (wie MCTS) zu durchlaufen.

5. Bedeutung und Fazit

DeepScan adressiert eine fundamentale Schwäche aktueller LVLMs: die Unfähigkeit, in lauten Umgebungen robuste visuelle Beweise zu finden.

Paradigmenwechsel: Der Wechsel von einem „One-Shot"-Top-Down-Ansatz zu einem Bottom-Up-Hierarchischen Ansatz ist entscheidend für die Robustheit bei feinen Details und kleinen Zielen.
Praktische Relevanz: Da DeepScan trainingsfrei ist, kann es sofort auf bestehende Modelle angewendet werden, ohne teures Fine-Tuning oder Reinforcement Learning.
Zukunft: Die Arbeit zeigt, dass durch intelligente Testzeit-Strategien (Test-Time Scaling) und die Nutzung externer Experten die Grenzen der aktuellen LVLMs in Bezug auf visuelle Begründung und Halluzinationsreduktion erheblich verschoben werden können.

Zusammenfassend bietet DeepScan einen robusten, skalierbaren und effizienten Weg, um Large Vision-Language Models für komplexe, evidenzbasierte visuelle Aufgaben zu befähigen.