AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem klugen, aber manchmal etwas verwirrten Assistenten. Dieser Assistent ist ein KI-Modell, das Bilder sehen und dazu Texte verstehen kann (ein sogenanntes LVLM – Large Vision-Language Model).

Wenn Sie diesem Assistenten eine Frage stellen, zum Beispiel: "Was ist auf dem Bild zu sehen?", antwortet er normalerweise. Aber manchmal ist er unsicher oder schaut auf das Falsche.

Bisher haben Forscher versucht, ihm zu helfen, indem sie ihm feste Anweisungen gaben. Das ist so, als würden Sie ihm immer sagen: "Schau bitte genau in die Mitte des Bildes!" oder "Ignoriere den Hintergrund!". Das funktioniert gut für manche Bilder, aber bei anderen ist diese feste Anweisung völlig falsch. Es ist wie ein Schlüssel, der nur für eine Tür passt, aber für alle anderen Türen im Haus unbrauchbar ist.

Das Problem: Der "Einheits-Schlüssel"

Die Forscher haben gemerkt: Wenn man immer nur denselben Tipp gibt (z. B. immer einen roten Kreis um das wichtigste Objekt), stößt man schnell an eine Grenze. Der Assistent wird nicht besser, egal wie oft man den Tipp wiederholt.

Die Lösung: AutoV – Der intelligente Schlüsselbund

Hier kommt AutoV ins Spiel. AutoV ist kein neuer Assistent, sondern ein intelligenter Schlüsselbund (ein kleines Zusatzprogramm), das dem Assistenten hilft, den perfekten Tipp für jedes einzelne Bild zu finden.

Stellen Sie sich AutoV wie einen erfahrenen Butler vor, der neben dem Assistenten steht:

Der Kandidaten-Pool (Der Werkzeugkasten):
Der Butler hat eine Schublade voller verschiedener Werkzeuge (visuelle Hinweise).
- Werkzeug A: Ein roter Kreis um das Objekt.
- Werkzeug B: Ein unscharfer Hintergrund, damit das Objekt hervorsticht.
- Werkzeug C: Ein warmer Farbton, der die Aufmerksamkeit lenkt.
- Werkzeug D: Ein Fokus auf Text im Bild.
Die Entscheidung (Der Butler prüft):
Wenn Sie dem Assistenten ein Bild und eine Frage zeigen, schaut der Butler nicht einfach zufällig. Er prüft blitzschnell: "Welches Werkzeug passt am besten zu dieser spezifischen Frage und diesem Bild?"
- Wenn die Frage lautet: "Welches Logo ist oben rechts?", wählt der Butler vielleicht Werkzeug B (unscharfer Rest), damit der Assistent sich auf den Text konzentriert.
- Wenn die Frage lautet: "Ist da ein Hund?", wählt er vielleicht Werkzeug A (roter Kreis), um den Hund hervorzuheben.
Das Lernen ohne Lehrer (Der "Schmerz"-Test):
Das Geniale an AutoV ist, wie der Butler lernt. Normalerweise müsste ein Mensch hundertmal sagen: "Nein, das war der falsche Tipp!". Das ist aber mühsam und subjektiv.

AutoV lernt stattdessen durch "Schmerz" (Verlust).
- Der Butler probiert alle Werkzeuge kurz aus (im Hintergrund).
- Er schaut, wie sehr sich der Assistent "irrt" (wie hoch der Fehlerwert ist), wenn er Werkzeug A benutzt.
- Dann schaut er, wie sehr er sich irrt, wenn er Werkzeug B benutzt.
- Die Regel: Das Werkzeug, das den Assistenten am wenigsten "irren" lässt (den geringsten Fehler verursacht), gewinnt.
Es ist so, als würde der Butler sagen: "Oh, bei Werkzeug A hat der Assistent gestolpert. Bei Werkzeug B ist er sicher gelaufen. Also nehme ich Werkzeug B für das nächste Mal." Er lernt also aus den Fehlern, ohne dass ein Mensch ihm sagen muss, was richtig ist.

Warum ist das so toll?

Es passt sich an: Statt eines starren Regelsatzes hat AutoV ein Gefühl für den Kontext.
Es ist leichtgewichtig: Der Butler (AutoV) ist sehr klein und schnell. Er muss nicht den ganzen Assistenten neu erziehen, sondern hilft ihm nur bei der Auswahl.
Es funktioniert überall: Egal ob der Assistent ein kleines oder riesiges Gehirn hat, AutoV kann ihm helfen. Es hat sich sogar bewährt, wenn man es auf sehr teure, geschlossene Modelle (wie GPT-4o) anwendet, ohne diese neu trainieren zu müssen.

Zusammenfassung in einem Satz

AutoV ist wie ein intelligenter Navigator, der für jede einzelne Reise (jedes Bild) den perfekten Kompass (den visuellen Hinweis) auswählt, damit der KI-Assistent nie mehr in die falsche Richtung läuft, und das alles lernt er automatisch durch das Messen von Fehlern, ohne dass jemand ihn dabei beobachten muss.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Vision-Language-Modelle (LVLMs) nutzen zunehmend visuelle Prompts (z. B. Umkreisungen, Unschärfemasken, Aufmerksamkeitskarten), um die Aufmerksamkeit des Modells auf relevante Bildbereiche zu lenken. Bisherige Ansätze basieren jedoch meist auf statischen, heuristisch entworfenen Prompts.

Sättigungseffekt: Die Leistung dieser festen Designs nähert sich den Benchmark-Grenzen an, sodass weitere manuelle Prompt-Engineering-Verstärkungen kaum noch Verbesserungen bringen.
Fehlende Adaptivität: Ein einzelner Prompt-Typ funktioniert nicht für alle Bild-Abfrage-Paare gleichermaßen gut. Was für eine OCR-Aufgabe (Texterkennung) hilfreich ist, kann für eine Objekterkennung hinderlich sein.
Schwierigkeit der Annotation: Die Qualität eines visuellen Prompts ist oft mehrdeutig und schwer für Menschen zu bewerten, was eine manuelle Überwachung (Supervision) für das Training eines Retrieval-Systems extrem erschwert.

Das Ziel ist daher ein Paradigmenwechsel von Prompt-Engineering hin zu Prompt-Retrieval: Für jedes spezifische Bild und jede Textabfrage soll automatisch der optimalste visuelle Prompt aus einem Pool von Kandidaten ausgewählt werden.

2. Methodik: Das AutoV-Framework

AutoV ist ein leichtgewichtiges Framework, das den optimalen visuellen Prompt für eine gegebene Bild-Abfrage-Kombination adaptiv identifiziert. Der Ansatz besteht aus vier Hauptkomponenten:

A. Feature-Extraktion der Kandidaten

Aus einem Pool von $n$ visuellen Prompt-Kandidaten (z. B. verschiedene Masken oder Aufmerksamkeitskarten) werden visuelle Merkmale extrahiert. Ein visueller Encoder (z. B. CLIP) wandelt diese in Vektoren um, die dann durch eine Projektionsmatrix in den Embedding-Raum des Sprachmodells transformiert werden, um als visuelle Tokens ( $V_i$ ) zu dienen.

B. Ranking-Netzwerk (Candidate Ranking)

Ein leichtgewichtiges Ranking-Netzwerk bewertet die Relevanz der visuellen Kandidaten für die Textabfrage ( $T$ ).

Modality Interaction: Visuelle Tokens und Text-Tokens werden in den ersten Schichten des LLM-Decoders fusioniert, um den Kontext zu verstehen.
Mapping: Die fusionierten Merkmale werden durch Feed-Forward-Netzwerke (FFN) verarbeitet, um kompakte Repräsentationen zu erhalten.
Bewertung: Anstatt eine absolute Klassifikation durchzuführen, berechnet das Netzwerk einen Reward-Scalar ( $s$ ) für jeden Kandidaten basierend auf der Ähnlichkeit zur Abfrage.

C. Reward-Loss-Supervision (Automatisierte Überwachung)

Da manuelle Labels für Prompt-Qualität fehlen, nutzt AutoV eine vollautomatische Supervisionsstrategie:

Idee: Ein besserer visueller Prompt führt zu einem geringeren Vorhersageverlust (Loss) des LVLMs bei der Generierung der Antwort.
Prozess: Ein vortrainiertes LVLM wird verwendet, um für jeden Kandidaten den Vorhersageverlust zu berechnen. Die Kandidaten werden basierend auf diesem Verlust sortiert.
Pairwise Ranking Loss: Das Training erfolgt nicht durch absolute Scores, sondern durch paarweisen Vergleich (Pairwise Ranking). Für jedes Bild-Abfrage-Paar werden alle Kandidaten-Paare verglichen. Der Kandidat mit dem niedrigeren Verlust wird als „gewählt" (chosen) und der andere als „abgelehnt" (rejected) markiert.
Filterung: Paare mit zu geringem Verlust-Unterschied (zu wenig Signal) oder zu hohem Durchschnittsverlust (Ausreißer) werden verworfen, um Rauschen zu minimieren.

D. Robuste Inferenz-Pipeline

Während der Inferenz werden alle Kandidaten-Prompts durch das Ranking-Netzwerk geschickt. Der Kandidat mit dem höchsten Reward-Score wird ausgewählt und als Eingabe für das LVLM verwendet. Zusätzlich wird ein Pre-Filtering-Schritt eingeführt, um Kandidaten zu entfernen, die visuell zu stark von den anderen abweichen (basierend auf Kosinus-Distanz), um die Robustheit zu erhöhen.

3. Schlüsselbeiträge

AutoV Framework: Einführung eines adaptiven Retrieval-Systems, das den optimalen visuellen Prompt aus einem diversen Pool für jede Instanz auswählt, anstatt einen festen Prompt zu erzwingen.
Automatisierte Datenpipeline: Entwicklung einer skalierbaren Methode zur Datengenerierung, die den Vorhersageverlust (Loss) eines vortrainierten LVLMs als „Reward" nutzt. Dies eliminiert die Notwendigkeit manueller Annotationen für Prompt-Qualität.
Leichtgewichtiges Ranking: Das Ranking-Netzwerk ist extrem effizient (nur wenige FFN-Schichten) und erfordert kein Fine-Tuning des zugrunde liegenden LVLMs.
Generalisierung: Die Methode funktioniert modellagnostisch und kann auf verschiedene LVLM-Architekturen (Open-Source und Closed-Source) angewendet werden, ohne dass diese neu trainiert werden müssen.

4. Ergebnisse

Die Experimente wurden auf 14 verschiedenen Benchmarks (z. B. MMMU, VizWiz, MMVet, RefCOCO+) und mit mehreren LVLMs (LLaVA-OneVision, Qwen2.5-VL, InternVL2) durchgeführt.

Leistungssteigerung: AutoV verbessert die Leistung verschiedener LVLMs signifikant.
- LLaVA-OneVision: +10,2% auf VizWiz, +4,6% auf MMMU.
- Qwen2.5-VL: +3,8% auf MMMU.
- Durchschnitt: Konsistente Verbesserungen über alle getesteten Modelle hinweg (z. B. +4,2% im Durchschnitt für InternVL2 und Qwen2.5-VL).
Vergleich mit State-of-the-Art: AutoV übertrifft bestehende visuelle Prompting-Methoden (wie FGVP, RedCircle, API) deutlich. Während andere Methoden oft nur bei bestimmten Aufgaben helfen oder sogar negative Effekte haben, liefert AutoV stabile Gewinne.
Transferfähigkeit: Ein auf LLaVA-OneVision trainiertes AutoV-Modell verbessert auch geschlossene Modelle wie Gemini-1.5-Pro (+9,6% auf VizWiz) und GPT-4o (+9,0% auf VizWiz), was die hohe Generalisierungsfähigkeit beweist.
Effizienz: Der zusätzliche Rechenaufwand ist minimal (ca. 0,74 T FLOPs für einen Pool von 4 Kandidaten), da nur das Ranking-Netzwerk und die Kodierung der Kandidaten hinzukommen, nicht jedoch ein teures Decoder-Training.

5. Bedeutung und Fazit

AutoV adressiert ein fundamentales Limit aktueller LVLMs: die Unfähigkeit, dynamisch auf die spezifischen Anforderungen einer Bild-Abfrage-Kombination zu reagieren.

Paradigmenwechsel: Die Arbeit zeigt, dass die Suche nach dem „perfekten" universellen visuellen Prompt weniger effektiv ist als die Suche nach dem „besten" Prompt für den jeweiligen Kontext.
Skalierbarkeit: Durch die Nutzung des Modell-Losses als Supervisionssignal wird die Abhängigkeit von teuren menschlichen Annotationen beseitigt.
Praktische Anwendbarkeit: Da AutoV als Plug-in-Modul funktioniert und keine Neukalibrierung der großen Sprachmodelle erfordert, ist es eine sofort einsatzbereite Lösung zur Leistungssteigerung bestehender Systeme.

Zusammenfassend demonstriert AutoV, dass eine intelligente, datengetriebene Auswahl von Eingabe-Modifikationen (Retrieval) effektiver ist als statisches Engineering und die Grenzen der multimodalen Wahrnehmung signifikant erweitern kann.