Selective Training for Large Vision Language Models via Visual Information Gain

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der faule Schüler, der nur ratet

Stell dir vor, du hast einen sehr intelligenten Schüler (das KI-Modell), der sowohl Bilder als auch Texte verstehen soll. Dieser Schüler ist extrem gut darin, Texte zu lesen und daraus Antworten zu formulieren. Aber er hat ein großes Problem: Er ist faul.

Wenn man ihm ein Bild zeigt und eine Frage stellt, schaut er sich das Bild oft gar nicht richtig an. Stattdessen nutzt er seine „Allgemeinwissen"-Bibliothek und rät einfach basierend auf dem, was er aus Texten gelernt hat.

Beispiel: Du zeigst ihm ein Bild von einem Boot, das eine Spur im Wasser hinterlässt, und fragst: „Wie heißt diese Spur?"
Der faule Schüler: Er denkt: „Boote machen Spuren. Das Wort dafür ist 'Wake'." Er hat das Bild gar nicht wirklich gesehen. Er hat nur das Wort „Boot" gehört und die Antwort aus seinem Gedächtnis abgerufen.
Das Ergebnis: Wenn das Bild aber ein Boot zeigt, das keine Spur macht, oder wenn es ein ganz anderes Objekt ist, das wie ein Boot aussieht, versagt er komplett. Er halluziniert Dinge, die nicht da sind, oder ignoriert wichtige Details wie die Farbe oder den Ort.

Bisherige Versuche, ihn zu korrigieren, waren wie:

Ihm beim Antworten zu sagen: „Schau mal genau hin!" (Inferenz-Methoden).
Ihm neue, perfekte Lehrbücher zu geben (bessere Daten).
Aber niemand hat ihm beigebracht, welche Teile des Lehrbuchs er wirklich lesen muss und welche er ignorieren kann.

Die Lösung: Der „Visuelle Informationsgewinn" (VIG)

Die Autoren dieser Arbeit haben eine clevere Methode entwickelt, um zu messen, wie sehr der Schüler das Bild wirklich braucht. Sie nennen es Visueller Informationsgewinn (VIG).

Stell dir das so vor:
Der Schüler liest die Frage und versucht, die Antwort zu erraten, ohne auf das Bild zu schauen. Dann schaut er auf das Bild und versucht es noch einmal.

VIG = (Schwierigkeit ohne Bild) minus (Schwierigkeit mit Bild).
Hoher VIG: Wenn die Antwort ohne Bild ein reines Raten ist (z. B. „Welche Farbe hat dieser Ball?"), aber mit Bild sofort klar ist, dann ist der VIG hoch. Das Bild hat dem Schüler einen riesigen Vorteil gebracht.
Niedriger oder negativer VIG: Wenn der Schüler die Antwort auch ohne Bild perfekt weiß (z. B. „Wie viele Beine hat ein Hund?"), dann bringt das Bild nichts Neues. Der VIG ist niedrig.

Die Strategie: „Selektives Training" (Das Filtern)

Anstatt den Schüler mit Tausenden von Aufgaben zu überfluten, bei denen er ohnehin nur rät, nutzen die Autoren den VIG als Filter:

Das Bild-Filtern (Sample-Level): Sie schauen sich alle Trainingsaufgaben an. Aufgaben, bei denen das Bild kaum hilft (niedriger VIG), werden aussortiert. Der Schüler lernt nur noch mit Aufgaben, bei denen das Bild wirklich wichtig ist.
Das Wort-Filtern (Token-Level): Das ist der geniale Teil. Selbst in einer guten Aufgabe gibt es Wörter, die das Bild nicht brauchen (z. B. „Der", „und", „ist"). Diese Wörter werden beim Training ignoriert. Der Schüler lernt nur die Wörter, die das Bild wirklich beschreiben (z. B. „rot", „links", „fliegt").

Die Metapher:
Stell dir vor, du bereitest dich auf eine Prüfung vor.

Normaler Weg: Du liest das ganze dicke Buch, auch die Seiten, die nur Grammatikregeln enthalten, die du schon kannst.
VIG-Weg: Du hast einen Zauberstift (den VIG). Er markiert nur die Seiten und Sätze, die du wirklich noch nicht kannst und die das Bild erklären. Du lernst nur diese markierten Stellen.

Das Ergebnis: Ein schlauerer Schüler mit weniger Arbeit

Das Ergebnis ist erstaunlich:

Bessere Leistung: Der Schüler wird viel besser darin, Bilder zu verstehen und Dinge zu beschreiben, die er wirklich sieht. Er halluziniert weniger (er erfindet keine Dinge).
Weniger Arbeit: Da sie nur die „wichtigen" Teile des Trainingsmaterials nutzen, brauchen sie viel weniger Rechenzeit und Daten, um ein starkes Modell zu bekommen.
Robustheit: Wenn man dem Schüler später eine falsche Beschreibung unter die Nase hält (z. B. „Das ist ein Hund", obwohl es eine Katze ist), ignoriert er den falschen Text und schaut auf das Bild. Er verlässt sich nicht mehr blind auf das, was er gelesen hat.

Zusammenfassung in einem Satz

Die Forscher haben eine Methode entwickelt, um KI-Modellen beizubringen, genau dann auf Bilder zu schauen, wenn sie sie wirklich brauchen, und dabei alle unnötigen Text-Blabla-Teile beim Lernen wegzulassen – so wird die KI schlauer, ehrlicher und lernt schneller.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Large Vision Language Models (LVLMs) haben zwar beeindruckende Fortschritte in multimodalen Aufgaben erzielt, leiden jedoch unter einem signifikanten Sprachbias (Language Bias). Modelle neigen dazu, Antworten basierend auf sprachlichen Vorwissen (Text-Priors) und nicht auf visuellen Beweisen zu generieren. Dies führt zu zwei Hauptproblemen:

Visuelle Ignoranz: Das Modell behandelt die Eingabe wie ein reines Textmodell und ignoriert relevante Bildinhalte.
Halluzinationen: Das Modell beschreibt Objekte oder Attribute, die im Bild nicht vorhanden sind, aber durch den Kontext oder statistische Muster im Text wahrscheinlich erscheinen.

Bisherige Ansätze zur Minderung dieses Bias (z. B. Contrastive Decoding, Architekturänderungen oder kuratierte Datensätze) haben eine gemeinsame Einschränkung: Sie quantifizieren nicht explizit, wie stark einzelne Trainingsbeispiele oder Tokens tatsächlich von visuellen Informationen abhängen. Daher werden visuell informative und rein textbasierte Daten während des Trainings oft gleichgewichtet, was das Erlernen robuster visueller Verankerung (Visual Grounding) behindert.

2. Methodik: Visual Information Gain (VIG)

Die Autoren stellen eine datenzentrierte Lösung vor, die auf der Metrik Visual Information Gain (VIG) basiert.

Definition von VIG

VIG ist eine perplexitätsbasierte Metrik, die misst, wie stark die Unsicherheit des Modells bei der Vorhersage einer Antwort reduziert wird, wenn visuelle Eingaben hinzugefügt werden.
Formal wird VIG als Logarithmus des Verhältnisses der Perplexitäten (PPL) definiert:
$\text{VIG} = \log \left( \frac{\text{PPL}(A | Q)}{\text{PPL}(A | Q, I)} \right)$
Dabei ist:

$A$ : Die Antwort (Ground Truth).
$Q$ : Die Frage.
$I$ : Das Bild.
$\text{PPL}(A | Q)$ : Die Perplexität ohne visuellen Input (simuliert durch ein unscharfes Bild, um visuelle Hinweise zu entfernen).
$\text{PPL}(A | Q, I)$ : Die Perplexität mit visuellem Input.

Ein hoher positiver VIG-Wert bedeutet, dass das Bild entscheidend für die korrekte Antwort ist. Ein negativer Wert deutet darauf hin, dass das Bild die Vorhersage sogar verschlechtert (z. B. bei Konflikten zwischen Text und Bild).

Token-Level-Analyse

VIG lässt sich auf Token-Ebene zerlegen. Die Differenz im Cross-Entropy-Verlust zwischen Modellen mit und ohne Bildinput zeigt, welche spezifischen Tokens (z. B. Farben, räumliche Beziehungen, Attribute) stark visuell verankert sind. Tokens wie Artikel oder Präpositionen haben oft einen VIG nahe Null oder negativ.

VIG-geführtes selektives Training

Basierend auf VIG schlagen die Autoren ein zweistufiges selektives Training vor:

Sample-Level-Selektion: Trainingsbeispiele werden nach ihrem VIG-Wert sortiert. Nur die Top- $p\%$ (z. B. 70 %) der Beispiele mit dem höchsten visuellen Informationsgewinn werden für das Training ausgewählt. Dies filtert schwach verankerte, textdominierte Daten heraus.
Token-Level-Selektion: Innerhalb der ausgewählten Beispiele wird der Verlust (Loss) nur für Tokens berechnet, deren individueller VIG-Wert einen Schwellenwert überschreitet. Tokens mit geringem visuellem Beitrag (z. B. grammatikalische Füllwörter) tragen nicht zum Gradienten-Update bei.

Dieser Ansatz konzentriert die Optimierung auf die wirklich visuell informativen Teile der Daten, ohne die Modellarchitektur zu ändern oder Inference-Overhead zu verursachen.

3. Wichtige Beiträge

Einführung von VIG: Eine neue, modellunabhängige Metrik zur Quantifizierung des Beitrags visueller Informationen auf Sample- und Token-Ebene.
Empirische Validierung: Nachweis, dass VIG mit der Modality-Abhängigkeit von Benchmarks korreliert (z. B. hohe VIG-Werte bei COCO, niedrigere bei textdominierten Benchmarks wie GQA) und visuell verankerte Tokens präzise identifiziert.
Selektives Trainingsschema: Ein effizientes Training, das durch das Filtern nach VIG die Datenqualität priorisiert. Dies führt zu besserem Visual Grounding und weniger Halluzinationen bei signifikant reduzierter Überwachung (weniger Tokens).
Komplementarität: Die Methode lässt sich nahtlos mit bestehenden Ansätzen (sowohl trainingsfrei als auch trainingsbasiert) kombinieren und erzielt additive Verbesserungen.

4. Ergebnisse

Die Methode wurde an LVLMs wie LLaVA-1.5 (7B/13B) und ShareGPT4V (7B) evaluiert.

Daten-Effizienz: Das Training mit nur 70 % der Samples und weiterem Token-Filtering (z. B. nur 38,45 Mio. aktive Tokens für LLaVA-1.5 7B statt 58,61 Mio.) führte zu überlegener Leistung im Vergleich zum Volltraining.
Leistungssteigerung:
- Visuelles Verständnis: Verbesserungen auf Benchmarks wie LLaVAW, MMVet, MMBench und DocVQA.
- Halluzinationsreduktion: Deutliche Verringerung von Halluzinationen auf POPE, CHAIR und MMHal. Beispielsweise sank die Halluzinationsrate bei LLaVA-1.5 7B von 14,99 auf 12,80, während der Gesamtscore stieg.
Vergleich mit SOTA: VIG-Training übertraf sowohl trainingsfreie Methoden (VCD, PAI, VAR) als auch trainingsbasierte Ansätze (LACING) in der Gesamtleistung, insbesondere bei der Kombination mit diesen Methoden.
Aufmerksamkeitsanalyse: Modelle, die mit VIG trainiert wurden, zeigen eine signifikant höhere Aufmerksamkeitsverteilung auf visuelle Tokens, insbesondere in den mittleren Netzwerkschichten, was auf ein stärkeres visuelles Referenzieren hindeutet.
Robustheit gegen Text-Bias: In Tests mit korrupten Bildunterschriften (die falsche Antworten suggerieren) behielten VIG-Modelle eine höhere Genauigkeit bei, da sie sich stärker auf das Bild als auf den Text verließen.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die explizite Quantifizierung des visuellen Beitrags von Trainingsdaten ein vielversprechender Weg ist, um LVLMs zuverlässiger zu machen.

Paradigmenwechsel: Statt die Architektur zu ändern oder teure Inference-Strategien zu nutzen, adressiert die Methode das Problem an der Wurzel: der Datenqualität und -verteilung.
Effizienz: Es zeigt, dass weniger, aber visuell informativere Daten zu besseren Ergebnissen führen können als große, unselektierte Datensätze.
Praktische Relevanz: Da VIG-Berechnung ein einmaliger, parallelisierbarer Vorprozess ist, ist der Ansatz skalierbar. Die Ergebnisse legen nahe, dass zukünftige LVLMs durch selektives Training auf hochverankerten Daten effizienter und robuster gegen Halluzinationen werden können.

Zusammenfassend bietet VIG einen datenzentrierten Mechanismus, um den „Blind Faith in Text" (blinde Glaubens an Text) in multimodalen Modellen zu bekämpfen und sicherzustellen, dass diese tatsächlich „sehen", was sie beschreiben.