Selective Training for Large Vision Language Models via Visual Information Gain

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe we AI-ogen laten "kijken" in plaats van alleen te "lezen"

Stel je voor dat je een slimme robot hebt die foto's kan bekijken en erover kan praten. Dit noemen we een Large Vision Language Model (LVLM). Deze robots zijn geweldig, maar ze hebben een groot probleem: ze zijn vaak te lui om echt naar de foto te kijken.

In plaats van te analyseren wat ze zien, vertrouwen ze te veel op wat ze al weten uit hun tekstuele training. Het is alsof ze een meerkeuzevraag over een foto beantwoorden door te gissen op basis van de woorden in de vraag, in plaats van naar het plaatje te kijken. Dit heet "taalbias".

De auteurs van dit paper, Seulbi Lee en Sangheum Hwang, hebben een slimme oplossing bedacht om dit op te lossen. Ze noemen hun methode VIG (Visual Information Gain), ofwel "Visuele Informatiewinst".

Hier is hoe het werkt, uitgelegd met een paar creatieve vergelijkingen:

1. Het Probleem: De "Luie Lezer"

Stel je voor dat je een student hebt die een examen moet doen over een schilderij.

De luie student (de huidige AI): Kijkt niet echt naar het schilderij. Als er gevraagd wordt: "Wat is de kleur van de hond?", denkt hij: "Oh, honden zijn vaak bruin of zwart," en antwoordt dat, zelfs als de hond in de foto wit is. Hij leest de vraag, gebruikt zijn algemene kennis en negeert het beeld.
De echte kunstkenner: Kijkt echt naar het schilderij, ziet de witte vacht en zegt: "Het is wit."

Huidige AI-modellen zijn vaak die luie student. Ze worden getraind op enorme hoeveelheden data, maar veel van die data bevat vragen die je kunt beantwoorden zonder naar de foto te kijken (bijvoorbeeld: "Wat is er te zien in deze foto?" -> "Een landschap"). De AI leert hierdoor dat het vaak genoeg is om te gissen.

2. De Oplossing: De "Informatie-Weegschaal" (VIG)

De auteurs hebben een nieuwe manier bedacht om te meten hoeveel een AI echt baat heeft bij het kijken naar een foto. Ze noemen dit Visual Information Gain (VIG).

Stel je voor dat je een weegschaal hebt:

Schaal 1 (Zonder foto): De AI probeert het antwoord te raden alleen op basis van de tekst. Hoe moeilijk is dat? (Hoe onzeker is ze?)
Schaal 2 (Met foto): De AI krijgt nu ook de foto te zien. Hoeveel makkelijker wordt het antwoord?

Als de AI met de foto veel zekerder is dan zonder de foto, betekent dit dat de foto veel waardevolle informatie bevat. De "winst" is groot.

Voorbeeld: Als de vraag is "Wat is de kleur van de auto?", en zonder foto de AI twijfelt tussen rood, blauw en groen, maar met de foto is het antwoord direct "blauw", dan is de VIG hoog. De foto was essentieel.
Voorbeeld: Als de vraag is "Is dit een dier?", en de AI weet dit al zonder foto, dan is de VIG laag. De foto bracht hier geen nieuwe winst.

3. De Strategie: "Kiezen wat telt"

In plaats van de AI te laten leren van alle foto's en vragen (wat veel tijd en rekenkracht kost), gebruiken ze de VIG als een filter.

Stap 1: De beste vragen selecteren. Ze kijken welke vragen de AI het meest "slim" maken door naar de foto te kijken. Die vragen houden ze. De vragen waar de AI al zonder foto het juiste antwoord op weet, gooi ze weg (of gebruiken ze minder).
Stap 2: De beste woorden selecteren. Zelfs binnen één antwoord zijn er woorden die belangrijk zijn en woorden die dat niet zijn.
- Woorden als "de", "een", "en" zijn saai; de AI kent die al uit haar hoofd.
- Woorden als "rood", "vliegt", "links" zijn belangrijk; die komen direct uit de foto.
  De AI leert nu alleen nog maar op die belangrijke woorden te letten.

4. Het Resultaat: Slimmer met minder

Het mooie van deze methode is dat ze de AI niet hoeven te veranderen in de architectuur (geen ingewikkelde nieuwe onderdelen nodig). Ze veranderen alleen wat de AI leert.

Efficiëntie: Ze trainen de AI met veel minder data (soms maar 30% van de originele hoeveelheid), maar de AI wordt juist beter.
Minder hallucinaties: De AI begint minder dingen te verzinnen die er niet zijn (zoals een hond die er niet is, maar die ze wel "weten" van andere foto's). Ze gaan echt kijken.
Betrouwbaarheid: De AI wordt minder afhankelijk van taaltrucs en meer afhankelijk van wat ze echt zien.

Conclusie

Kortom, de auteurs hebben een slimme "instructeur" bedacht die de AI leert: "Kijk niet alleen naar de tekst, maar kijk echt naar de foto! Alleen de momenten waarop de foto je echt helpt, zijn de momenten waarop je moet leren."

Hierdoor wordt de AI niet alleen slimmer in het begrijpen van beelden, maar ook zuiniger in het gebruik van rekenkracht. Het is alsof je een student niet laat studeren van 1000 saaie boeken, maar haar juist de 100 meest leerzame hoofdstukken geeft die haar echt iets nieuws leren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Selectieve Training voor Grote Vision Language Models via Visuele Informatiewinst (Visual Information Gain)

Auteurs: Seulbi Lee en Sangheum Hwang (Seoul National University of Science and Technology)
Datum: Februari 2026

1. Het Probleem: Taalbias en Visuele Onwetendheid

Grote Vision Language Models (LVLMs) hebben indrukwekkende prestaties geleverd in multimodale taken, maar lijden vaak onder taalbias (language bias). Dit betekent dat modellen te veel vertrouwen op tekstuele priors (al bestaande kennis uit taalmodellen) in plaats van daadwerkelijk naar de visuele input te kijken.

Gevolgen: Dit leidt tot "visuele onwetendheid" (het negeren van beeldinhoud) en hallucinaties (het confident beschrijven van objecten of attributen die niet in de afbeelding aanwezig zijn).
Huidige beperkingen: Bestaande oplossingen richten zich vaak op inferentiestrategieën (zoals contrastive decoding) of architecturale aanpassingen. Een cruciaal gemis is echter een kwantitatieve maatstaf om te bepalen welke trainingsvoorbeelden of tokens echt afhankelijk zijn van visuele informatie. Veel datasets bevatten een heterogene mix van voorbeelden: sommige kunnen vanuit algemene kennis worden beantwoord, terwijl andere fijnmazige visuele details vereisen. Zonder onderscheid worden deze tijdens training gelijk behandeld, wat de leercurve voor visuele gronding (grounding) belemmert.

2. Methodologie: Visual Information Gain (VIG)

De auteurs introduceren Visual Information Gain (VIG), een metriek gebaseerd op perplexiteit die meet hoeveel de visuele input de onzekerheid van het model verlaagt bij het voorspellen van een antwoord.

Definitie en Berekening

VIG wordt gedefinieerd als de log-ratio tussen de perplexiteit (PPL) van een antwoord zonder visuele input en met visuele input:
$VIG = \log \left( \frac{PPL(A | Q)}{PPL(A | Q, I)} \right)$
Waarbij:

$A$ het antwoord is, $Q$ de vraag, en $I$ de afbeelding.
Om "afwezigheid van visuele informatie" te simuleren, wordt een geblurde afbeelding gebruikt (die visuele cues verwijdert maar de structuur behoudt).
Een hoge VIG betekent dat het beeld essentieel is voor het correcte antwoord (de onzekerheid daalt sterk). Een lage of negatieve VIG betekent dat het beeld weinig toevoegt of zelfs afleidt ten opzichte van tekst alleen.

De metriek kan worden ontbonden tot token-niveau, waarbij wordt gemeten welke specifieke woorden (tokens) het meest profiteren van visuele input (bijv. kleurbeschrijvingen, ruimtelijke relaties) versus welke tokens puur taalkundig zijn (bijv. lidwoorden, voorzetsels).

VIG-geleide Selectieve Training

Op basis van VIG stellen de auteurs een selectieve trainingsstrategie voor:

Sample-niveau selectie: Trainingsvoorbeelden worden gerangschikt op hun sample-level VIG-score. Slechts de top $p\%$ (bijv. 70%) met de hoogste visuele winst wordt geselecteerd.
Token-niveau selectie: Binnen deze geselecteerde voorbeelden wordt alleen de loss berekend voor tokens die een hoge token-level VIG-score hebben (boven een bepaalde drempel $\tau_p$ ). Tokens met lage visuele winst worden genegeerd tijdens de backpropagation.

Dit zorgt ervoor dat het model zich concentreert op de data die het meest visueel informatief is, terwijl "ruis" en tekst-dominante voorbeelden worden weggefilterd.

3. Belangrijkste Bijdragen

Introductie van VIG: Een model-agnostische, decomposeerbare metriek die visuele afhankelijkheid kwantificeert op zowel sample- als token-niveau.
Empirische Validatie: Bewijs dat VIG correleert met benchmark-afhankelijkheid (bijv. hoge scores voor COCO, lage voor GQA) en succesvol visueel verankerde tokens (kleuren, objectattributen) onderscheidt van tekstuele tokens.
Efficiënte Trainingsstrategie: Een methode die prestaties verbetert terwijl de hoeveelheid supervisie drastisch wordt gereduceerd door alleen te focussen op hoog-VIG data.

4. Resultaten

De methode werd getest op modellen zoals LLaVA-1.5 (7B en 13B) en ShareGPT4V 7B.

Data-efficiëntie: Door te trainen op slechts 70% van de samples en verder te filteren op token-niveau (waardoor slechts een fractie van de tokens actief bijdraagt aan de loss), behalen de modellen superieure prestaties vergeleken met de volledige dataset-training.
- Voorbeeld: LLaVA-1.5 13B bereikte betere resultaten met slechts 12,14 miljoen actieve tokens (tegenover 58,61 miljoen in de baseline).
Verbeterde Grounding en Minder Hallucinaties:
- De modellen presteerden beter op visuele begrijptaken (LLaVAW, MMVet, MMBench, DocVQA).
- Er was een significante daling in hallucinaties (gemeten via POPE, CHAIR, MMHal). Bijvoorbeeld, de hallucinatie-scores op MMHal verbeterden met +8,47 punten voor LLaVA-1.5 7B.
Vergelijking met Bestaande Methodes: VIG-training presteerde beter dan of gelijk aan state-of-the-art methodes zoals VCD, PAI, VAR en LACING, zonder extra inferentie-overhead of architecturale wijzigingen.
Analyse:
- Aandacht: VIG-getrainde modellen wijzen significant meer aandacht toe aan visuele tokens, vooral in de middenlagen van het netwerk.
- Taalbias: In tests met "corrupte" teksten (waarbij de tekst een foutief antwoord suggereerde) bleven VIG-modellen stabieler en vertrouwden ze meer op het beeld dan op de misleidende tekst.

5. Betekenis en Conclusie

Dit paper biedt een fundamentele verschuiving in hoe LVLMs worden getraind: van een "meer data is beter" benadering naar een "kwaliteit boven kwantiteit" benadering.

Kerninzicht: Niet alle trainingsdata is even waardevol voor visueel leren. Veel data is overbodig of zelfs schadelijk omdat het taalbias versterkt.
Praktische impact: De methode maakt het mogelijk om krachtige, visueel grondige modellen te trainen met aanzienlijk minder rekenkracht en data, wat de kosten verlaagt en de betrouwbaarheid van AI-systemen verhoogt.
Toekomst: Hoewel het berekenen van VIG een eenmalige overhead vereist, is de methode schaalbaar en complementair aan andere technieken. Het biedt een nieuwe richting voor het bouwen van LVLMs die echt "zien" wat ze zien, in plaats van te gissen op basis van tekstpatronen.

Samenvattend demonstreert dit werk dat het kwantificeren van de visuele bijdrage van trainingsdata (via VIG) en het selectief trainen op die data een krachtige, efficiënte oplossing is voor het probleem van taalbias in multimodale modellen.