VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Each language version is independently generated for its own context, not a direct translation.

🧠 De "Zelfbedrog" van Slimme Computers

Stel je voor dat je een zeer slimme robot hebt die foto's kan zien en erover kan praten. Dit noemen we een LVLM (een groot visueel-taalmodel). Deze robot is geweldig, maar heeft een groot gebrek: hij hallucineert.

Dat betekent dat hij soms dingen zegt die er niet op de foto staan, puur omdat hij denkt dat ze er wel zouden moeten zijn.

Voorbeeld: Je laat hem een foto zien van een lege stoel. Hij zegt: "Op de stoel zit een kat."
Waarom? Omdat hij in zijn training miljoenen teksten heeft gelezen waar "stoel" en "kat" vaak samen voorkomen. Hij vertrouwt meer op zijn taalgeheugen dan op wat hij echt ziet.

🚨 Het Probleem: De "Zelfvertrouwens-Val"

Tot nu toe probeerden deze robots hun eigen fouten te detecteren door te vragen: "Ben ik zeker van mijn antwoord?"
Het probleem is dat de robot vaak veel zelfvertrouwen heeft, zelfs als hij liegt.

Hij zegt: "Ik ben 100% zeker dat er een kat is!"
Maar in werkelijkheid kijkt hij niet eens goed naar de foto; hij roept gewoon wat hij in zijn taalgeheugen heeft gevonden.

Bestaande methoden om dit te detecteren werken alsof je een mens vraagt: "Ben je zeker?" Maar als de mens (of robot) al in zijn eigen leugen gelooft, zegt hij "Ja". We hebben een manier nodig om te checken of het antwoord echt gebaseerd is op de foto.

🕵️‍♂️ De Oplossing: VAUQ (De "Foto-Check")

De auteurs van dit paper hebben VAUQ bedacht. Dit is een slimme manier om te checken of de robot echt naar de foto kijkt, of dat hij gewoon raadt.

Stel je VAUQ voor als een detective die een blinddoek test. Hier is hoe het werkt, stap voor stap:

1. De "Blinddoek" Test (Core Region Masking)

Stel je voor dat de robot een foto van een hond in een park ziet.

Stap 1: De robot kijkt naar de foto en zegt: "Dat is een hond."
Stap 2: De detective (VAUQ) kijkt waar de robot naar kijkt. Hij ziet dat de robot vooral naar de hond kijkt.
Stap 3: De detective plakt een zwarte vlek (een masker) precies over de hond op de foto. De rest van de foto (het gras, de lucht) blijft zichtbaar.
Stap 4: De detective vraagt de robot opnieuw: "Wat zie je nu?"

2. De Reactie (De "Image-Information Score")

Hier gebeurt de magie:

Scenario A (Echte kennis): Als de robot echt naar de foto keek, zal hij nu paniek krijgen. Hij zegt: "Euh... ik zie de hond niet meer, ik weet het niet!" Zijn onzekerheid gaat omhoog.
- Conclusie: De robot was eerlijk. Hij vertrouwde op het beeld.
Scenario B (Hallucinatie): Als de robot alleen maar giste (op basis van taal), zegt hij: "O, ik zie nog steeds een hond!" Hij blijft zelfverzekerd, zelfs zonder de hond.
- Conclusie: De robot liegt. Hij vertrouwde niet op het beeld, maar op zijn geheugen.

3. De Score

VAUQ rekent een score uit:

Als de robot onzeeker wordt als je het belangrijkste deel van de foto wegplakt, is het antwoord goed.
Als de robot blijft geloven dat het antwoord klopt, zelfs als het bewijs (de foto) weg is, is het antwoord waarschijnlijk fout.

🎯 Waarom is dit zo belangrijk?

Vroeger keken we alleen naar hoe "vloeiend" de zinnen waren. Nu kijken we naar waar de robot zijn kennis vandaan haalt.

Vroeger: "De zin klinkt logisch, dus het is waar."
Nu (met VAUQ): "De robot wist het antwoord alleen maar omdat hij naar de foto keek, niet omdat hij het uit zijn hoofd wist. Dus het is betrouwbaar."

🏁 Samenvatting in één zin

VAUQ is als een slimme test waarbij je een robot een foto laat zien, het belangrijkste onderdeel van die foto even wegplakt, en dan kijkt of de robot nog steeds weet wat er gebeurt. Als hij het antwoord verliest zonder het bewijs, is hij eerlijk; als hij blijft doorgaan alsof er niets gebeurd is, is hij aan het liegen.

Dit helpt om slimme AI-systemen veiliger en betrouwbaarder te maken in de echte wereld, zodat we niet meer blindelings kunnen vertrouwen op wat ze zeggen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Vision-Language Modellen (LVLMs) vertonen vaak hallucinaties, wat hun veilige inzet in real-world toepassingen beperkt. Bestaande methoden voor zelfevaluatie (waarbij een model de juistheid van zijn eigen output inschat) vertrouwen sterk op taalkundige priors (statistische regulariteiten uit taaltraining). Dit leidt tot een fundamenteel tekortkoming:

LVLMs kunnen zeer zeker lijken over een antwoord dat taalkundig vloeiend is, maar visueel onjuist (gehallucineerd) is, vooral wanneer het beeld in tegenspraak is met algemene kennis.
Bestaande onzekerheidsmetingen (zoals Entropie of EigenScore) falen vaak bij "counterfactual" scenario's omdat ze niet onderscheid maken tussen vertrouwen gebaseerd op visuele bewijslast versus vertrouwen gebaseerd op taalkundige aannames.
Er is een behoefte aan een methode die specifiek meet hoe sterk de output van een model afhankelijk is van visuele bewijslast, zonder externe supervisie of extra training.

Methodologie: VAUQ

De auteurs stellen VAUQ (Vision-Aware Uncertainty Quantification) voor, een trainingsvrij framework dat de onzekerheid van een LVLM kwantificeert door expliciet te meten in hoeverre visuele informatie de voorspelling beïnvloedt. Het framework bestaat uit twee kerncomponenten:

1. Image-Information Score (IS)

Deze score meet de reductie in voorspellende onzekerheid die toe te schrijven is aan de aanwezigheid van visuele input.

Definitie: $IS = H(y | \emptyset, t) - H(y | v, t)$ $I S = H (y ∣\emptyset, t) - H (y ∣ v, t)$
- $H(y | v, t)$ : De conditionele entropie (onzekerheid) met zowel visuele input ( $v$ ) als tekst ( $t$ ).
- $H(y | \emptyset, t)$ : De entropie wanneer visuele tokens worden verwijderd (alleen tekst).
Interpretatie: Een hoge IS-waarde betekent dat het beeld de onzekerheid van het model aanzienlijk verlaagt, wat wijst op sterke visuele gronding. Een lage IS suggereert dat het model vooral op taal vertrouwen.

2. Unsupervised Core-Region Masking Strategie

Een simpele verwijdering van het hele beeld (zoals bij de bovenstaande IS-berekening) kan gevoelig zijn voor ruis of achtergrondcorrelaties. Om dit op te lossen, introduceert VAUQ een strategie om alleen de meest relevante visuele gebieden te maskeren.

Mechanisme: Het framework gebruikt de visuele attentiewaarden (attention weights) van het model om de patches te identificeren die het meest bijdragen aan de redenering (gebaseerd op de middellate lagen van de transformer, waar visuele en semantische informatie het beste gealigneerd zijn).
Actie: De top- $K\%$ van de beeldpatches met de hoogste attentiewaarden worden geselecteerd en vervolgens "gemaskerd" (verwijderd) voor de berekening van de Core-Masked IS ( $IS_{core}$ ).
Doel: Als het model echt afhankelijk is van visueel bewijs, zal het maskeren van deze kerngebieden de onzekerheid (entropie) drastisch verhogen. Als het model hallucineert (op taal vertrouwt), zal de onzekerheid weinig veranderen.

De Eindscore ( $s_{VAUQ}$ )

De uiteindelijke score voor zelfevaluatie is een lineaire combinatie van de voorspellende entropie en de gemaskerde IS-score:
$s_{VAUQ} = H(y | v, t) - \alpha \cdot IS_{core}$

Een lage score duidt op een betrouwbare, visueel onderbouwde voorspelling.
Een hoge score duidt op een risico op hallucinatie (het model is zeker, maar die zekerheid wordt niet ondersteund door kernvisuele bewijslast).

Belangrijkste Bijdragen

Nieuw Framework: VAUQ is een trainingsvrij, vision-aware framework voor LVLM-zelfevaluatie dat geen externe modellen of gelabelde data vereist.
Innovatieve Meting: De introductie van de Image-Information Score in combinatie met een core-region masking strategie, waardoor visuele benutting effectief wordt gemeten in een label-vrije setting.
Robuustheid: Het framework is ontworpen om specifiek het probleem van taal-dominantie aan te pakken, wat een veelvoorkomende oorzaak is van hallucinaties in LVLMs.

Resultaten

De auteurs hebben VAUQ geëvalueerd op diverse datasets (ViLP, MMVet, VisualCoT, CVBench) en met verschillende modellen (LLaVA-1.5, Qwen2.5-VL, InternVL3.5).

State-of-the-Art Prestaties: VAUQ overtreft consistent bestaande methoden (zowel LLM-gebaseerde als LVLM-gebaseerde) in termen van AUROC (Area Under the Receiver Operating Characteristic curve).
- Op de ViLP-dataset (bekend om zijn counterfactual samples) verbeterde VAUQ de prestaties met +13,3% ten opzichte van de beste bestaande methoden.
- Specifiek op LLaVA-1.5-7B verbeterde het de prestatie ten opzichte van Semantic Entropy met +13,4% en ten opzichte van VL-Uncertainty met +21,4%.
Efficiëntie: In tegenstelling tot methoden die meerdere steekproeven vereisen (multi-sampling), is VAUQ zeer efficiënt. Het introduceert slechts een constante overhead aan forward passes, wat leidt tot een 94,6% reductie in inferentie-tijd vergeleken met methoden zoals VL-Uncertainty, terwijl de nauwkeurigheid hoger is.
Ablatie Studies: Experimenten bevestigen dat het maskeren van de kerngebieden (in plaats van willekeurig of het hele beeld) cruciaal is voor de prestaties en dat de gebruikte attentiewaarden uit de middellate lagen effectief de relevante visuele gebieden identificeren.

Betekenis en Impact

Dit werk is significant omdat het een praktische oplossing biedt voor een van de grootste obstakels bij de inzet van LVLMs: het detecteren van hallucinaties zonder extra training of externe judges.

Betrouwbare Zelfevaluatie: Het stelt modellen in staat om hun eigen betrouwbaarheid te beoordelen op basis van visuele gronding, wat essentieel is voor selectieve voorspelling (waarbij het model weigert te antwoorden als het niet zeker is).
Taal-onafhankelijkheid: Door expliciet te focussen op de bijdrage van visuele informatie, vermindert VAUQ de afhankelijkheid van taalkundige priors, wat leidt tot veiligere en nauwkeurigere systemen in hoog-risico domeinen.
Toepasbaarheid: Omdat het trainingsvrij is en werkt met interne signalen van het model, is het direct toepasbaar op bestaande LVLMs in productieomgevingen.

Samenvattend biedt VAUQ een robuust en efficiënt mechanisme om de kloof tussen taalkundig vertrouwen en visuele waarheid te overbruggen, wat een belangrijke stap is naar de veilige implementatie van multimodale AI-systemen.