One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Multimodaal Groot Taalmodel (MLLM) als een zeer slimme, maar soms wat dromerige verteller is. Deze verteller kan prachtige verhalen maken over een foto die je hem laat zien. Het probleem is echter dat hij soms "hallucineert": hij vertelt dingen die er niet zijn, of hij ziet een hond waar eigenlijk een kat staat. Hij is zo gewend aan zijn eigen verhalen (zijn "taal-inertia") dat hij het beeld van de foto soms vergeten raakt.

Deze paper introduceert een slimme nieuwe methode om dit probleem op te lossen, zonder dat het model opnieuw getraind hoeft te worden. Ze noemen het: "Één Token, Twee Loten".

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

Het Probleem: De Vergeten Foto

Stel je voor dat de verteller een foto bekijkt en begint te praten.

Aan het begin kijkt hij goed naar de foto.
Naarmate hij langer praat, raakt hij de foto uit het oog. Hij begint te vertrouwen op wat hij weet over de wereld, in plaats van wat hij ziet.
Resultaat: Hij zegt: "Ik zie een olifant," terwijl er op de foto alleen een stoel staat.

Tot nu toe probeerden mensen dit op twee losse manieren op te lossen:

De "Luidere Foto" methode: Ze probeerden de foto harder te laten "schreeuwen" zodat de verteller er naar luisterde. Maar als de verteller al te veel in zijn eigen hoofd zit, helpt dat niet genoeg.
De "Demp de Taal" methode: Ze probeerden de verteller te straffen als hij te veel praatte zonder te kijken. Maar vaak deden ze dit door de foto te vervormen (bijvoorbeeld met een vage filter), wat de verteller alleen maar verwarde en onbetrouwbare antwoorden gaf.

De auteurs zeggen: "Laten we deze twee losse methoden niet meer apart doen. Laten we één slim systeem maken dat beide kanten aanpakt."

De Oplossing: De Magische Sleutel (De Vision Token)

In de computerwereld is een foto niet direct een plaatje, maar een reeks van kleine stukjes data die tokens heten. De auteurs zeggen: "Laten we deze tokens als een magische sleutel gebruiken om twee dingen tegelijkertijd te doen."

Ze hebben een systeem bedacht dat werkt als een twee-in-één team:

1. De Versterker (SVC) – "De Twee Ogen"

Stel je voor dat je naar een foto kijkt en je bent niet zeker of je iets ziet. Wat doe je? Je knijpt je ogen een beetje samen, of je kijkt er vanuit een andere hoek.

Hoe het werkt: Het systeem maakt een tweede versie van de foto (een beetje vervormd, omgekeerd of met ruis).
De magie: Het combineert de originele foto met deze tweede versie. Het is alsof de verteller nu twee verschillende perspectieven tegelijk heeft.
Het effect: Hierdoor wordt het beeld van de foto sterker en scherper in het hoofd van de verteller. Hij kan de details beter "vasthouden" en vergeten ze minder snel.

2. De Zuiveraar (CRC) – "De Spelverstoorder"

Nu moeten we de verteller ook leren om niet te dromen. Hoe doe je dat? Je moet hem laten zien wat er gebeurt als hij niet naar de foto kijkt.

Hoe het werkt: In plaats van de hele foto te vervormen (wat rommelig is), pakt het systeem gewoon een paar stukjes van de foto weg (de tokens). Het is alsof je een raam dichtdoet in een kamer.
De magie: De computer kijkt nu naar wat er gebeurt als die stukjes ontbreken. Het merkt op: "Ah, als die stukjes weg zijn, begint de verteller te verzinnen."
Het effect: De computer maakt een "anti-ontwerp" van die verzonnen dingen en trekt dit af van het echte antwoord. Het is alsof je een vlek op een wit T-shirt verwijdert door de vlek te meten en die kleur eruit te halen. Zo blijft alleen de ware waarheid over.

Waarom is dit zo slim?

De auteurs zeggen: "Laten we niet twee verschillende gereedschappen gebruiken. Laten we één gereedschap (de tokens) op twee manieren gebruiken."

SVC gebruikt de tokens om de foto sterker te maken (zoals een vergrootglas).
CRC gebruikt de tokens om de fantasie te verwijderen (zoals een schuursponsje).

Het Resultaat

Dit nieuwe systeem werkt wonderbaarlijk goed:

Het model maakt veel minder fouten (het hallucineert minder).
Het is nog steeds heel snel (het kost maar een klein beetje extra tijd om te rekenen).
Het werkt voor verschillende soorten modellen, niet alleen voor één specifiek type.

Kort samengevat:
Stel je voor dat je een vriend hebt die vaak fantaseert over foto's.

Geef hem eerst een tweede, iets andere foto om naar te kijken, zodat hij de details beter ziet.
Geef hem daarna een korte pauze waarin je een paar details uit de foto haalt, zodat hij merkt dat hij zonder die details begint te dromen.
Gebruik die kennis om zijn dromen te corrigeren.

Dat is precies wat deze paper doet: het gebruikt de "oogjes" van de computer op een slimme manier om de verteller weer op het rechte pad te brengen, zonder dat je de verteller opnieuw hoeft te leren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination", geschreven in het Nederlands.

1. Het Probleem: Hallucinaties in Multimodale LLM's (MLLM's)

Multimodale Large Language Models (MLLM's) vertonen vaak hallucinaties: ze genereren vloeiende tekst die in tegenspraak is met de visuele input. De kernoorzaak is een fundamenteel ongewenst evenwicht tussen visuele signalen en taalkundige priors:

Visueel verval: Tijdens het generatieproces verzwakt het visuele signaal (aandacht voor het beeld) geleidelijk.
Taalkundige traagheid (Text Inertia): Het sterke interne taalkundige model van de LLM neemt de overhand en genereert tekst op basis van statistische waarschijnlijkheid in plaats van visuele feiten.

Bestaande "training-free" oplossingen werken met gescheiden strategieën:

Visuele versterking: Versterken van de aandacht voor het beeld (vaak onvoldoende tegen sterke taalkundige priors).
Onderdrukking van tekst: Gebruik van contrastieve decoding met negatieve voorbeelden (vaak gebaseerd op vervormde afbeeldingen), wat onbetrouwbare ruis introduceert.
De auteurs tonen aan dat het naïef combineren van deze twee methoden faalt omdat ze op verschillende niveaus werken en conflicterende signalen leveren. Er is behoefte aan een geïntegreerd raamwerk.

2. Methodologie: Een Unificerend Raamwerk

Het paper stelt een uniek, training-vrij raamwerk voor dat volledig werkt op het niveau van de latente representaties (tussenliggende lagen) van het model, in plaats van alleen op de uiteindelijke logits. De kern van de oplossing is het manipuleren van visuele tokens voor twee tegengestelde doelen: versterking en onderdrukking.

Het raamwerk bestaat uit twee hoofdmodules:

A. Synergistic Visual Calibration (SVC) – Versterking

Doel: Het tegengaan van visueel verval door het visuele signaal te versterken.
Mechanisme: Gebaseerd op het inzicht dat semantische complementariteit bestaat tussen een originele afbeelding en een aangevulde versie.
- Er wordt een aangevulde afbeelding ( $I_{aug}$ ) gegenereerd via transformaties (horizontale spiegeling, Gaussische blur, ruis).
- De visuele tokens van de originele en aangevulde afbeelding worden samengevoegd tot een "synergetisch visueel geheugen" ( $V_{syn}$ ).
- Deze tokens worden via een attention-mechanisme geïnjecteerd in een specifieke middenlaag ( $L_c$ ) van het decoder.
Resultaat: Dit injecteert een rijkere visuele context die de visuele aandacht scherper houdt en vervaagde signalen compenseert.

B. Causal Representation Calibration (CRC) – Onderdrukking

Doel: Het zuiveren van interne modelbias (hallucinatietendensen) door negatieve voorbeelden te creëren.
Mechanisme: Gebaseerd op het principe van het informatie-gat (information-gap) in plaats van modality-gap.
- In plaats van de inputafbeelding te vervormen (wat ruis introduceert), worden visuele tokens in de latente ruimte verwijderd (gepruned).
- Er worden $K$ "negatieve samples" gegenereerd door willekeurig tokens te verwijderen (bijv. slechts 5 tokens houden van de oorspronkelijke 576).
- Door de representatie van de originele input te vergelijken met deze "gepruned" input, wordt een stabiel hallucinatiemogelijkheidsvector ( $v_{crc}$ ) berekend.
- Deze vector wordt afgetrokken van de huidige hidden states in de lagere lagen om de bias te neutraliseren.
Resultaat: Dit creëert een "in-distribution" negatief voorbeeld dat de bias van het model precies isoleert zonder extra ruis toe te voegen.

3. Belangrijkste Bijdragen

Herformulering van het probleem: De auteurs reframen hallucinatie als een probleem van visueel-taalbalans en tonen aan dat naïeve combinaties van bestaande methoden falen.
Eerste unificerend raamwerk: Het is het eerste training-vrije framework dat versterking (SVC) en onderdrukking (CRC) harmonieert door visuele tokens als centrale bron te gebruiken, volledig opererend op tussenliggende representaties.
Nieuwe modules: Introductie van SVC (voor robuuste visuele gronding) en CRC (voor precieze bias-reiniging via token-pruning).
Theoretische onderbouwing: Het gebruik van Structurele Causale Modellen (SCM) om te bewijzen dat token-pruning een zuiverer signaal van visueel verlies isoleert dan pixel-level masking.

4. Resultaten

Het framework werd getest op meerdere MLLM-architecturen (LLaVA-1.5, MiniGPT-4, Shikra, InstructBLIP) en benchmarks:

Object Hallucinaties (POPE): Op de uitdagende GQA-split van de POPE-benchmark behaalde het model een 81,54% nauwkeurigheid met LLaVA-1.5, wat een verbetering is ten opzichte van state-of-the-art methoden zoals VCD, PAI en VISTA.
Open-ended Beschrijvingen (CHAIR): Het model behaalde de beste scores voor hallucinatie van objecten (CHAIRI en CHAIRS), wat aantoont dat het effectief ongegronde objectgeneratie onderdrukt.
Algemene Capabiliteiten (MME & MMHal-Bench): Het framework verbetert niet alleen de hallucinaties, maar verhoogt ook de algemene perceptie- en cognitie-scores, wat aantoont dat de visuele en taalkundige vaardigheden beter gebalanceerd zijn.
Efficiëntie: Het introduceert slechts een 1,06x vertraging in inferentie-tijd (latency) ten opzichte van de standaard greedy decoding. Dit is aanzienlijk efficiënter dan methoden zoals VCD (2,4x vertraging) en gebruikt minder GPU-geheugen.

5. Betekenis en Impact

Deze paper biedt een paradigmaverschuiving in de strijd tegen MLLM-hallucinaties. In plaats van te kiezen tussen visuele versterking of taalkundige onderdrukking, toont het aan dat visuele tokens zelf de sleutel zijn tot beide oplossingen.

Door te werken op het niveau van latente representaties en token-manipulatie, vermijdt het de ruis die vaak optreedt bij beeldvervorming.
De methode is training-vrij, wat betekent dat het direct toepasbaar is op bestaande modellen zonder kostbare hertraining.
De hoge efficiëntie maakt het geschikt voor real-world toepassingen waar lage latentie cruciaal is.

Kortom, het paper presenteert een elegante, wiskundig onderbouwde oplossing die het fundamentele onevenwicht in MLLM's corrigeert door visuele tokens te gebruiken als een "tweeledig wapen" voor zowel versterking als zuivering.