VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Schetsblok" voor AI: Waarom zien beeld-taalmodellen soms dingen die er niet zijn?

Stel je voor dat je een zeer slimme, maar soms verwarde assistent hebt. Deze assistent kan foto's bekijken en er verhalen over vertellen. Maar soms zegt hij: "Oh, dit is een hond," terwijl het eigenlijk een kat is. Of hij ziet een beker op een hand, maar zegt: "Nee, het staat op een tafel."

Waarom maakt deze assistent zulke fouten? Is het omdat hij de foto niet goed ziet? Of omdat hij de woorden niet goed begrijpt? Tot nu toe was dit een raadsel, alsof je probeerde te raden wat er in het hoofd van een ander omgaat zonder dat je erbij kunt kijken.

Dit nieuwe onderzoek, getiteld VisualScratchpad, introduceert een nieuw gereedschap dat ons precies laat zien wat er in het "hoofd" van deze AI gebeurt terwijl hij naar een foto kijkt. Het is alsof we een schetsblok (een scratchpad) krijgen waar de AI zijn gedachten op schrijft voordat hij een antwoord geeft.

Hier is hoe het werkt, vertaald in simpele termen:

1. De AI als een verzameling losse puzzelstukjes

Normaal gesproken denkt een AI in een grote, ondoorzichtige massa van getallen. Het is alsof je een boek leest in een taal die niemand spreekt.
De onderzoekers gebruiken een trucje (een Sparse Autoencoder) om die grote massa op te splitsen in duizenden kleine, losse puzzelstukjes. Elk stukje vertegenwoordigt één specifiek idee: bijvoorbeeld "rood", "een hand", "een gestreept shirt" of "een stoel".

De analogie: In plaats van een grote, rommelige lade met kleren, hebben we nu een kast met honderden kleine vakjes. In vakje #42 zit alleen "handschoenen", in vakje #105 zit alleen "stoel".

2. De brug tussen beeld en taal

De AI bestaat uit twee delen: een deel dat foto's ziet (de ogen) en een deel dat tekst schrijft (de mond). Soms praten deze twee niet goed met elkaar.
VisualScratchpad bouwt een brug tussen deze twee. Het kijkt waar de AI in de tekst naar kijkt (bijvoorbeeld het woord "hand") en vraagt: "Welke van die puzzelstukjes in de foto-afdeling zijn hiermee verbonden?"

De analogie: Stel je voor dat de AI een vertaler is. VisualScratchpad laat ons zien welke woorden de vertaler koppelt aan welke beelden. Als de vertaler het woord "hand" koppelt aan een puzzelstukje "handschoen", maar dat stukje is vergeten, dan ontstaat er verwarring.

3. De "Hittekaart" van gedachten

Het systeem maakt een kleurrijke kaart (een heatmap) die laat zien welke puzzelstukjes het meest actief zijn.

De analogie: Het is alsof je een nachtkijker op de hersenen van de AI zet. Je ziet welke delen "oplichten" (rood/gelb) en welke donker blijven. Als het woord "zittend" oplicht, maar het puzzelstukje "stoel" is zwak, dan weten we dat de AI iets mist.

Wat hebben ze ontdekt? (De drie fouten)

Met dit nieuwe "schetsblok" hebben ze drie redenen gevonden waarom de AI soms fouten maakt:

De slechte vertaler (Koppeling):
De AI zag de juiste details (een hand met een handschoen), maar kon de link leggen naar het woord "hand". Hij dacht: "Ik zie handschoenen, maar ik weet niet dat dat een hand is."
- Oplossing: Als je de vraag iets duidelijker stelt ("Is het op een hand met een handschoen?"), werkt het wel. De AI had de info, maar de brug ontbrak.
De verkeerde aanwijzing (Misleiding):
Soms kijkt de AI naar iets dat er niet toe doet. Bijvoorbeeld: hij ziet een rolstoel en denkt direct "zittend", zelfs als de persoon in de foto staat. Hij laat zich leiden door een verkeerd idee.
- Oplossing: Als je in het schetsblok het stukje "rolstoel" even "uitzet", ziet de AI plotseling dat de persoon staat.
De verborgen hints (Niet gebruikt):
Soms ziet de AI twee dingen tegelijk (bijvoorbeeld een eend én een konijn in een illusie), maar hij kiest er één en negeert de andere. Het andere idee zit er wel in, maar wordt niet gebruikt.
- Oplossing: Als je het idee "eend" uit het schetsblok haalt, springt de AI automatisch over naar het idee "konijn". De informatie was er, maar werd genegeerd.

Waarom is dit belangrijk?

Voorheen was het moeilijk om te weten waarom een slimme computer een fout maakte. Was het domheid? Of een gebrek aan kennis?
Met VisualScratchpad kunnen onderzoekers nu als een monteur onder de motorkap kijken. Ze kunnen zien: "Ah, hij zag het wel, maar hij wist niet wat hij ermee moest doen," of "Hij keek naar het verkeerde stukje."

Dit helpt ons om AI-systemen veiliger en betrouwbaarder te maken, zodat ze niet alleen slim lijken, maar ook echt begrijpen wat ze zien. Het is de eerste stap naar AI die we echt kunnen vertrouwen, omdat we precies weten hoe ze denken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Vision-Language Models (VLMs) uitstekende prestaties leveren, maken ze nog steeds fouten waarvan de oorzaken moeilijk te verklaren zijn. De interne werking van deze modellen is vaak een "black box". Bestaande methoden voor mechanische interpretabiliteit hebben moeite met het ontrafelen van welke visuele concepten door de visuele encoder worden opgepikt en hoe deze vervolgens door het taalmodel worden gebruikt om een antwoord te genereren.

Een specifiek probleem is dat individuele neuronen vaak geactiveerd worden door meerdere, niet-gerelateerde concepten (superpositie). Hoewel Sparse Autoencoders (SAEs) dit probleem kunnen mitigeren door dichte representaties uit te breiden naar een hogere-dimensionale, schaarse basis, ontbreekt er een gestructureerd interface om deze SAE-latents systematisch te analyseren, te debuggen en causaal te testen tijdens het inferentieproces van VLMs.

Methodologie: VisualScratchpad

De auteurs introduceren VisualScratchpad, een interactieve interface die SAE's toepast op de visuele encoder van een VLM en deze koppelt aan de taalcomponent via cross-attention. De methodologie bestaat uit de volgende kerncomponenten:

Extractie van Visuele Concepten met SAE:
- Er wordt een "vanilla" SAE getraind op de frozen CLIP-ViT-large visuele encoder (expansiefactor 32).
- De intermediate representaties ( $z$ ) van de visuele encoder worden omgezet in een schaarse set van latents ( $h$ ).
- Deze latents vertegenwoordigen granulaire visuele concepten die semantisch interpreteerbaar zijn.
Koppeling via Tekst-naar-Beeld Attention:
- Om visuele concepten te linkken aan specifieke tekst-tokens (woorden in de output), gebruiken de auteurs de cross-attention maps van het taalmodel.
- In plaats van een naïeve gemiddelde over het hele beeld, wordt een attention-weighted averaging toegepast. De activaties van de SAE-latents per image patch worden gewogen op basis van de aandacht die het taalmodel besteedt aan die specifieke patch voor een bepaald output-token.
- Dit resulteert in een her-ranking van concepten: concepten die relevant zijn voor de gegenereerde tekst krijgen een hogere score.
Token-Latent Heatmap en Clustering:
- Omdat SAE-latents hiërarchisch of gecorreleerd kunnen zijn, is het lastig om de juiste subset te kiezen voor causale analyse.
- De auteurs introduceren een token-latent activation heatmap. Hierin worden latents die sterk geactiveerd zijn voor specifieke output-tokens verzameld en geklusterd op basis van hun activatiepatronen.
- Deze clustering helpt gebruikers een "sufficient set" van latents te identificeren die samen één semantisch concept vertegenwoordigen.
Causale Analyse (Latent Ablation):
- De interface stelt gebruikers in staat om de activaties van geselecteerde latents te manipuleren (bijvoorbeeld op nul zetten of verhogen) voordat de decodering plaatsvindt.
- Door te vergelijken hoe de output verandert bij het verwijderen (ablatie) van een cluster, kan de causale invloed van dat visuele concept op het eindantwoord worden verifieerd.

Kernbijdragen

VisualScratchpad Interface: Een uniek, interactief platform dat SAE-based concept exploratie, inferentie-tijd debugging en causale analyse voor VLMs verenigt.
Nieuwe Koppelmethode: Een innovatieve aanpak om visuele concepten (uit de visuele encoder) te koppelen aan taal-tokens via attention maps, zonder de projectielagen van het taalmodel te hoeven interpreteren.
Token-Latent Heatmap: Een visualisatie-tool die helpt bij het selecteren van relevante latents voor effectieve concept-sturing door activatie-achtigheden te clusteren.
Systematische Debugging: Een gestructureerde pipeline om fouten in VLMs te diagnosticeren door in te zien welke visuele cues wel of niet worden gebruikt.

Resultaten en Case Studies

De auteurs demonstreren de effectiviteit van VisualScratchpad aan de hand van drie case studies met het LLaVA-Next-8B model, waarbij drie onderbelichte faalmodi worden blootgelegd:

Beperkte Cross-Modal Alignement:
- Scenario: Het model ziet een hand met een want, maar antwoordt dat een kopje op een "oppervlak" ligt.
- Analyse: De attention map toont dat het model wel naar de hand kijkt en concepten als "want" activeert, maar deze visuele concepten zijn slecht uitgelijnd met het tekstconcept "hand".
- Oplossing: Door de prompt te verfijnen ("op een hand met een want"), wordt het juiste antwoord gegenereerd. Dit toont aan dat het visuele concept aanwezig is, maar taalkundig niet wordt benut.
Grondbegins op Misleidende Cues:
- Scenario: Het model denkt dat een ouder persoon "zit" in plaats van "staat", ondanks dat er een wandelstok zichtbaar is.
- Analyse: Het model activeert concepten gerelateerd aan "stoel" en "zitten" die geassocieerd worden met de wandelstok (een spurious correlation).
- Oplossing: Door de latents voor "zitten" en "stoel" te ablaten, verandert het antwoord correct naar "staan". Dit illustreert een afhankelijkheid van semantisch onjuiste associaties.
Ongebruikte Verborgen Cues:
- Scenario: Bij een optische illusie (eend/kanijn) beschrijft het model alleen een "eend", hoewel "kanijn"-concepten ook actief zijn.
- Analyse: Het model encodeert beide interpretaties intern, maar kiest voor de dominante.
- Oplossing: Door de "eend"-latents te ablaten en de "kanijn"-latents te versterken, schuift de output naar "kanijn". Dit toont aan dat VLMs vaak meer visuele informatie intern coderen dan ze in de output tonen.

Betekenis en Impact

Dit werk is significant voor de ontwikkeling van betrouwbare AI (Trustworthy AI) omdat het:

De "black box" van multimodale modellen openbreekt door te laten zien waarom een model faalt (bijv. slechte alignement vs. misleidende cues).
Een praktisch framework biedt voor onderzoekers en ontwikkelaars om VLMs systematisch te debuggen en te verbeteren zonder het model opnieuw te hoeven trainen.
De weg effent voor toekomstig onderzoek in causale analyse en automatische dataset-analyse, hoewel de huidige interface voornamelijk interactief is en nog niet volledig geschaald is voor geautomatiseerde grote experimenten.

Samenvattend biedt VisualScratchpad een cruciale brug tussen mechanische interpretabiliteit en praktische debugging van Vision-Language Models, waardoor het mogelijk wordt om fouten te diagnosticeren op het niveau van individuele visuele concepten.

VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

1. De AI als een verzameling losse puzzelstukjes

2. De brug tussen beeld en taal

3. De "Hittekaart" van gedachten

Wat hebben ze ontdekt? (De drie fouten)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: VisualScratchpad

Kernbijdragen

Resultaten en Case Studies

Betekenis en Impact

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes