VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Dit paper introduceert VisualScratchpad, een interactief interface dat gebruikmaakt van sparse autoencoders en tekst-naar-beeld-attention om visuele concepten in Vision Language Models te analyseren tijdens inferentie, waardoor complexe fouten zoals beperkte cross-modale alignie en misleidende visuele concepten beter kunnen worden begrepen en gedebugged.

Hyesu Lim, Jinho Choi, Taekyung Kim, Byeongho Heo, Jaegul Choo, Dongyoon Han

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Schetsblok" voor AI: Waarom zien beeld-taalmodellen soms dingen die er niet zijn?

Stel je voor dat je een zeer slimme, maar soms verwarde assistent hebt. Deze assistent kan foto's bekijken en er verhalen over vertellen. Maar soms zegt hij: "Oh, dit is een hond," terwijl het eigenlijk een kat is. Of hij ziet een beker op een hand, maar zegt: "Nee, het staat op een tafel."

Waarom maakt deze assistent zulke fouten? Is het omdat hij de foto niet goed ziet? Of omdat hij de woorden niet goed begrijpt? Tot nu toe was dit een raadsel, alsof je probeerde te raden wat er in het hoofd van een ander omgaat zonder dat je erbij kunt kijken.

Dit nieuwe onderzoek, getiteld VisualScratchpad, introduceert een nieuw gereedschap dat ons precies laat zien wat er in het "hoofd" van deze AI gebeurt terwijl hij naar een foto kijkt. Het is alsof we een schetsblok (een scratchpad) krijgen waar de AI zijn gedachten op schrijft voordat hij een antwoord geeft.

Hier is hoe het werkt, vertaald in simpele termen:

1. De AI als een verzameling losse puzzelstukjes

Normaal gesproken denkt een AI in een grote, ondoorzichtige massa van getallen. Het is alsof je een boek leest in een taal die niemand spreekt.
De onderzoekers gebruiken een trucje (een Sparse Autoencoder) om die grote massa op te splitsen in duizenden kleine, losse puzzelstukjes. Elk stukje vertegenwoordigt één specifiek idee: bijvoorbeeld "rood", "een hand", "een gestreept shirt" of "een stoel".

  • De analogie: In plaats van een grote, rommelige lade met kleren, hebben we nu een kast met honderden kleine vakjes. In vakje #42 zit alleen "handschoenen", in vakje #105 zit alleen "stoel".

2. De brug tussen beeld en taal

De AI bestaat uit twee delen: een deel dat foto's ziet (de ogen) en een deel dat tekst schrijft (de mond). Soms praten deze twee niet goed met elkaar.
VisualScratchpad bouwt een brug tussen deze twee. Het kijkt waar de AI in de tekst naar kijkt (bijvoorbeeld het woord "hand") en vraagt: "Welke van die puzzelstukjes in de foto-afdeling zijn hiermee verbonden?"

  • De analogie: Stel je voor dat de AI een vertaler is. VisualScratchpad laat ons zien welke woorden de vertaler koppelt aan welke beelden. Als de vertaler het woord "hand" koppelt aan een puzzelstukje "handschoen", maar dat stukje is vergeten, dan ontstaat er verwarring.

3. De "Hittekaart" van gedachten

Het systeem maakt een kleurrijke kaart (een heatmap) die laat zien welke puzzelstukjes het meest actief zijn.

  • De analogie: Het is alsof je een nachtkijker op de hersenen van de AI zet. Je ziet welke delen "oplichten" (rood/gelb) en welke donker blijven. Als het woord "zittend" oplicht, maar het puzzelstukje "stoel" is zwak, dan weten we dat de AI iets mist.

Wat hebben ze ontdekt? (De drie fouten)

Met dit nieuwe "schetsblok" hebben ze drie redenen gevonden waarom de AI soms fouten maakt:

  1. De slechte vertaler (Koppeling):
    De AI zag de juiste details (een hand met een handschoen), maar kon de link leggen naar het woord "hand". Hij dacht: "Ik zie handschoenen, maar ik weet niet dat dat een hand is."

    • Oplossing: Als je de vraag iets duidelijker stelt ("Is het op een hand met een handschoen?"), werkt het wel. De AI had de info, maar de brug ontbrak.
  2. De verkeerde aanwijzing (Misleiding):
    Soms kijkt de AI naar iets dat er niet toe doet. Bijvoorbeeld: hij ziet een rolstoel en denkt direct "zittend", zelfs als de persoon in de foto staat. Hij laat zich leiden door een verkeerd idee.

    • Oplossing: Als je in het schetsblok het stukje "rolstoel" even "uitzet", ziet de AI plotseling dat de persoon staat.
  3. De verborgen hints (Niet gebruikt):
    Soms ziet de AI twee dingen tegelijk (bijvoorbeeld een eend én een konijn in een illusie), maar hij kiest er één en negeert de andere. Het andere idee zit er wel in, maar wordt niet gebruikt.

    • Oplossing: Als je het idee "eend" uit het schetsblok haalt, springt de AI automatisch over naar het idee "konijn". De informatie was er, maar werd genegeerd.

Waarom is dit belangrijk?

Voorheen was het moeilijk om te weten waarom een slimme computer een fout maakte. Was het domheid? Of een gebrek aan kennis?
Met VisualScratchpad kunnen onderzoekers nu als een monteur onder de motorkap kijken. Ze kunnen zien: "Ah, hij zag het wel, maar hij wist niet wat hij ermee moest doen," of "Hij keek naar het verkeerde stukje."

Dit helpt ons om AI-systemen veiliger en betrouwbaarder te maken, zodat ze niet alleen slim lijken, maar ook echt begrijpen wat ze zien. Het is de eerste stap naar AI die we echt kunnen vertrouwen, omdat we precies weten hoe ze denken.