Language-Guided Invariance Probing of Vision-Language Models

Deze paper introduceert LGIP, een benchmark die de taalkundige robuustheid van vision-language modellen evalueert door hun invariantie tegen betekenisbehoudende parafrases en gevoeligheid voor betekenisveranderende manipulaties te meten, waarbij wordt vastgesteld dat modellen zoals SigLIP aanzienlijk minder betrouwbaar reageren op dergelijke taalkundige veranderingen dan modellen als EVA02-CLIP.

Jae Joong Lee

Gepubliceerd 2026-02-19
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme robot hebt die foto's en teksten begrijpt. Deze robot, een zogenaamd "Vision-Language Model" (zoals CLIP of SigLIP), is getraind om te zeggen: "Deze foto past perfect bij deze zin." Hij is heel goed in het vinden van foto's als je zoekt op "een hond op het strand".

Maar de onderzoekers van dit paper vragen zich af: Is deze robot echt slim, of is hij gewoon een oppervlakkige lezer?

Stel je voor dat je de robot twee zinnen geeft over dezelfde foto:

  1. "Een bruine hond speelt in het gras."
  2. "Een hond van bruine kleur die in het gras speelt."

Een slimme robot zou moeten denken: "Oh, dat is precies hetzelfde, alleen anders gezegd."
Maar wat als je zegt: "Een paard speelt in het gras"? Dan zou de robot moeten schreeuwen: "Nee! Dat klopt niet! Op de foto staat een hond!"

De onderzoekers hebben een nieuwe test bedacht, genaamd LGIP (Language-Guided Invariance Probing), om te kijken of robots dit verschil echt snappen. Ze noemen het een "taalgeleid invariatie-proef".

De Twee Regels van de Test

De onderzoekers hebben twee soorten "trucs" bedacht om de robots op de proef te stellen:

1. De "Paraphrase" (De Verkleedpartij)
Stel je voor dat je een foto van een hond laat zien. Je zegt eerst: "Een hond." Dan zeg je: "Een viervoetige vriend." Dan: "Een trouwe kameraad."

  • De test: De robot moet denken: "Ah, dit is allemaal hetzelfde." De score voor de foto moet gelijk blijven, ongeacht hoe je het zegt. Dit noemen ze invariantie. Als de robot paniek krijgt bij elk nieuw woord, is hij te oppervlakkig.

2. De "Semantic Flip" (De Leugen)
Nu veranderen we één belangrijk woord in de zin. Van "Een hond" naar "Een paard". Of van "Een rode auto" naar "Een blauwe auto".

  • De test: De robot moet denken: "Wacht, dit klopt niet meer! De foto toont een hond, niet een paard. De score moet dalen!" Dit noemen ze semantische gevoeligheid. Als de robot denkt: "Nou ja, een paard is ook een dier, dat is wel goed," dan is hij niet goed genoeg.

Wat hebben ze ontdekt?

Ze hebben negen verschillende robots getest. Het resultaat was verrassend:

  • De "Goede" Robots (zoals EVA02-CLIP en grote OpenCLIP modellen):
    Deze robots zijn als een ervaren detective. Ze zien door de verkleedpartij heen (ze snappen dat "hond" en "trouwe kameraad" hetzelfde zijn) én ze merken direct als je liegt (ze zien dat "paard" niet past bij de foto van de hond). Ze zijn stabiel en scherp.

  • De "Verwarde" Robots (zoals SigLIP en SigLIP2):
    Deze robots zijn als een slaperige student die net wakker wordt.

    • Bij de verkleedpartij raken ze in de war: "Oh, 'trouwe kameraad'? Dat klinkt anders dan 'hond', misschien is het een andere foto?" (Ze worden onstabiel).
    • Bij de leugen zijn ze zelfs nog slechter: Ze denken soms dat de zin met "paard" wel past bij de foto van de hond, of ze geven de leugen zelfs een hogere score dan de waarheid! Ze lijken niet echt te begrijpen wat er op de foto staat, maar raden alleen maar op basis van woorden.

Waarom is dit belangrijk?

Tot nu toe keken mensen alleen naar de eindcijfers: "Hoe vaak heeft de robot de juiste foto gevonden?" Maar dit paper laat zien dat je dat niet genoeg is. Een robot kan hoge cijfers halen door te gokken of door oppervlakkige patronen te leren, zonder echt te begrijpen wat er gebeurt.

Met deze nieuwe test (LGIP) kunnen we zien welke robots echt "nadenken" en welke alleen maar "kletsen".

Kortom:
De onderzoekers hebben een nieuwe manier bedacht om te testen of AI-robots echt zien wat er op een foto staat, of dat ze alleen maar naar de woorden kijken. Ze ontdekten dat sommige populaire robots (zoals SigLIP) verrassend slecht zijn in het onderscheiden van waarheid en leugen, terwijl andere (zoals EVA02) dat heel goed doen. Dit helpt ontwikkelaars om betere, betrouwbaardere robots te bouwen die niet snel in de war raken door een andere manier van spreken of een klein leugentje.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →