Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

Titel: CLIPGLASSES: De Brillen die CLIP laten zien wat er niet is

Stel je voor dat je een heel slimme robot hebt, genaamd CLIP. Deze robot is een meester in het matchen van plaatjes en zinnen. Als je hem een foto van een hond laat zien en vraagt: "Is dit een hond?", zegt hij direct: "Ja!". Maar als je hem een foto van een hond laat zien en zegt: "Dit is geen hond", dan raakt hij in de war. Hij denkt nog steeds: "Oh, ik zie een hond, dus het antwoord is ja!".

Waarom doet hij dit? Omdat hij tijdens zijn opleiding (het leren) bijna nooit heeft geleerd wat het woord "niet" of "geen" betekent. Voor de robot zijn "een hond" en "geen hond" bijna hetzelfde, omdat hij het woord "hond" in beide zinnen ziet.

Bestaande oplossingen proberen de robot te herscholen door hem duizenden nieuwe voorbeelden te laten zien. Maar dat is als een student die alles uit zijn hoofd leert: hij wordt goed in die specifieke vragen, maar vergeet daarna alles wat hij al wist (zoals hoe hij andere dingen moet herkennen).

De auteurs van dit paper hebben een slimmer idee bedacht: CLIPGLASSES. In plaats van de robot te herscholen, geven we hem gewoon een bril.

Hoe werkt deze bril?

De bril bestaat uit twee delen, net als een echte bril met een lens en een montuur:

1. De Lens (Het Vergrootglas)

Stel je voor dat je een zin leest: "Een meisje, maar geen hond."
De robot kijkt normaal gesproken alleen naar het woord "hond" en negeert het "geen".
De Lens is een slim vergrootglas dat de zin in tweeën splitst. Het pakt het woord "hond" eruit en zegt: "Wacht even, dit woord wordt hier ontkend. Laten we dit apart houden."
Het haalt de betekenis van "geen hond" los van de gewone betekenis van "hond". Het is alsof de lens een sticker plakt op het woord "hond" met de tekst: "Pas op, dit is een verboden object!"

2. Het Montuur (Het Kracht-Meter)

Nu we weten dat er een "geen hond" is, moeten we weten hoe hard we moeten straffen als de robot toch een hond ziet.
Soms zeggen mensen: "Er is misschien geen hond" (zwakke ontkennend). Soms zeggen ze: "Er is geen hond!" (sterke ontkennend).
Het Montuur (Frame) kijkt naar de hele situatie (het plaatje én de zin) en zegt: "Hoe sterk is deze ontkennend?"

Als de zin "geen hond" is, zet het montuur de kracht op 100%.
Als de zin "misschien geen hond" is, zet het op 50%.

Het Magische Moment: Het "Afwijzings-Principe"

Normaal gesproken zoekt de robot naar overeenkomsten. Als hij een hond ziet en de tekst zegt "hond", is dat een match.
Met de CLIPGLASSES gebeurt er iets anders:

De robot kijkt naar de foto. Hij ziet een hond.
De tekst zegt: "geen hond".
De Lens zegt: "Hé, die hond in de tekst is een 'verboden' hond."
Het Montuur zegt: "De ontkennend is sterk, we moeten die hond hard straffen."
In plaats van te zeggen "Match!", zegt de robot nu: "Nee, trek die hond weg van mijn antwoord!"

Het is alsof je een magneet hebt. Normaal trekt de tekst "hond" het plaatje van de hond aan. Maar met de bril wordt de tekst "geen hond" een afstotende magneet. Hoe sterker de ontkennend, hoe harder de afstoting.

Waarom is dit zo cool?

Geen herscholing nodig: We hoeven de robot niet opnieuw te leren. We plakken gewoon deze bril op zijn hoofd.
Hij vergeet niets: Omdat we de robot zelf niet veranderen, blijft hij net zo goed in het herkennen van andere dingen (zoals auto's of bomen) als voorheen. Andere methoden maken robots vaak "dommer" op andere gebieden.
Hij werkt ook als er weinig data is: Zelfs als we de robot maar een paar voorbeelden geven, werkt de bril al heel goed.

Samenvatting in één zin

CLIPGLASSES is een slimme toevoeging die CLIP leert om niet alleen te kijken naar wat er is, maar ook actief te zoeken naar wat er niet is, door een soort "afstotingskracht" te gebruiken die sterker wordt naarmate de ontkennend in de zin duidelijker is.

Het is alsof je iemand die blind is voor "niet" een bril geeft zodat hij eindelijk kan zien wat er ontbreekt!

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Visueel-taalmodellen (VLM's) zoals CLIP hebben moeite met het begrijpen van ontkenningen (negatie). Hoewel CLIP beelden en teksten in een gedeelde embeddingruimte projecteert, behandelt het zinnen als "geen hond" vaak als "hond", wat leidt tot valse positieve matches. Dit komt door twee factoren:

Data-schaarste: Ontkenningen komen slechts zeer zelden voor in pre-training corpora (ongeveer 0,7%).
Bestaande oplossingen: Huidige methoden lossen dit op door de tekstencoder van CLIP te fine-tunen. Dit heeft echter twee grote nadelen: het vereist enorme, handmatig gelabelde datasets en het risico op "catastrophic forgetting", waarbij de algemene prestaties van het model verslechteren ten gunste van de specifieke taak (ontkenning).

Methodologie: CLIPGLASSES

De auteurs stellen CLIPGLASSES voor, een plug-and-play framework dat CLIP verbetert zonder de oorspronkelijke parameters aan te passen. In plaats van de "ogen" van het model te veranderen, laat het model "bril" dragen. Het ontwerp is gebaseerd op twee cognitieve inzichten:

Negatieve en positieve semantics zijn weliswaar dicht bij elkaar in de feature space, maar kunnen worden ontrafeld dankzij laag-specifieke codering.
Mensen verwerken ontkenningen in twee fasen: eerst het geïdentificeerde concept, daarna het omkeren van de betekenis.

Het framework bestaat uit twee lichtgewicht modules die worden toegevoegd aan de bestaande CLIP-architectuur:

1. De Lens-module (Ontkoppeling van Semantiek)

Deze module is verantwoordelijk voor het ontrafelen van de ontkenning uit de tekstembedding. Het gebruikt een dubbele stroom-architectuur (Syntax-Semantic Dual-Stream):

Syntactische Stroom: Haalt features uit de eerste drie lagen van de CLIP-tekstencoder om lokale syntactische patronen te vangen (bijv. "niet", "geen").
Semantische Stroom: Gebruikt de output van de laatste laag van CLIP voor globale contextbegrip (bijv. de reikwijdte van de ontkenning binnen een zin).
Fusie: Een hiërarchische attentiemechanisme combineert deze stromen. Een residuale gate zorgt ervoor dat de originele CLIP-features behouden blijven en alleen worden aangepast wanneer nodig, om semantische drift te voorkomen. De output is een gespecialiseerde embedding voor de ontkennde concepten ( $T_{neg}$ ).

2. De Frame-module (Dynamische Repulsie)

Deze module voorspelt hoe sterk de afstoting (repulsie) moet zijn tussen het beeld en de ontkennde tekst, afhankelijk van de context.

Het moduleert een repulsiegewicht ( $\lambda$ ) dat dynamisch wordt bepaald op basis van de kruismodale interactie (beeld + tekst).
Het gebruikt een gezamenlijke self-attention mechanisme om de tekst te verrijken met visuele context, en vervolgens cross-attention om de relevantie van de ontkennde features te wegen.
Het resultaat is een waarde $\lambda \in [0, 1]$ die aangeeft hoe sterk de overeenkomst met het ontkennde concept moet worden gestraft.

3. Gewijzigde Similariteitsberekening

De uiteindelijke matching-score ( $S$ ) combineert de standaard CLIP-similariteit met een straffende term voor ontkenningen:
$S = S_{base} - M \cdot R_{neg}$

$S_{base}$ : De originele CLIP-score.
$R_{neg}$ : De repulsie-term, berekend als $\lambda \cdot \text{similariteit}(q, k_{neg})$ .
$M$ : Een binaire masker (0 of 1) bepaald door een lichte classifier die detecteert of de input een ontkenning bevat. Als er geen ontkenning is, blijft het systeem zich gedragen als standaard CLIP.

Trainingsstrategie

Het model wordt getraind in drie fasen met bevroren CLIP-parameters:

Lens Training: Het ontrafelen van ontkennde objecten uit de tekst, geleid door ground-truth features.
Frame Training: Het leren van het dynamische gewicht $\lambda$ met behulp van de ground-truth negatieve features.
Joint Training: Optimalisatie van beide modules samen om synergie te creëren.

Resultaten

Experimenten tonen aan dat CLIPGLASSES superieur is aan state-of-the-art fine-tuning methoden (zoals NegCLIP en CoN-CLIP):

In-domain prestaties: Bereikt een hoge nauwkeurigheid (96,56% op CC-Neg-val), iets lager dan CoN-CLIP (99,70%), maar met een veel betere generalisatie.
Cross-domain generalisatie: Overtreft CoN-CLIP aanzienlijk op onbekende datasets (34,51% vs 25,70% op Neg-COCO-MCQ).
Low-resource robuustheid: Bij beperkte data (5K afbeeldingen) presteert CLIPGLASSES veel beter (+27,45 punten op CC-Neg-val) dan fine-tuning methoden, die hier sterk onder presteren.
Behoud van Zero-Shot capaciteiten: In tegenstelling tot fine-tuning methoden die de algemene prestaties van CLIP op standaard benchmarks (ImageNet, Caltech101) verslechteren, behoudt CLIPGLASSES de oorspronkelijke zero-shot vaardigheden volledig.

Bijdragen en Significantie

De belangrijkste bijdragen van dit werk zijn:

Niet-invasieve Architectuur: Een framework dat de prestaties van CLIP verbetert zonder de onderliggende parameters te wijzigen, waardoor het risico op overfitting en verlies van algemene kennis wordt geminimaliseerd.
Cognitief Geïnspireerd Ontwerp: De implementatie van een twee-fasen proces (ontkoppelen en repelleren) dat de manier waarop mensen ontkenningen verwerken, nabootst.
Dynamische Contextualisatie: Het vermogen om de sterkte van de afstoting aan te passen aan de linguïstische intensiteit van de ontkenning (bijv. "geen" vs. "misschien niet").

Conclusie:
CLIPGLASSES biedt een robuuste oplossing voor het begrijpen van ontkenningen in visueel-taaltaken. Het lost het fundamentele compromis op tussen gespecialiseerde prestaties en algemene toepasbaarheid, en maakt CLIP effectiever voor toepassingen waar precisie en nuance (zoals in medische scenario's) cruciaal zijn, zonder de basisvaardigheden van het model te offeren.