Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

In dit werk wordt CLIPGlasses voorgesteld, een plug-and-play framework dat CLIP in staat stelt negatieve visuele beschrijvingen te begrijpen zonder fine-tuning, door middel van een dubbelstadiumsontwerp dat negatieve semantics ontkoppelt en de uitlijning met deze semantics bestraft om valse positieven te verminderen.

Junhao Xiao, Zhiyu Wu, Hao Lin, Yi Chen, Yahui Liu, Xiaoran Zhao, Zixu Wang, Zejiang He

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: CLIPGLASSES: De Brillen die CLIP laten zien wat er niet is

Stel je voor dat je een heel slimme robot hebt, genaamd CLIP. Deze robot is een meester in het matchen van plaatjes en zinnen. Als je hem een foto van een hond laat zien en vraagt: "Is dit een hond?", zegt hij direct: "Ja!". Maar als je hem een foto van een hond laat zien en zegt: "Dit is geen hond", dan raakt hij in de war. Hij denkt nog steeds: "Oh, ik zie een hond, dus het antwoord is ja!".

Waarom doet hij dit? Omdat hij tijdens zijn opleiding (het leren) bijna nooit heeft geleerd wat het woord "niet" of "geen" betekent. Voor de robot zijn "een hond" en "geen hond" bijna hetzelfde, omdat hij het woord "hond" in beide zinnen ziet.

Bestaande oplossingen proberen de robot te herscholen door hem duizenden nieuwe voorbeelden te laten zien. Maar dat is als een student die alles uit zijn hoofd leert: hij wordt goed in die specifieke vragen, maar vergeet daarna alles wat hij al wist (zoals hoe hij andere dingen moet herkennen).

De auteurs van dit paper hebben een slimmer idee bedacht: CLIPGLASSES. In plaats van de robot te herscholen, geven we hem gewoon een bril.

Hoe werkt deze bril?

De bril bestaat uit twee delen, net als een echte bril met een lens en een montuur:

1. De Lens (Het Vergrootglas)

Stel je voor dat je een zin leest: "Een meisje, maar geen hond."
De robot kijkt normaal gesproken alleen naar het woord "hond" en negeert het "geen".
De Lens is een slim vergrootglas dat de zin in tweeën splitst. Het pakt het woord "hond" eruit en zegt: "Wacht even, dit woord wordt hier ontkend. Laten we dit apart houden."
Het haalt de betekenis van "geen hond" los van de gewone betekenis van "hond". Het is alsof de lens een sticker plakt op het woord "hond" met de tekst: "Pas op, dit is een verboden object!"

2. Het Montuur (Het Kracht-Meter)

Nu we weten dat er een "geen hond" is, moeten we weten hoe hard we moeten straffen als de robot toch een hond ziet.
Soms zeggen mensen: "Er is misschien geen hond" (zwakke ontkennend). Soms zeggen ze: "Er is geen hond!" (sterke ontkennend).
Het Montuur (Frame) kijkt naar de hele situatie (het plaatje én de zin) en zegt: "Hoe sterk is deze ontkennend?"

  • Als de zin "geen hond" is, zet het montuur de kracht op 100%.
  • Als de zin "misschien geen hond" is, zet het op 50%.

Het Magische Moment: Het "Afwijzings-Principe"

Normaal gesproken zoekt de robot naar overeenkomsten. Als hij een hond ziet en de tekst zegt "hond", is dat een match.
Met de CLIPGLASSES gebeurt er iets anders:

  1. De robot kijkt naar de foto. Hij ziet een hond.
  2. De tekst zegt: "geen hond".
  3. De Lens zegt: "Hé, die hond in de tekst is een 'verboden' hond."
  4. Het Montuur zegt: "De ontkennend is sterk, we moeten die hond hard straffen."
  5. In plaats van te zeggen "Match!", zegt de robot nu: "Nee, trek die hond weg van mijn antwoord!"

Het is alsof je een magneet hebt. Normaal trekt de tekst "hond" het plaatje van de hond aan. Maar met de bril wordt de tekst "geen hond" een afstotende magneet. Hoe sterker de ontkennend, hoe harder de afstoting.

Waarom is dit zo cool?

  • Geen herscholing nodig: We hoeven de robot niet opnieuw te leren. We plakken gewoon deze bril op zijn hoofd.
  • Hij vergeet niets: Omdat we de robot zelf niet veranderen, blijft hij net zo goed in het herkennen van andere dingen (zoals auto's of bomen) als voorheen. Andere methoden maken robots vaak "dommer" op andere gebieden.
  • Hij werkt ook als er weinig data is: Zelfs als we de robot maar een paar voorbeelden geven, werkt de bril al heel goed.

Samenvatting in één zin

CLIPGLASSES is een slimme toevoeging die CLIP leert om niet alleen te kijken naar wat er is, maar ook actief te zoeken naar wat er niet is, door een soort "afstotingskracht" te gebruiken die sterker wordt naarmate de ontkennend in de zin duidelijker is.

Het is alsof je iemand die blind is voor "niet" een bril geeft zodat hij eindelijk kan zien wat er ontbreekt!

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →