Is CLIP ideal? No. Can we fix it? Yes!

Deze paper toont aan dat de geometrie van CLIP fundamenteel beperkt is in het tegelijkertijd verwerken van complexe visuele-taalkundige relaties, en lost dit op door een nieuwe methode genaamd Dense Cosine Similarity Maps (DCSMs) voor te stellen die de semantische topologie behoudt en de prestaties op diverse benchmarks verbetert.

Raphi Kang, Yue Song, Georgia Gkioxari, Pietro Perona

Gepubliceerd 2026-03-12
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom CLIP (de slimme beeldherkenner) soms de draad kwijtraakt – en hoe we het oplossen

Stel je voor dat CLIP een superintelligente bibliothecaris is. Deze bibliothecaris heeft miljoenen boeken (teksten) en foto's gelezen en bekeken. Zijn taak is om te begrijpen wat er op een foto te zien is en welke tekst daar het beste bij past. Hij doet dit door alles in één grote, virtuele "ruimte" te plaatsen. Als een foto en een tekst op elkaar lijken, staan ze in deze ruimte dicht bij elkaar.

Maar, zoals de auteurs van dit paper zeggen: Is deze bibliothecaris perfect? Nee.

Het Probleem: De "Vage" Ruimte

Deze bibliothecaris is geweldig in het herkennen van grote lijnen. Zegt hij "een hond", dan vindt hij snel een foto van een hond. Maar hij faalt op de details. Het is alsof hij een bril draagt die alles een beetje wazig maakt.

Hier zijn drie voorbeelden van waar hij vastloopt:

  1. De Verwarde Kleuren (Attributen):

    • De vraag: "Een rode auto en een blauwe fiets."
    • De fout: De bibliothecaris ziet een auto en een fiets, maar hij vergeet welke kleur bij welk voertuig hoort. Voor hem is "rode auto + blauwe fiets" bijna hetzelfde als "blauwe auto + rode fiets". Hij kan de eigenschappen niet goed aan het juiste object "plakken".
    • Analogie: Het is alsof je een kledingkast hebt waar alle shirts en broeken door elkaar liggen. Je vraagt om een "rode broek", maar hij geeft je een blauwe broek met een rood T-shirt erop. Hij ziet de kleuren, maar niet wie ze dragen.
  2. De Verkeerde Plaats (Ruimtelijke Relaties):

    • De vraag: "Een hond boven een kat."
    • De fout: Hij ziet een hond en een kat, maar hij snapt niet dat de hond boven de kat is. Voor hem is "hond boven kat" hetzelfde als "hond onder kat".
    • Analogie: Stel je een stapel borden voor. De bibliothecaris ziet dat er borden zijn, maar hij kan niet zeggen of het bordje bovenop het bordje onderop ligt. Hij ziet alleen de borden, niet de stapel.
  3. Het "Niet"-Probleem (Negatie):

    • De vraag: "Een foto zonder een hond."
    • De fout: Als je vraagt om een foto zonder hond, laat hij je juist foto's zien met een hond. Hij begrijpt het woord "niet" of "zonder" niet goed.
    • Analogie: Het is alsof je tegen een kind zegt: "Eet je geen groente!" en het kind eet juist de groente, omdat het alleen op het woord "groente" let en het "niet" over het hoofd ziet.

De Diepere Reden: De Wiskunde van de Ruimte

De auteurs van het paper hebben bewezen dat dit niet zomaar een foutje is dat je met meer training kunt oplossen. Het is een fundamenteel probleem in de bouw van de ruimte zelf.

Stel je voor dat de bibliothecaris een ruimte heeft die een bol is (een 3D-bol, maar dan in duizenden dimensies). In deze ruimte moeten alle woorden en beelden passen. De auteurs bewijzen wiskundig dat je niet tegelijkertijd kunt hebben:

  1. Duidelijke objecten (hond, auto).
  2. Duidelijke eigenschappen (rood, blauw).
  3. Duidelijke posities (boven, onder).
  4. Duidelijke ontkenningen (niet).

Het is alsof je probeert om een platte kaart te maken van een bolle aarde: je kunt niet alles perfect plat leggen zonder dat er ergens iets scheef gaat. De "naïeve" manier waarop CLIP werkt (alleen kijken naar de afstand tussen twee punten in de ruimte) is te simpel voor deze complexe taken.

De Oplossing: De "Dense Cosine Similarity Map" (DCSM)

In plaats van de bibliothecaris te dwingen om zijn hele brein (het model) opnieuw te leren (wat heel duur en moeilijk is), hebben de auteurs een slimme truc bedacht.

De oude manier:
De bibliothecaris kijkt naar de hele foto en de hele zin, en geeft één enkel cijfer: "Hoe goed past dit?" (bijvoorbeeld: 0.8). Dit cijfer is te simpel. Het is alsof je zegt: "Deze foto is 80% goed." Maar waarom?

De nieuwe manier (DCSM):
Ze laten de bibliothecaris niet naar één punt kijken, maar naar een gedetailleerde kaart (een heatmap).

  • Ze kijken naar elk klein stukje van de foto (een patch) en elk woord in de zin.
  • Ze maken een raster van alle mogelijke combinaties: "Hoe past het woord 'rood' bij het stukje van de auto?" en "Hoe past het woord 'blauw' bij het stukje van de fiets?"
  • Dit resulteert in een dicht net van scores (een kaart), in plaats van één enkel getal.

De "Functionele Rijen" (FR):
Om de verwarring over woorden als "boven", "onder" of "niet" op te lossen, gebruiken ze een soort woordenboek. Ze vervangen deze lastige woorden in de kaart door vaste, duidelijke signalen. Het is alsof ze de bibliothecaris een speciaal handboek geven waarin staat: "Als je het woord 'boven' ziet, kijk dan altijd naar de bovenkant van de kaart."

Wat levert dit op?

Door deze kaart te gebruiken in plaats van één enkel getal, kan het model de patronen veel beter zien. Het is alsof je van een wazige foto overstapt naar een foto met scherpe details.

  • Resultaat: Het nieuwe systeem (DCSM) doet het veel beter dan de originele CLIP op taken zoals het onderscheiden van kleuren, het begrijpen van posities en het begrijpen van "niet".
  • Simpelheid: Ze hoeven de hele bibliothecaris niet te vervangen. Ze gebruiken gewoon de bestaande kennis van CLIP, maar lezen de resultaten op een slimmere manier af.

Conclusie

CLIP is een geweldige uitvinding, maar hij heeft een fundamenteel gebrek in zijn ontwerp: hij kan niet alles tegelijk perfect zien. De auteurs tonen aan dat je dit niet kunt "fixen" door alleen meer te oefenen. Je moet de manier waarop je naar zijn antwoorden kijkt veranderen. Door van een "enkel getal" naar een "gedetailleerde kaart" te gaan, kunnen we de bibliothecaris eindelijk de fijne kneepjes van de taal en de wereld laten begrijpen.

Kortom: CLIP is niet ideaal, maar met een slimme bril (DCSM) kunnen we hem wel laten zien wat er echt gebeurt.