CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar zeer stilte kunstenaar hebt die elke foto die je hem laat zien, perfect kan herkennen. Hij kan een hond van een kat onderscheiden, een auto van een fiets, en zelfs het verschil zien tussen een goudvis en een zilvervis. Maar er is één groot probleem: hij praat niet.

Wanneer je hem vraagt: "Wat zie je op deze foto?", geeft hij alleen een cijfercode terug, zoals "742". Voor jou is dat nietszeggend. Voor hem is dat de naam van de hond. Hij denkt in een vreemde, ondoorzichtige taal van getallen.

Dit is precies het probleem met moderne kunstmatige intelligentie (AI) voor beeldherkenning. Ze zijn super slim, maar we kunnen niet begrijpen waarom ze een bepaalde beslissing nemen.

Het oude probleem: De "Vertaler" die te duur is

Vroeger probeerden mensen deze AI's te laten praten door een tussenpersoon te gebruiken die heet CLIP. CLIP is als een super-vertaler die alles wat de AI ziet, direct in menselijke woorden omzet. Maar CLIP heeft twee grote nadelen:

Hij is enorm: Hij kost ontzettend veel rekenkracht en energie om te draaien.
Hij is niet altijd eerlijk: Soms vertaalt hij dingen op een manier die niet past bij de originele AI. Alsof je een vertaler gebruikt die zijn eigen mening toevoegt aan wat de kunstenaar zegt.

Andere methoden vroegen mensen om handmatig te beschrijven wat er op de foto's staat. Dat is als proberen een heel boek handmatig te vertalen: het duurt eeuwen en kost een fortuin.

De nieuwe oplossing: "TextUnlock"

De auteurs van dit paper hebben een slimme nieuwe manier bedacht, die ze TextUnlock noemen. Laten we het uitleggen met een analogie:

Stel je voor dat de AI een spiegel is.
Deze spiegel kijkt naar een foto en ziet een "goudvis". Maar in zijn hoofd is dat gewoon een wazige vorm van licht en kleur.

De onderzoekers zeggen: "Laten we die spiegel niet vervangen, maar laten we hem een beetje 'ontgrendelen'."

Ze doen dit in drie stappen:

De Spiegelsynchronisatie (Zonder vertaler):
In plaats van een dure vertaler (CLIP) te gebruiken, nemen ze de naam van de categorie die de AI al kent (bijvoorbeeld "goudvis") en schrijven ze die op een briefje. Ze laten de AI kijken naar de foto én naar het woord "goudvis". Ze trainen een heel klein, slim hulpmiddel (een "MLP") om de wazige vormen in het hoofd van de AI te koppelen aan het woord "goudvis".
- Het geheim: Ze gebruiken geen menselijke beschrijvingen en geen dure vertalers. Ze gebruiken alleen de namen die de AI al kent. Het is alsof je de AI leert dat "742" hetzelfde is als "goudvis", zonder dat je de AI hoeft te herschrijven.
Het Concept-Bottleneck (De "Waarom"-vraag):
Nu de AI "ontgrendeld" is, kunnen we hem vragen niet alleen naar het eindantwoord te kijken, maar naar de onderdelen.
Stel je voor dat je de AI vraagt: "Waarom denk je dat dit een goudvis is?"
Omdat we de AI nu hebben gekoppeld aan woorden, kan hij nu zeggen: "Omdat ik 'vinnen', 'oranje' en 'water' zie."
Dit zijn de concepten. De AI denkt nu in menselijke termen: "Ah, dit is een goudvis omdat het oranje is en vinnen heeft."
De Onzichtbare Lijn (Zonder training):
Het mooiste deel is dat ze de AI niet hoeven te leren hoe hij deze concepten moet combineren tot een antwoord. Ze gebruiken wiskunde om direct te zien welke woorden (concepten) leiden naar welk dier. Het is alsof je de AI niet hoeft te leren hoe je een auto rijdt, maar je kunt gewoon de motor openmaken en zien dat de wielen aan de stuurkolom hangen.

Waarom is dit zo cool?

Het werkt met elke AI: Of het nu een oude, bewezen AI is of een nieuwe, het maakt niet uit. Je kunt elke bestaande "stilte kunstenaar" laten praten.
Het is goedkoop: Je hoeft geen dure supercomputers te gebruiken en geen mensen te betalen om foto's te labelen.
Het is eerlijk: De AI blijft precies dezelfde als hij was. Hij verandert niet van mening; hij vertelt alleen waarom hij die mening heeft.
Het is sneller: Ze hebben getoond dat hun methode zelfs beter werkt dan de dure, bekende methoden met CLIP.

Een extra tovertaal: Het beschrijven van foto's

Als klap op de vuurpijl hebben ze laten zien dat je deze methode ook kunt gebruiken om nieuwe foto's te beschrijven.
Stel je hebt een foto van een hond die een bal speelt. De AI ziet de bal en de hond. Omdat de AI nu "ontgrendeld" is, kan hij niet alleen zeggen "hond", maar kan hij ook een zinnetje genereren: "Een hond speelt met een rode bal."
Dit doen ze zonder dat ze ooit hebben geoefend met zinnen. Ze gebruiken gewoon de woorden die de AI al kent en laten een taalmodel die woorden samenvoegen tot een zin.

Samenvatting in één zin

De onderzoekers hebben een manier gevonden om elke stille, ondoorzichtige beeldherkenningscomputer te laten "praten" in menselijke taal, zonder dure vertalers, zonder menselijke hulp, en zonder dat de computer zijn eigen slimme manier van denken verliest. Ze hebben de "geheime taal" van de AI omgezet in een verhaal dat wij allemaal kunnen begrijpen.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Concept Bottleneck Models (CBM's) zijn een interpretabel modeltype waarbij beelden eerst worden gemapt naar menselijk begrijpelijke concepten (bijv. "vleugels", "veren"), die vervolgens lineair worden gecombineerd om een voorspelling te doen. Bestaande methoden hebben echter drie fundamentele beperkingen:

Afhankelijkheid van CLIP: Moderne, label-vrije CBM's gebruiken het CLIP-model (Contrastive Language-Image Pre-training) om beeld-concept annotaties te genereren. Dit koppelt het model echter aan de embedding-ruimte en de biases van CLIP, in plaats van het oorspronkelijke visuele model.
Label-afhankelijkheid: Methoden die geen CLIP gebruiken, vereisen vaak handmatige, arbeidsintensieve annotaties van beelden met concepten.
Supervisie voor de classifier: Alle bestaande CBM's vereisen het trainen van een lineaire classifier (een "linear probe") om de conceptactivaties te koppelen aan klasselabels, wat extra data en training vereist.

De auteurs stellen de vraag: Hoe kunnen we een bestaand, gespecialiseerd visueel model (legacy model) omzetten in een CBM zonder CLIP, zonder handmatige labels, en zonder extra supervisie voor de classifier?

2. Methodologie

De auteurs introduceren een nieuwe methode genaamd TextUnlock, die de kern vormt van hun voorgestelde U-F2-CBM (Unsupervised, CLIP-Free, Label-Free Concept Bottleneck Model).

Stap 1: TextUnlock (Distributie-uitlijning)

Het doel is om de output-distributie van een bevroren visuele classifier uit te lijnen met een visueel-taal tegenhanger, zonder CLIP of labels.

Architectuur: Een lichtgewicht Multi-Layer Perceptron (MLP) wordt getraind om visuele kenmerken ( $f$ ) van een bevroren visuele encoder (bijv. ResNet, ViT) te projecteren naar de embedding-ruimte van een bevroren tekst-encoder (bijv. MiniLM).
Training: De MLP wordt getraind om de voorspelde distributie (gebaseerd op de cosine-afstand tussen de geprojecteerde visuele kenmerken en de tekst-prompten van de klassen) te laten overeenkomen met de oorspronkelijke soft-distributie van het visuele model.
Verliesfunctie: Er wordt een cross-entropy verlies gebruikt tussen de originele class-distributie en de nieuwe distributie. Dit is een vorm van kennisdistillatie waarbij het model zijn eigen oorspronkelijke redeneerproces behoudt.
Resultaat: Na training bevinden de visuele kenmerken zich in dezelfde semantische ruimte als de tekst-embeddings, maar zonder de bias van CLIP.

Stap 2: Concept Discovery (Conceptontdekking)

Zodra de visuele kenmerken in de tekst-ruimte zijn, kunnen ze worden bevraagd met willekeurige tekstconcepten.

Een "Concept Bank" (bijv. 20.000 veelvoorkomende Engelse woorden) wordt gecodeerd met dezelfde tekst-encoder.
De activatie van een concept voor een afbeelding wordt bepaald door de cosine-afstand tussen de geprojecteerde visuele kenmerken en de concept-embeddings.

Stap 3: Unsupervised Concept-to-Class Classifier

In tegenstelling tot eerdere werken, wordt er geen lineaire classifier getraind om concepten naar klassen te mappen.

De auteurs berekenen de gewichten voor de classifier ( $W_{con}$ ) puur op basis van tekst-tot-tekst zoekopdrachten.
Ze berekenen de cosine-afstand tussen de concept-embeddings en de klassen-prompt-embeddings (de matrix $U$ die oorspronkelijk de classifier vormde).
Dit resulteert in een Gram-matrix van concepten die de oorspronkelijke classifier schaalt. De redenering van het originele model blijft hierdoor behouden, maar wordt nu interpreteerbaar via concepten.

3. Belangrijkste Bijdragen

Eerste volledig CLIP-vrije, label-vrije en unsupervised CBM: De methode vereist geen CLIP, geen menselijke annotaties en geen getrainde linear probe.
Behoud van prestaties: De methode transformeert elk bevroren visueel model naar een CBM met een verwaarloosbaar verlies in nauwkeurigheid (gemiddeld slechts ~0.2% daling).
Universele toepasbaarheid: De methode werkt op diverse architecturen (CNN's, Transformers, hybride modellen) en is data-efficiënt.
Nieuwe State-of-the-Art: De methode overtreft zelfs gesuperviseerde, CLIP-gebaseerde CBM's.
Toepassing op Zero-Shot Captioning: De methode maakt het mogelijk om zero-shot beeldbeschrijvingen te genereren voor elk bestaand visueel model, niet alleen CLIP.

4. Resultaten

De auteurs hebben hun methode getest op meer dan 40 verschillende visuele classifiers (o.a. ResNet, ViT, ConvNeXt, DINOv2) op het ImageNet-1K dataset.

Prestaties: De U-F2-CBM's behalen een hogere Top-1 nauwkeurigheid dan bestaande gesuperviseerde CLIP-CBM's. Bijvoorbeeld, een eenvoudige ResNet-50 getraind op ImageNet (1.2M beelden) presteert beter dan een CLIP ResNet-50 getraind op 400M beelden.
Efficiëntie: De methode is data-efficiënt en vereist geen enorme datasets voor training.
Interpretatie: Conceptinterventies (het uitschakelen van specifieke concepten) tonen aan dat het model correct redeneert en biases (zoals de associatie van "dumbbell" met "arm") kan worden geïdentificeerd en gecorrigeerd.
Zero-Shot Captioning: Op de COCO-dataset overtreft de methode bestaande zero-shot captioning methoden (zoals ZeroCap en ConZIC) op cruciale metrieken zoals CIDEr en SPICE, zelfs met veel kleinere modellen.

5. Betekenis en Impact

Deze studie is significant omdat het de afhankelijkheid van CLIP voor interpretable AI doorbreekt.

Onafhankelijkheid: Het stelt onderzoekers en practitioners in staat om bestaande, hoogpresterende specialistische modellen (legacy models) interpreteerbaar te maken zonder hun oorspronkelijke redeneerproces te vervormen door de CLIP-embedding-ruimte.
Toegankelijkheid: Het elimineert de noodzaak voor dure handmatige annotatie en de enorme rekenkracht die nodig is voor het trainen van CLIP-achtige modellen.
Flexibiliteit: Het maakt het mogelijk om op elk moment tijdens de inferentie een nieuwe set concepten te kiezen om een CBM te bouwen ("on-the-fly"), wat grote flexibiliteit biedt voor verschillende toepassingen.

Kortom, de auteurs hebben een brug geslagen tussen traditionele visuele classificatie en moderne visueel-taal interpretatie, zonder de beperkingen van de huidige state-of-the-art (CLIP) te hoeven accepteren.