On the Explainability of Vision-Language Models in Art History

Each language version is independently generated for its own context, not a direct translation.

De Kunst van het Zien: Waarom AI Kunst niet echt "begrijpt" (en hoe we het toch kunnen lezen)

Stel je voor dat je een kunstgeschiedenisstudent bent die een oude schilderij bekijkt. Je ziet niet alleen een man en een vrouw; je ziet een slang die symboliseert voor de zonde, een specifieke houding die verwijst naar een Bijbels verhaal, en een bepaalde manier van schilderen die zegt: "Dit is uit de Renaissance."

Nu stel je een robot voor: een slimme computer die miljoenen foto's en teksten heeft gelezen. Deze robot heet CLIP. Hij kan ook naar een schilderij kijken en zeggen: "Ah, dit is een slang!" Maar doet hij dat omdat hij de betekenis van de slang begrijpt, of omdat hij gewoon een patroon heeft gezien dat op zijn trainingsdata lijkt? En als hij een fout maakt, waar kijkt hij dan precies naar?

Dit is de vraag die Stefanie Schneider in haar onderzoek stelt. Ze wil weten of we de "gedachten" van deze kunstmatige intelligentie (AI) kunnen blootleggen, zodat we kunnen zien waarom hij iets ziet zoals hij het ziet.

Hier is een uitleg van haar onderzoek, vertaald naar alledaags taal met wat creatieve vergelijkingen.

1. Het Probleem: De "Zwarte Doos"

Stel je voor dat CLIP een magische doos is. Je gooit een foto van een schilderij erin en een tekst erbij (bijvoorbeeld: "slang"). De doos geeft een antwoord. Maar wat er binnenin gebeurt, is een mysterie. Het is alsof je een chef-kok vraagt hoe hij een gerecht maakt, maar hij zegt alleen: "Ik heb het gedaan."

In de kunstgeschiedenis is dit gevaarlijk. Als de AI denkt dat een "slang" een bepaald stukje van het schilderij is, maar in werkelijkheid kijkt hij naar de achtergrond of een verkeerd detail, dan is zijn "kennis" vals. We hebben een manier nodig om de doos open te maken en te zien waar de chef-kok naar kijkt. Dit heet XAI (Explainable AI) of "uitlegbare kunstmatige intelligentie".

2. De Toolset: Zeven verschillende brillen

Schneider testte zeven verschillende methoden om de "blik" van de AI te visualiseren. Je kunt je deze methoden voorstellen als zeven verschillende soorten brillen die je op de AI zet om te zien waar hij naar kijkt:

De "Gradient-brillen" (zoals Grad-CAM): Deze kijken naar de elektrische signalen in de hersenen van de AI. Ze zeggen: "Kijk, hier vlamde het op!"
De "Score-brillen" (zoals ScoreCAM): Deze doen alsof ze stukjes van het schilderij afdekken met een deken. Als het antwoord van de AI verandert, weten ze: "Ah, dat stukje was belangrijk!"
De "Chirurgische bril" (CLIP Surgery): Dit is een nieuwe, speciale techniek die direct ingrijpt in de manier waarop de AI tekst en beeld koppelt, alsof je de AI een operatie geeft om zijn ogen scherper te maken.

3. De Test: Twee manieren van kijken

Schneider deed twee dingen om te testen welke bril het beste werkt.

Test 1: De Wiskundige Test (De "Vind-De-Slang"-wedstrijd)
Ze nam duizenden schilderijen en vroeg de AI om specifieke dingen te vinden, zoals een "slang" of "Maria". Vervolgens maten ze hoe nauwkeurig de AI de plek aanwees.

Het resultaat: De "Chirurgische bril" (CLIP Surgery) was de winnaar. Hij vond de objecten het beste. Maar er was een addertje onder het gras: de AI vond makkelijke dingen (zoals een "brug" of een "bloem") heel goed, maar had grote moeite met complexe, symbolische dingen (zoals "de zonde" of een specifieke heilige). Het was alsof de AI goed kan tellen, maar niet goed kan lezen tussen de regels door.

Test 2: De Menselijke Test (De "Kunstliefhebber"-enquête)
Ze vroeg echte mensen met kennis van kunst om naar dezelfde schilderijen te kijken en te zeggen: "Waar zou een kunstkenner naar kijken?" Daarna lieten ze hen de uitkomsten van de zeven AI-brillen beoordelen.

Het resultaat: De mensen vonden dat de "Chirurgische bril" en een paar andere methoden het dichtst bij hun eigen blik kwamen. Maar hier kwam de echte verrassing:
- Als het om een duidelijk object ging (een "slang"), waren de mensen het eens met de AI.
- Als het om een abstract idee ging (bijvoorbeeld "lust" of "verdriet"), waren de mensen het niet eens met elkaar, en ook niet met de AI.

4. De Grote Leer: Waarom is dit lastig?

Schneider komt tot een fascinerende conclusie, die je zo kunt voorstellen:

Stel je voor dat de AI een enorme bibliotheek heeft gelezen, maar alleen de titels en de eerste zinnen van de boeken. Hij weet dat een "slang" vaak bij "Eva" hoort. Maar hij begrijpt niet waarom.

De valstrik van de "Zichtbaarheid": De AI kijkt naar wat er visueel opvalt. In een schilderij van Botticelli zijn er drie vrouwen die lijken op elkaar (de drie Maria's). De AI kan ze niet uit elkaar houden, omdat ze visueel te veel op elkaar lijken. De menselijke kunstkenner weet het door de context (wie staat waar, wat doen ze). De AI mist die context.
De "Smaak" van de data: De AI is getraind op internetfoto's. Internet is vol met vooroordelen en oppervlakkige beelden. Als de AI een "heilige" ziet, kijkt hij misschien naar een witte jurk (want dat staat vaak op internet), en niet naar de spirituele betekenis.

5. Conclusie: Wat moeten we hieruit leren?

Deze studie zegt ons iets belangrijks over de toekomst van kunstgeschiedenis en AI:

AI is een hulpmiddel, geen meester: We kunnen AI gebruiken om snel te zoeken of patronen te vinden, maar we kunnen hem niet blindelings vertrouwen op de diepere betekenis van kunst.
De "Uitleg" is geen waarheid: De gekleurde kaartjes (saliency maps) die de AI maakt, zien eruit alsof ze de waarheid laten zien. Maar ze tonen alleen maar waar de AI naar kijkt, niet wat hij begrijpt. Het is alsof je iemand laat zien waar hij naar kijkt, maar dat zegt nog niets over wat hij denkt.
Mensen zijn nog steeds nodig: Om kunst echt te begrijpen, heb je menselijke kennis, context en geschiedenis nodig. De AI kan ons helpen, maar hij kan de menselijke interpretatie niet vervangen.

Kortom: De AI is als een zeer slimme, maar oppervlakkige toerist die een museum bezoekt. Hij kan de schilderijen benoemen en zelfs zeggen waar de "slang" staat, maar hij mist de ziel van het verhaal. De "uitlegbare AI" helpt ons te zien waar die toerist naar kijkt, zodat we hem kunnen corrigeren en hem kunnen helpen de diepere betekenis te ontdekken.

On the Explainability of Vision-Language Models in Art History

1. Het Probleem: De "Zwarte Doos"

2. De Toolset: Zeven verschillende brillen

3. De Test: Twee manieren van kijken

4. De Grote Leer: Waarom is dit lastig?

5. Conclusie: Wat moeten we hieruit leren?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

On the Explainability of Vision-Language Models in Art History

1. Het Probleem: De "Zwarte Doos"

2. De Toolset: Zeven verschillende brillen

3. De Test: Twee manieren van kijken

4. De Grote Leer: Waarom is dit lastig?

5. Conclusie: Wat moeten we hieruit leren?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation