On the Explainability of Vision-Language Models in Art History

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie „sieht" eine Maschine Kunst?

Stell dir vor, du hast einen sehr intelligenten Roboter, der Millionen von Bildern und Texten aus dem Internet gelernt hat. Dieser Roboter (in der Studie heißt er CLIP) kann Bilder beschreiben und sogar finden, die ihm ähnlich sehen. Aber hier ist das Problem: Wir wissen nicht genau, warum er das tut. Er ist wie ein schwarzer Kasten. Er gibt ein Ergebnis ab, aber wir sehen nicht, welche Teile des Bildes ihn dazu gebracht haben, diese Entscheidung zu treffen.

In der Kunstgeschichte ist das besonders knifflig. Ein Bild ist nicht nur ein „Hund" oder eine „Katze". Es ist voller Symbolik, Geschichte und versteckter Bedeutungen. Wenn der Roboter auf ein Gemälde von Adam und Eva schaut, sieht er dann wirklich die Schlange? Oder sieht er nur den grünen Fleck, der statistisch am häufigsten mit dem Wort „Schlange" vorkommt?

Die Lösung: Eine Taschenlampe für den Roboter

Die Forscherin Stefanie Schneider und ihr Team wollten herausfinden: Können wir dem Roboter eine Taschenlampe in die Hand geben, damit wir sehen können, wohin er schaut?

Diese „Taschenlampe" nennt man XAI (Explainable Artificial Intelligence). Sie erzeugt sogenannte Saliency Maps (Aufmerksamkeitskarten). Das sind Bilder, auf denen die Bereiche, die der Roboter als wichtig erachtet, rot oder hell eingefärbt sind.

Die Studie testete sieben verschiedene Arten von Taschenlampen, um zu sehen, welche am besten funktioniert.

Der Test: Zwei verschiedene Ansätze

Um das herauszufinden, machten die Forscher zwei Dinge:

1. Der Mathe-Test (Der quantitative Teil)
Sie nahmen riesige Datenbanken mit Kunstwerken und fragten: „Wenn ich sage 'Schlange', findet der Roboter dann die richtige Stelle auf dem Bild?"

Das Ergebnis: Eine Methode namens CLIP Surgery war der klare Gewinner. Sie war wie eine hochpräzise Laser-Taschenlampe, die genau dort leuchtete, wo die Schlange war. Andere Methoden (wie Grad-CAM) waren eher wie eine alte, flackernde Taschenlampe – sie leuchteten oft in die falsche Ecke oder zu breit.
Aber: Je kleiner das Objekt war (z. B. ein kleines Detail im Hintergrund) oder je abstrakter die Bedeutung (z. B. „Traurigkeit" statt „Tisch"), desto schlechter wurde die Treffsicherheit.

2. Der Menschen-Test (Der qualitative Teil)
Hier wurde es spannender. Die Forscher luden Kunstexperten (und Studenten) ein und zeigten ihnen die Bilder mit den roten Aufmerksamkeits-Karten. Die Aufgabe war: „Welche Karte passt am besten zu dem, was du als wichtig empfindest?"

Das Ergebnis: Die Menschen mochten die Karten von CLIP Surgery, LeGrad und ScoreCAM am meisten. Sie passten gut zu dem, was die Menschen sahen.
Aber: Bei abstrakten Dingen (wie „Lüsternheit" oder „die Sphinx") waren sich die Menschen selbst nicht einig. Wenn selbst Menschen sich streiten, was das Bild bedeutet, kann auch der Roboter keine perfekte Karte liefern.

Die wichtigsten Erkenntnisse (in Metaphern)

Hier sind die drei großen Lehren aus der Studie, einfach erklärt:

1. Der Roboter sieht nicht wie ein Kunsthistoriker
Der Roboter lernt aus dem Internet. Das Internet ist voller Fotos von alltäglichen Dingen, aber wenig von komplexen Kunstwerken. Wenn der Roboter auf ein Bild von „Jesus am Kreuz" schaut, sucht er nach Mustern, die er kennt.

Die Metapher: Stell dir vor, du hast einen Koch, der nur Pizza gekocht hat. Wenn du ihm sagst „Mach mir ein italienisches Gericht", macht er eine Pizza. Er versteht nicht, dass „italienisch" auch Pasta oder Risotto bedeuten könnte. Der Roboter „sieht" die Kunst nicht in ihrer historischen Tiefe, sondern nur als statistisches Muster.

2. Die Größe und Klarheit zählen
Wenn das Objekt groß und klar ist (z. B. eine Brücke oder eine Blume), funktioniert die Taschenlampe super.

Die Metapher: Es ist leicht, einen roten Ball in einem grünen Feld zu finden. Aber wenn der Ball winzig ist oder wenn das Wort „Ball" eigentlich für eine abstrakte Idee steht (wie „Freundschaft"), wird es für den Roboter unmöglich. Die Technik funktioniert gut bei Dingen, die man sehen kann, aber schlecht bei Dingen, die man verstehen muss.

3. Die Taschenlampe lügt nicht, aber sie erzählt nicht die ganze Geschichte
Die Studie zeigt, dass diese Methoden (XAI) uns zeigen können, wo der Roboter hinschaut. Aber sie zeigen uns nicht, warum er dorthin schaut.

Die Metapher: Wenn du jemanden siehst, der auf ein Bild starrt, und du fragst: „Was siehst du?", und er zeigt auf einen roten Fleck, weißt du, dass er den Fleck sieht. Aber du weißt nicht, ob er den Fleck wegen der Farbe, wegen der Form oder weil er an eine bestimmte Erinnerung denkt, sieht. Die „Erklärung" des Roboters ist also nur ein Teil der Wahrheit.

Fazit: Was bedeutet das für uns?

Die Studie sagt uns: Ja, wir können die „Augen" von KI-Modellen in der Kunstgeschichte ein bisschen besser verstehen. Es gibt Methoden (wie CLIP Surgery), die sehr gut funktionieren, um zu zeigen, wo der Roboter Details findet.

Aber wir müssen vorsichtig sein. Diese Karten sind keine endgültige Wahrheit. Sie sind eher wie ein Gesprächspartner. Sie regen uns dazu an, genauer hinzusehen und zu fragen: „Warum hat die KI das hier gesehen? Stimmt das mit meiner kunsthistorischen Erfahrung überein?"

Es ist nicht so, dass die Maschine die Kunst „versteht" wie ein Mensch. Aber mit diesen Werkzeugen können wir besser herausfinden, wo die Lücken zwischen menschlicher Interpretation und maschineller Berechnung liegen. Und das ist der erste Schritt, um KI in der Kunstgeschichte verantwortungsvoll einzusetzen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Modelle (VLMs) wie CLIP (Contrastive Language–Image Pre-training) haben sich zu vielseitigen Werkzeugen in der Kunstgeschichte entwickelt, ermöglichen jedoch aufgrund ihrer „Black-Box"-Natur kritische Fragen zum maschinellen „Verstehen".

Epistemische Opazität: Es ist unklar, welche visuellen Konzepte (formal, ikonografisch, affektiv) in den Embeddings kodiert sind. Die Modelle basieren auf großen, voreingenommenen Web-Datensätzen (z. B. LAION-400M), die kulturelle und historische Ungleichheiten perpetuieren können.
Fehlende Interpretierbarkeit: In der Kunstgeschichte ist visuelle Bedeutung oft historisch und semantisch dicht (z. B. Ikonografie, Symbolik). Es fehlt an Methoden, um die visuelle Logik von VLMs für menschliche Interpreten (Kunsthistoriker) lesbar zu machen.
Zentrale Forschungsfrage: Inwiefern können Explainable AI (XAI)-Methoden die visuelle Logik von CLIP in kunstgeschichtlichen Kontexten (insbesondere im Zero-Shot-Modus ohne Fine-Tuning) für Menschen transparent machen?

2. Methodik

Die Studie verwendet einen zweistufigen Evaluierungsrahmen, um sieben XAI-Methoden zu vergleichen, die in drei Paradigmen unterteilt sind:

A. Auswahl der XAI-Methoden:
Die Methoden generieren Saliency Maps (Wärmekarten), die zeigen, welche Bildregionen für eine Text-Prompt-Antwort verantwortlich sind.

Gradient-basiert: Grad-CAM, Grad-CAM++, LayerCAM, LeGrad (Backpropagation von Gradienten).
Score-basiert (gradientenfrei): ScoreCAM, gScoreCAM (Maskierung von Bildregionen und Messung der Score-Änderung).
CLIP-spezifisch: CLIP Surgery (direkte Intervention im Inferenz-Pipeline zur Entkopplung von Text- und Visuellem).

B. Fallstudie 1: Quantitative Lokalisierung (Zero-Shot)

Daten: Zwei kunstgeschichtliche Datensätze mit Ikonografie-Annotationen: IconArt (1.480 Bilder, 10 Klassen) und ArtDL (4.166 Bilder, 59 Klassen).
Aufgabe: Lokalisierung von Objekten/Symbolen ohne Fine-Tuning.
Metrik: BoxAcc (Bounding Box Accuracy) über verschiedene IoU-Schwellenwerte (Intersection over Union) und Bildgrößen (klein, mittel, groß). Die Bewertung ist schwellenwertunabhängig (Grid Search über $\tau \in [0.2, 0.9]$ ).

C. Fallstudie 2: Qualitative Interpretierbarkeit (Human-in-the-Loop)

Design: Online-Umfrage mit 33 Teilnehmern (Kunstgeschichts-Studenten und Experten).
Aufgabe: Teilnehmer annotierten manuell relevante Bildbereiche für spezifische Klassen (z. B. „Schlange", „Jungfrau Maria", „Lüsternheit") und bewerteten dann die Saliency Maps der sieben Methoden nach ihrer Übereinstimmung mit der menschlichen Wahrnehmung.
Analyse: Berechnung der inter-rater Zuverlässigkeit mittels Kendalls W.

3. Wichtige Ergebnisse

Quantitative Ergebnisse (Fallstudie 1):

Leistungssieger: CLIP Surgery erzielte konsistent die höchsten Genauigkeitswerte auf beiden Datensätzen, insbesondere bei der Erkennung von Objekten unterschiedlicher Größe.
Platz 2: LeGrad zeigte sich als zweitbeste Methode, teilweise sogar überlegen bei bestimmten Klassen (z. B. „Baby Jesus") oder Objektgrößen.
Schwächere Methoden: Gradient-basierte Methoden (Grad-CAM, LayerCAM etc.) schnitten deutlich schlechter ab, was ihre begrenzte Übertragbarkeit auf ikonografisches Material zeigt.
Einflussfaktoren: Die Genauigkeit korrelierte stark mit der Objektgröße und der semantischen Stabilität der Klasse. Kleine Objekte und abstrakte/kontextabhängige Konzepte (z. B. „Kreuzigung") waren schwerer zu lokalisieren.

Qualitative Ergebnisse (Fallstudie 2):

Menschliche Präferenz: Teilnehmer bevorzugten ebenfalls CLIP Surgery, LeGrad und ScoreCAM. Diese Methoden spiegelten die menschlich annotierten Regionen am besten wider.
Konsistenz: Bei klar definierten, räumlich lokalisierten Objekten (z. B. „Schlange", „Brücke") war die Übereinstimmung zwischen Mensch und Maschine hoch (hoher Kendalls W).
Divergenz bei Abstraktion: Bei symbolischen oder interpretativen Kategorien (z. B. „Lüsternheit", „Sphinx") oder mehrdeutigen ikonografischen Figuren (z. B. Verwechslung der Marien in Botticellis Werk) sank die Zuverlässigkeit drastisch. Keine Methode konnte hier eindeutig dominieren.
Limitierung: Die Saliency Maps können die interpretative Tiefe des kunsthistorischen Blicks nicht replizieren, da sie oft nur die visuell dominanten Instanzen hervorheben und nicht die kontextuelle Bedeutung erfassen.

4. Hauptbeiträge

Systematischer Vergleich: Erstmals werden sieben XAI-Methoden spezifisch im Kontext von VLMs (CLIP) und kunstgeschichtlichen Daten (Zero-Shot) quantitativ und qualitativ gegenübergestellt.
Methodologische Einsicht: Die Studie zeigt, dass die Effektivität von XAI nicht nur von der Technik abhängt, sondern von der konzeptuellen Stabilität und der repräsentativen Verfügbarkeit der Kategorien im Trainingsdatensatz.
Kritische Reflexion: Die Arbeit argumentiert, dass Saliency Maps nicht als vollständige Erklärungen des „Verstehens" dienen können, sondern eher als Schnittstelle, die die epistemischen Grenzen und kulturellen Vorurteile des Modells sichtbar macht.
Praktische Empfehlung: Für Echtzeit-Anwendungen ist CLIP Surgery aufgrund seiner Effizienz (ein Forward-Pass, keine Gradientenberechnung) und Genauigkeit die bevorzugte Methode, während ScoreCAM zwar genau, aber rechenintensiv ist.

5. Signifikanz und Fazit

Die Studie liefert einen wichtigen Beitrag zur digitalen Kunstgeschichte, indem sie die methodische Robustheit von VLMs hinterfragt.

Erkenntnisgewinn: XAI-Methoden können zwar bestimmte Aspekte der menschlichen Wahrnehmung abbilden, aber sie „ästhetisieren" oft nur die Opazität des Modells, wenn die zugrundeliegenden Konzepte im Embedding-Space nicht stabil kodiert sind.
Epistemologische Implikation: Die Visualisierung von Aufmerksamkeit ist trügerisch; sie zeigt nicht das „Verstehen" des Modells, sondern die Projektion menschlicher Interpretationswünsche auf statistische Artefakte.
Zukunftsperspektive: Explainability in der Kunstgeschichte muss als dialogischer Prozess zwischen menschlicher und maschineller Sichtweise verstanden werden. XAI-Ergebnisse sollten als Auslöser für weitere hermeneutische Untersuchungen genutzt werden, nicht als endgültige Wahrheiten.

Zusammenfassend zeigt das Paper, dass CLIP Surgery derzeit die vielversprechendste Methode ist, um die visuelle Logik von CLIP in kunstgeschichtlichen Kontexten lesbar zu machen, jedoch die Grenzen der maschinellen Ikonografie-Erkennung bei komplexen, symbolischen Inhalten bestehen bleiben.

On the Explainability of Vision-Language Models in Art History

Das große Rätsel: Wie „sieht" eine Maschine Kunst?

Die Lösung: Eine Taschenlampe für den Roboter

Der Test: Zwei verschiedene Ansätze

Die wichtigsten Erkenntnisse (in Metaphern)

Fazit: Was bedeutet das für uns?

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Signifikanz und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation