On the Explainability of Vision-Language Models in Art History

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un super-intelletto artificiale (chiamato CLIP) che ha visto milioni di immagini e letto milioni di testi su internet. Questo "cervello" è bravissimo a collegare parole e immagini: se gli dici "gatto", trova subito un gatto. Ma c'è un problema: non sappiamo davvero come "veda" le cose. È come avere una scatola nera magica che ti dà la risposta giusta, ma non ti dice perché l'ha scelta.

Questo articolo si chiede: possiamo capire cosa sta guardando questa intelligenza quando analizza opere d'arte? E soprattutto, la sua "visione" corrisponde a quella di un esperto di storia dell'arte?

Ecco la spiegazione semplice, divisa per punti chiave:

1. Il Problema: L'Intelligenza Artificiale è un "Ospite Muto"

Immagina di entrare in un museo con un robot che non parla, ma indica i quadri. Se gli chiedi "dov'è la Madonna?", lui punta un dito. Ma perché punta lì?

Sta guardando il vestito?
Sta guardando l'espressione del viso?
O sta solo indovinando perché nel suo database le "Madonne" sono spesso associate a certi colori?

Nell'arte, le cose non sono semplici etichette. Un "ladro" in un quadro religioso non è un ladro come quello di un film poliziesco; è un simbolo. L'IA potrebbe non capire questa differenza.

2. La Soluzione: Le "Lenti Magiche" (Metodi XAI)

Gli scienziati hanno provato a creare delle lenti speciali (chiamate metodi di Intelligenza Artificiale Spiegabile o XAI) per vedere cosa succede dentro la testa del robot. Queste lenti creano una mappa di calore (una "saliency map") che illumina in rosso le parti dell'immagine su cui l'IA si sta concentrando.

Hanno testato 7 diverse lenti (metodi) per vedere quale funziona meglio. Alcune guardano come cambiano i "pensieri" del robot (metodi basati sui gradienti), altre coprono parti dell'immagine per vedere cosa manca (metodi basati sui punteggi), e una è fatta apposta per questo tipo di robot (CLIP Surgery).

3. La Prova: Due Esperimenti

Gli autori hanno fatto due cose per testare queste lenti:

Esperimento 1 (Il Test Matematico): Hanno preso quasi 2.000 opere d'arte e chiesto al robot di trovare oggetti specifici (come "un serpente" o "un piede"). Hanno misurato quanto le "luci" della mappa corrispondevano alla posizione reale dell'oggetto.
- Risultato: Una lente chiamata CLIP Surgery è stata la migliore, come un detective molto preciso. Le altre lenti, specialmente quelle vecchie, si sono perse facilmente, specialmente con oggetti piccoli o complessi.
Esperimento 2 (Il Test Umano): Hanno mostrato le stesse opere d'arte a 33 persone (studenti e esperti di storia dell'arte). Hanno chiesto loro: "Dove guarderesti tu per trovare questo oggetto?". Poi hanno mostrato le mappe generate dal robot e chiesto: "Quale mappa assomiglia di più alla tua visione?".
- Risultato: Le persone hanno preferito le mappe di CLIP Surgery, LeGrad e ScoreCAM. Tuttavia, c'è stato un problema: quando l'oggetto era astratto (come "lussuria" o un concetto simbolico), sia gli umani che il robot facevano fatica a mettersi d'accordo.

4. La Grande Scoperta: L'Arte è Troppo Complessa

Qui arriva il punto più interessante, spiegato con una metafora:
Immagina che l'IA sia un cuoco che ha imparato a cucinare guardando solo ricette di internet. Se gli chiedi di fare un "pasta al pomodoro", lo fa benissimo perché ha visto milioni di foto di pasta rossa.
Ma se gli chiedi di fare un "piatto che rappresenta il dolore", il cuoco si blocca. Non sa che il dolore nell'arte può essere rappresentato da un colore blu, da una postura curva o da un oggetto rotto.

Quando l'oggetto è chiaro (es. "un ponte", "un serpente"), l'IA e gli umani sono d'accordo.
Quando l'oggetto è simbolico (es. "la Vergine Maria" in un contesto specifico, o "un ladro" in una scena della Passione), l'IA si perde. Non perché la lente sia sbagliata, ma perché il robot non ha mai "capito" il significato profondo di quell'immagine. Ha solo imparato a riconoscere pattern statistici.

5. Conclusione: Cosa ci insegna tutto questo?

Le "mappe di calore" che ci mostrano dove guarda l'IA sono utili, ma non sono la verità assoluta.

Sono come una traduzione imperfetta: ci dicono dove il robot guarda, ma non ci dicono cosa pensa.
Se usiamo queste mappe per studiare l'arte, dobbiamo stare attenti: l'IA potrebbe "vedere" una Madonna dove c'è solo una donna con un vestito blu, perché nei suoi dati le due cose sono spesso insieme.

In sintesi:
Queste tecnologie sono strumenti potenti, ma non sono oracoli. Per la storia dell'arte, servono come spunti di partenza per fare domande, non come risposte definitive. L'IA ci aiuta a vedere dove guardare, ma spetta all'occhio umano (e alla nostra cultura) capire cosa stiamo guardando davvero.

Come dice l'autore: L'IA non "capisce" l'arte come noi; noi usiamo l'IA per proiettare la nostra curiosità su di essa, ma dobbiamo ricordarci che la macchina sta solo facendo calcoli statistici, non vivendo l'emozione dell'opera.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Sulla spiegabilità dei Modelli Vision-Lingua (VLM) nella Storia dell'Arte

1. Il Problema e il Contesto

I Modelli Vision-Lingua (VLM), come CLIP (Contrastive Language–Image Pre-training), hanno rivoluzionato l'analisi multimodale, permettendo compiti come il recupero, la classificazione e la descrizione di immagini senza addestramento specifico (zero-shot). Tuttavia, il loro utilizzo nella storia dell'arte solleva questioni critiche:

Opacità Epistemica: I modelli sono spesso "scatole nere" che operano su spazi di embedding derivati da dataset web (es. LAION-400M) pieni di bias strutturali e stereotipi.
Mancanza di Comprensione: Non è chiaro se questi modelli "capiscano" i concetti iconografici complessi, stilistici o affettivi tipici dell'arte, o se si limitino a riconoscere pattern statistici superficiali.
Necessità di Spiegabilità (XAI): Per un uso metodologicamente robusto nella storia dell'arte, è necessario rendere leggibile il ragionamento visivo del modello. La domanda centrale è: fino a che punto i metodi di Intelligenza Artificiale Spiegabile (XAI) possono rendere trasparente la logica visuale di CLIP in contesti storici-artistici?

2. Metodologia

Lo studio adotta un framework di valutazione a due stadi, combinando analisi quantitative su larga scala e studi qualitativi con esperti umani.

A. Selezione dei Metodi XAI
Sono stati valutati sette metodi, suddivisi in tre paradigmi, applicati a CLIP senza ri-addestramento (post-hoc):

Metodi basati su gradiente: Grad-CAM, Grad-CAM++, LayerCAM, LeGrad (propagano i gradienti specifici della classe nelle mappe di feature).
Metodi basati su punteggio (senza gradiente): ScoreCAM, gScoreCAM (oscurano parti dell'immagine e misurano la variazione del punteggio di output).
Approcci specifici per CLIP: CLIP Surgery (interviene direttamente nella pipeline di inferenza per disaccoppiare i flussi testuali e visivi).

B. Studio di Caso 1: Valutazione Quantitativa (Localizzazione)

Dataset: IconArt (1.480 immagini) e ArtDL (4.166 immagini), contenenti annotazioni di bounding box per concetti iconografici (es. santi, attributi, simboli).
Procedura: Valutazione zero-shot. Per ogni metodo, vengono generate mappe di salienza, soggettate per ottenere maschere binarie e confrontate con le annotazioni ground-truth.
Metrica: BoxAcc (accuratezza del bounding box) calcolata su diverse soglie di Intersezione su Unione (IoU) e dimensioni degli oggetti (piccoli, medi, grandi). È stata utilizzata una ricerca a griglia per trovare la soglia ottimale ( $\tau$ ) per ogni metodo.

C. Studio di Caso 2: Valutazione Qualitativa (Interpretabilità Umana)

Design: Sondaggio online con 33 partecipanti (studenti e professionisti della storia dell'arte).
Task: I partecipanti hanno annotato manualmente le regioni rilevanti in 7 opere d'arte per 14 classi target (alcune concrete come "ponte", altre astratte come "lussurioso").
Valutazione: Hanno classificato le mappe di salienza generate dai 7 metodi in base a quanto bene riflettevano le loro annotazioni umane.
Analisi: Misura dell'accordo inter-rater (Kendall's W) e analisi delle preferenze in base al livello di expertise.

3. Risultati Chiave

Risultati Quantitativi (Localizzazione):

CLIP Surgery si è dimostrato costantemente superiore a tutti gli altri metodi, ottenendo la massima accuratezza (BoxAcc) sia su IconArt che su ArtDL, specialmente per oggetti di grandi dimensioni e classi visivamente distinte.
LeGrad si è posizionato come secondo miglior metodo, mostrando prestazioni competitive, talvolta superiori per oggetti medi o specifiche classi (es. "Bambino Gesù").
I metodi basati su gradiente tradizionali (Grad-CAM, Grad-CAM++, LayerCAM) hanno mostrato prestazioni significativamente inferiori, con un degrado marcato nella capacità di localizzare concetti iconografici complessi.
Fattori di influenza: L'accuratezza è fortemente correlata alla dimensione dell'oggetto (gli oggetti piccoli sono difficili da rilevare) e alla stabilità concettuale. Le classi generiche (es. "barba") sono state rilevate meglio di quelle storicamente specifiche e ambigue (es. "Crocifissione").

Risultati Qualitativi (Interpretabilità Umana):

I partecipanti hanno preferito CLIP Surgery, LeGrad e ScoreCAM, trovando le loro mappe di salienza più allineate alle loro annotazioni umane.
I metodi basati su gradiente sono stati sistematicamente classificati in basso.
Consenso vs. Ambiguità: Per oggetti visivamente definiti (es. "serpente", "ponte"), l'accordo tra umani e macchina era alto. Per concetti astratti o dipendenti dal contesto (es. "lussurioso", "Sfinge" in un contesto mitologico complesso), l'accordo è crollato, riflettendo l'ambiguità intrinseca del concetto piuttosto che un fallimento tecnico.
Expertise: Anche se i partecipanti con conoscenze intermedie mostravano una leggera preferenza per LeGrad, non sono state osservate differenze statisticamente significative basate sul livello di expertise; il pattern di preferenza è rimasto stabile.

4. Contributi Principali

Benchmark Comparativo: Fornisce la prima valutazione comparativa estesa di sette metodi XAI su dati specifici della storia dell'arte in condizioni zero-shot.
Validazione Umana: Introduce una valutazione basata su esperti umani per testare non solo l'accuratezza algoritmica, ma la rilevanza visiva delle spiegazioni per il dominio specifico.
Distinzione tra Spiegabilità e Trasparenza: Dimostra che una mappa di salienza "leggibile" non garantisce la trasparenza epistemica. Le mappe rivelano le dinamiche interne del modello ma non necessariamente la sua "comprensione" storica o culturale.
Analisi dei Limiti Rappresentativi: Evidenzia che i fallimenti nell'interpretazione sono spesso dovuti alla natura frammentaria e biasata dei dati di addestramento (es. la scarsa rappresentazione di figure secondarie nelle scene della Passione) piuttosto che solo alla scelta dell'algoritmo XAI.

5. Significato e Implicazioni

Per la Storia dell'Arte Digitale: Lo studio avverte contro l'uso acritico dei VLM. Sebbene strumenti come CLIP Surgery offrano una visualizzazione promettente, non possono sostituire l'interpretazione umana. Le mappe di salienza devono essere lette come "prompt" per ulteriori indagini ermeneutiche, non come spiegazioni definitive.
Sulla Spiegabilità (XAI): Conferma che la spiegabilità è un processo dialogico (modello Miller, 2019) tra l'esperto e la macchina. La scelta del metodo XAI influenza non solo le prestazioni computazionali, ma anche le affermazioni interpretative su ciò che il modello "vede".
Efficienza vs. Qualità: Viene evidenziato il compromesso tra efficienza computazionale (CLIP Surgery è molto veloce, ScoreCAM è lento) e la qualità della mappa (ScoreCAM produce mappe più lisce ma è impraticabile in tempo reale).

In sintesi, il paper conclude che mentre i metodi XAI possono rendere visibile la logica di CLIP, la loro efficacia è vincolata alla stabilità concettuale delle categorie e alla disponibilità rappresentativa nei dati di addestramento. Nella storia dell'arte, dove il significato è denso e culturalmente sedimentato, l'interpretazione rimane un atto umano che la macchina può solo approssimare, non replicare.

On the Explainability of Vision-Language Models in Art History

1. Il Problema: L'Intelligenza Artificiale è un "Ospite Muto"

2. La Soluzione: Le "Lenti Magiche" (Metodi XAI)

3. La Prova: Due Esperimenti

4. La Grande Scoperta: L'Arte è Troppo Complessa

5. Conclusione: Cosa ci insegna tutto questo?

Titolo: Sulla spiegabilità dei Modelli Vision-Lingua (VLM) nella Storia dell'Arte

1. Il Problema e il Contesto

2. Metodologia

3. Risultati Chiave

4. Contributi Principali

5. Significato e Implicazioni

Articoli simili

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation