On the Explainability of Vision-Language Models in Art History

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô superinteligente chamado CLIP que foi treinado para "ver" e "ler" ao mesmo tempo. Ele viu milhões de fotos e textos da internet. Se você pedir para ele encontrar uma "cobra" em uma pintura antiga, ele aponta para onde acha que está a cobra.

Mas aqui está o problema: como sabemos se o robô realmente "entendeu" a cobra, ou se ele apenas chutou baseado em cores e formas que ele viu em outras fotos?

Este artigo é como um detetive investigando a mente desse robô, especialmente quando ele tenta analisar obras de arte complexas (como pinturas renascentistas cheias de símbolos). A autora, Stefanie Schneider, quer saber: podemos confiar no que o robô diz que está vendo?

Aqui está a explicação do estudo, usando analogias simples:

1. O Problema: O Robô é um "Estrangeiro" na Arte

O robô CLIP foi treinado com fotos da internet (cachorros, carros, pessoas comuns). A arte, por outro lado, é cheia de significados ocultos.

A Analogia: Imagine que você ensinou um turista a reconhecer "cachorros" apenas vendo fotos de rua. Agora, você mostra a ele um quadro onde um "cachorro" é na verdade um símbolo de lealdade em uma pintura medieval. O turista pode apontar para o animal, mas não entende por que ele está ali.
O Risco: O robô pode estar "alucinando" ou reproduzindo preconceitos da internet, em vez de entender a história da arte.

2. A Ferramenta: O "Mapa de Calor" (XAI)

Para ver o que o robô está pensando, os pesquisadores usam técnicas de Inteligência Artificial Explicável (XAI). Elas funcionam como um mapa de calor ou uma lanterna mágica.

Quando você pede ao robô para achar uma "cobra", ele acende uma luz vermelha na pintura. Onde a luz é mais forte, é onde o robô "acha" que está a cobra.
O estudo testou 7 tipos diferentes de lanternas (métodos diferentes) para ver qual delas acende a luz no lugar certo.

3. O Experimento 1: O Teste de Precisão (O "Jogo do Esconde-Esconde")

Os pesquisadores pegaram milhares de pinturas e pediram para o robô encontrar coisas específicas (como "santos", "vasos" ou "nu").

O Resultado: A maioria das lanternas (métodos antigos) falhou miseravelmente. Elas acendiam a luz em lugares errados ou muito borrados.
A Vencedora: Um método novo chamado CLIP Surgery foi o campeão. Ele funcionou como uma lâmpada de sopro de precisão, apontando exatamente para o objeto, mesmo em pinturas complexas.
A Pegadinha: Mesmo o vencedor falhou quando o objeto era muito pequeno ou muito abstrato (como "tristeza" ou "santidade"). O robô é ótimo em coisas físicas (uma ponte, uma flor), mas ruim em coisas conceituais.

4. O Experimento 2: O Teste Humano (O "Jogo da Opinião")

Agora, os pesquisadores não perguntaram ao computador se estava certo. Eles mostraram as pinturas e os mapas de calor para especialistas em arte (estudantes e professores).

A Pergunta: "Olhando para a luz vermelha, você acha que o robô está prestando atenção na mesma coisa que você?"
O Resultado: Os humanos preferiram os mapas do CLIP Surgery, LeGrad e ScoreCAM. Eles pareciam mais "lógicos" para o olho humano.
O Conflito: Quando a pintura era muito simbólica (ex: "quem é a Virgem Maria?" em um quadro com várias mulheres chorando), os humanos também não concordavam entre si. Se até os humanos têm dificuldade em definir o que é importante, como esperar que a luz do robô seja perfeita?

5. A Grande Conclusão: O Robô não "Entende", ele "Estatística"

A descoberta mais importante do artigo é uma lição de humildade para a tecnologia:

A Ilusão da Transparência: O mapa de calor (a luz vermelha) parece mostrar a verdade, mas é apenas uma ilusão. Ele mostra onde o robô reconheceu um padrão, mas não mostra o que ele entendeu.
A Metáfora Final: Imagine que o robô é um bibliotecário cego que organizou milhões de livros apenas pelo tamanho da capa e pela cor do título. Se você pedir para ele achar um livro sobre "amor", ele pode pegar um livro vermelho porque "amor" é uma cor quente na internet. O mapa de calor mostra que ele pegou o livro vermelho, mas não revela que ele não leu o conteúdo.

Resumo para levar para casa:
Essas ferramentas de "explicação" são úteis, mas não são mágicas. Elas nos dizem onde o robô está olhando, mas não nos dizem se ele está pensando como um historiador de arte.

Se você quer achar um "gato" em uma foto, o robô é ótimo.
Se você quer entender o significado de uma "cobra" em uma pintura de 1500, o robô é apenas um assistente que aponta o dedo, mas precisa de um humano para explicar o que isso significa.

O estudo nos ensina a usar a tecnologia com ceticismo saudável: confie na ferramenta para encontrar coisas, mas nunca pare de usar sua própria inteligência para interpretar o significado.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

Os Modelos Visão-Linguagem (VLMs), como o CLIP (Contrastive Language–Image Pre-training), tornaram-se ferramentas versáteis para análise multimodal, permitindo tarefas como recuperação e classificação zero-shot (sem treinamento prévio específico). No entanto, sua aplicação na História da Arte enfrenta desafios críticos:

Opacidade Epistêmica: Os VLMs operam em espaços de incorporação (embeddings) que codificam vieses sociais e hierarquias presentes nos dados de treinamento (ex: LAION-400M), muitas vezes sem que o usuário compreenda quais conceitos visuais (formais, iconográficos ou afetivos) estão sendo ativados.
Falta de Interpretabilidade: A "visão" da máquina não é transparente. Em contextos de História da Arte, onde o significado visual é denso, histórico e culturalmente sedimentado (não apenas descritivo), é crucial entender onde e como o modelo localiza conceitos iconográficos complexos.
Limitação das Técnicas Atuais: Métodos de Inteligência Artificial Explicável (XAI) existentes podem não ser adequados para a arquitetura dual (texto-imagem) do CLIP ou podem falhar ao tentar explicar conceitos abstratos e simbólicos típicos da arte.

O artigo investiga até que ponto os métodos XAI podem tornar a lógica visual do CLIP legível para intérpretes humanos no contexto da História da Arte.

2. Metodologia

Os autores adotaram uma estrutura de avaliação de duas etapas, combinando análise quantitativa e qualitativa:

A. Seleção de Métodos

Foram avaliadas sete técnicas de XAI, agrupadas em três paradigmas, aplicadas ao CLIP (sem fine-tuning):

Baseadas em Gradiente: Grad-CAM, Grad-CAM++, LayerCAM e LeGrad (propagam gradientes para mapas de características).
Baseadas em Pontuação (sem gradiente): ScoreCAM e gScoreCAM (mascaram regiões da imagem e medem a mudança na pontuação do modelo).
Específicas para CLIP: CLIP Surgery (intervém diretamente no pipeline de inferência para desacoplar os fluxos de texto e imagem).

B. Estudo de Caso 1: Avaliação Quantitativa (Localização)

Objetivo: Medir a precisão de localização de objetos em condições zero-shot.
Dados: Dois conjuntos de dados de História da Arte: IconArt (focado em motivos iconográficos específicos, mas com classes desbalanceadas) e ArtDL (mais amplo, com categorias descritivas).
Métrica: Precisão da Caixa Delimitadora (BoxAcc) calculada sobre a Interseção sobre União (IoU) em vários limiares ( $\tau$ ), utilizando uma busca em grade para encontrar o melhor desempenho independente do limiar fixo.
Processo: Geração de mapas de saliência, binarização, extração da maior componente conectada e comparação com as anotações de ground truth.

C. Estudo de Caso 2: Avaliação Qualitativa (Interpretabilidade Humana)

Objetivo: Avaliar se os mapas de saliência correspondem ao julgamento visual de especialistas em História da Arte.
Design: Um estudo online within-subjects com 33 participantes (estudantes e profissionais de História da Arte).
Procedimento: Os participantes anotaram manualmente regiões relevantes em 7 obras de arte para 14 classes (ex: "cobra", "Virgem Maria", "lustful"). Em seguida, classificaram os mapas de saliência gerados pelos 7 métodos XAI de acordo com quão bem estes refletiam suas próprias anotações.
Análise: Uso do coeficiente de concordância de Kendall (W) para medir a confiabilidade entre os avaliadores e a preferência pelos métodos.

3. Resultados Principais

Desempenho Quantitativo (Localização)

CLIP Surgery superou consistentemente todos os outros métodos em ambos os conjuntos de dados (IconArt e ArtDL), especialmente em limiares de IoU mais permissivos (0.30) e estritos (0.50).
LeGrad emergiu como o segundo melhor método, superando o CLIP Surgery em algumas categorias específicas de objetos médios e pequenos no conjunto IconArt.
Métodos Baseados em Gradiente (Grad-CAM, etc.): Apresentaram degradação significativa no desempenho, especialmente em materiais iconográficos complexos, indicando baixa transferibilidade para este domínio.
Fatores de Desempenho: A precisão correlacionou-se fortemente com o tamanho do objeto (objetos pequenos são mais difíceis) e a estabilidade conceitual. Classes genéricas ("barba", "rosto") tiveram melhor desempenho do que conceitos iconográficos específicos e complexos ("Crucificação", "Santo específico").

Desempenho Qualitativo (Interpretação Humana)

Consenso: Os participantes preferiram consistentemente CLIP Surgery, LeGrad e ScoreCAM.
Divergência: Métodos baseados em gradiente (Grad-CAM, LayerCAM) foram consistentemente classificados no final da lista, sugerindo que seus mapas de calor não alinham bem com a atenção visual humana.
Ambiguidade Conceitual: A concordância entre os avaliadores humanos (Kendall's W) foi alta para objetos concretos e espacialmente localizados (ex: "cobra", "ponte"), mas baixa para categorias difusas, simbólicas ou dependentes de contexto (ex: "lustful", "Sfinge", "Virgem Maria" em cenas com múltiplas figuras similares).
Limitações: Em casos onde a anotação humana também foi inconsistente (devido à ambiguidade da obra ou falta de conhecimento específico), os mapas de saliência falharam em capturar a intenção, revelando que a dificuldade não é apenas do modelo, mas da própria natureza do conceito.

4. Contribuições Chave

Avaliação Comparativa Específica para Arte: O estudo fornece uma das primeiras avaliações sistemáticas de métodos XAI aplicados especificamente a dados de História da Arte, destacando que o desempenho varia drasticamente dependendo da densidade semântica e iconográfica da imagem.
Validação do CLIP Surgery: Demonstra que intervenções específicas na arquitetura do modelo (como o CLIP Surgery) são superiores a métodos genéricos de pós-processamento para VLMs, especialmente na tarefa de localizar conceitos visuais em imagens de arte.
Diagnóstico da "Visão" da Máquina: O estudo revela que a explicabilidade não é apenas uma questão técnica, mas epistemológica. Os mapas de saliência expõem a dinâmica interna do modelo, mas não revelam o "entendimento" histórico ou cultural, pois o modelo opera sobre resíduos estatísticos de um mundo visual mediado, não sobre a historicidade da obra.
Integração de Métodos Misto: A combinação de métricas de precisão de caixa delimitadora com estudos de usabilidade humana oferece um quadro mais robusto para avaliar a utilidade do XAI em humanidades digitais.

5. Significado e Conclusão

O artigo conclui que a promessa epistêmica do XAI na História da Arte é tanto metodológica quanto hermenêutica.

Legibilidade vs. Transparência: A legibilidade visual de um mapa de saliência é enganosa; ela não implica transparência epistêmica total. O modelo não "entende" a arte, mas projeta uma estatística de similaridade baseada em seus dados de treinamento.
Dependência da Estabilidade Conceitual: A eficácia dos métodos XAI depende da estabilidade conceitual e da disponibilidade representacional das categorias. Conceitos abstratos ou culturalmente específicos permanecem opacos, mesmo com as melhores técnicas de explicação.
Recomendação Prática: Para aplicações em tempo real ou ad hoc, o CLIP Surgery é recomendado devido à sua eficiência computacional (uma única passagem forward modificada) e alta precisão. No entanto, os autores alertam que os resultados do XAI devem ser lidos não como explicações autossuficientes, mas como prompts para investigação hermenêutica adicional, exigindo que os pesquisadores estejam cientes dos imaginários epistêmicos e culturais embutidos na "visão" da máquina.

Em suma, o trabalho estabelece que, embora os VLMs possam ser ferramentas poderosas para a recuperação de arte, sua explicabilidade requer uma abordagem crítica que reconheça as limitações inerentes tanto da tecnologia quanto dos dados que a alimentam.