On the Explainability of Vision-Language Models in Art History

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"컴퓨터가 그림을 볼 때, 실제로 무엇을 보고 있는 걸까?"**라는 아주 흥미로운 질문에서 시작합니다.

마치 마법 같은 안경을 쓴 컴퓨터가 예술 작품을 감상한다고 상상해 보세요. 이 안경은 (AI 모델인 CLIP) 그림을 보고 "이건 성모 마리아야", "이건 뱀이야"라고 말해줍니다. 하지만 문제는, 컴퓨터가 왜 그렇게 생각했는지 그 이유를 우리에게 설명해 주지 못한다는 점입니다. 마치 마법사가 주문을 외우는데, 그 주문의 의미를 아무도 모른다면요.

이 논문은 그 **마법 같은 안경의 '시선'을 우리가 이해할 수 있도록 보여주는 방법 (설명 가능한 AI, XAI)**을 7 가지나 시험해 보았습니다. 특히 미술사 전문가들의 눈과 컴퓨터의 시선이 얼마나 일치하는지, 그리고 어떤 그림에서는 컴퓨터가 혼란을 겪는지를 연구했습니다.

주요 내용을 쉬운 비유로 설명해 드릴게요.

1. 연구의 배경: 컴퓨터는 그림을 '이해'할까, 아니면 '통계'만 할까?

컴퓨터는 수백만 장의 인터넷 그림과 글을 함께 공부하며 배웠습니다. 하지만 이 데이터에는 편견이나 엉뚱한 정보도 섞여 있을 수 있습니다.

비유: 컴퓨터가 미술관을 방문했는데, 가이드북 (데이터) 이 엉망진창이라서 "이건 성모 마리아야"라고 말했는데, 사실은 그냥 "흰 옷 입은 여자"일 수도 있습니다. 컴퓨터가 진짜로 '이해'하는 건지, 아니면 그냥 통계적으로 가장 많이 나온 단어를 대입한 건지 알 수 없는 상태죠.

2. 실험 방법: 7 가지의 '투명 안경'을 써보다

연구진은 컴퓨터가 그림의 어느 부분을 보고 판단했는지 보여주는 **7 가지 다른 '투명 안경' (시각화 방법)**을 개발했습니다.

그라디언트 기반 (Grad-CAM 등): 컴퓨터의 뇌세포가 어떻게 반응하는지 역추적하는 방법. (비유: 컴퓨터의 두뇌 회로에 전류를 흘려보내 어디가 뜨거워지는지 보는 것)
점수 기반 (Score-CAM 등): 그림의 일부를 가리고 점수가 어떻게 변하는지 보는 방법. (비유: 그림의 눈이나 입술을 가렸을 때 컴퓨터가 "아! 이게 중요했구나!"라고 깨닫는 방식)
CLIP 전용 (CLIP Surgery): 컴퓨터의 구조를 직접 수정해서 더 정확하게 보여주는 방법.

3. 실험 결과 1: 컴퓨터의 '눈'은 어디를 보고 있나? (정량적 분석)

수천 장의 미술 작품을 가지고 컴퓨터가 "뱀"이나 "성모 마리아"를 찾아냈을 때, 그 위치가 정확한지 테스트했습니다.

결과: CLIP Surgery라는 방법이 가장 잘 작동했습니다. 마치 가장 선명한 돋보기처럼, 컴퓨터가 보고 있는 부분을 다른 방법들보다 훨씬 정확하게 잡아냈습니다.
한계: 하지만 컴퓨터가 작은 물체나 상징적인 개념 (예: '죄악', '희생') 을 찾을 때는 여전히 헷갈렸습니다. 컴퓨터는 '뱀'이라는 구체적인 모양은 잘 찾지만, '죄악'이라는 추상적인 개념을 그림에서 찾아내는 건 어려워했습니다.

4. 실험 결과 2: 미술사 전문가들은 어떻게 생각하나? (질적 분석)

이제 **미술을 공부한 사람들 (전문가)**에게 컴퓨터가 보여준 '시선 지도 (히트맵)'를 보여주고 "이게 맞는 말인가?"라고 물었습니다.

명확한 것 vs 추상적인 것:
- 명확한 것: "다리", "꽃", "뱀"처럼 눈에 확 띄는 것은 컴퓨터와 사람의 시선이 잘 맞았습니다. (비유: "저기 빨간 사과가 있네"라고 둘 다 쉽게 동의함)
- 추상적인 것: "욕정 (lustful)", "스핑크스 (신비로움)"처럼 개념이 모호한 것은 사람들도 의견이 갈렸고, 컴퓨터의 시선 지도도 혼란스러웠습니다.
흥미로운 발견: 때로는 사람조차 헷갈리는 경우가 있었습니다. 예를 들어, 그림에 성모 마리아가 여러 명 나오는데, 누가 누구인지 구분이 안 갈 때 컴퓨터도 혼란을 겪었습니다. 이는 컴퓨터의 문제가 아니라, 그림 자체가 가진 복잡함 때문이기도 했습니다.

5. 결론: 컴퓨터의 '이해'는 결국 인간의 '해석'을 비추는 거울

이 연구의 핵심 메시지는 다음과 같습니다.

완벽한 해답은 없다: 아무리 좋은 '투명 안경'을 써도, 컴퓨터가 그림을 '이해'하는 방식은 인간의 그것과 완전히 같을 수 없습니다. 컴퓨터는 통계적 패턴을 볼 뿐, 그림의 역사적 의미나 감정은 알지 못합니다.
도구의 한계: CLIP Surgery 같은 최신 도구가 가장 잘 작동하지만, 그래도 상징적이고 복잡한 미술 작품을 분석할 때는 여전히 한계가 있습니다.
진짜 의미: 설명 가능한 AI(XAI) 는 컴퓨터가 "무엇을 봤는지"를 보여주는 것이지, "왜 그렇게 생각했는지 (철학적 이유)"를 완벽히 설명하는 것은 아닙니다.
- 비유: 이 시선은 마치 거울과 같습니다. 컴퓨터가 그림을 볼 때 비치는 모습은, 사실은 우리가 컴퓨터에게 기대하는 해석의 투영일 뿐입니다.

요약

이 논문은 **"컴퓨터가 미술 작품을 볼 때, 우리가 그 이유를 얼마나 이해할 수 있는가?"**를 탐구했습니다.

좋은 점: 최신 기술 (CLIP Surgery) 을 쓰면 컴퓨터가 어디를 보고 있는지 꽤 잘 알 수 있습니다.
나쁜 점: 하지만 추상적인 개념이나 복잡한 상징이 들어간 그림에서는 컴퓨터도, 그리고 그걸 설명하는 도구도 한계에 부딪힙니다.
교훈: 우리는 컴퓨터의 시선을 맹신하기보다, **"컴퓨터가 이 그림을 이렇게 해석했구나. 하지만 우리 미술사학자들은 이렇게 다르게 볼 수도 있겠네"**라고 대화를 나누는 도구로 사용해야 합니다.

결국 이 기술은 컴퓨터가 그림을 '이해'했다고 선언하는 것이 아니라, 인간과 기계가 서로의 시선을 비교하며 더 깊이 있는 대화를 시작하게 해주는 열쇠가 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 비전 - 언어 모델 (VLM, 예: CLIP) 은 시각적 및 텍스트 데이터를 공유 임베딩 공간에 매핑하여 제로샷 (zero-shot) 분류, 검색, 캡션 생성 등 다양한 멀티모달 작업을 수행합니다. 그러나 이러한 모델은 내부 메커니즘의 불투명성 (블랙박스) 과 훈련 데이터에 내재된 편향 (LAION-400M 등 웹 스크래핑 데이터의 사회적 편향) 으로 인해 비판을 받고 있습니다.
핵심 문제: 미술사 분야에서 시각적 의미는 단순한 라벨이 아닌 문화적, 역사적, 상징적 맥락 (아이코노그래피) 을 통해 해석됩니다. VLM 이 이러한 복잡한 예술 작품을 '이해'하는 방식이 무엇인지, 그리고 설명 가능한 인공지능 (XAI) 기법이 모델의 시각적 추론 과정을 인간 (미술사 전문가) 이 이해할 수 있도록 명확히 할 수 있는지에 대한 의문이 제기됩니다.
연구 질문:
1. 제로샷 조건에서 XAI 기법들이 예술 작품 내 아이코노그래픽 객체를 얼마나 정확하게 국소화 (localization) 할 수 있는가?
2. 생성된 시각적 중요도 맵 (Saliency Maps) 이 인간의 판단 (특히 미술사적 안목을 가진 전문가의 시선) 과 일치하는가?
3. 객체 크기, 개념의 추상성 등 어떤 요인이 성능 차이를 주도하는가?

2. 방법론 (Methodology)

이 연구는 두 단계의 평가 프레임워크를 통해 7 가지 XAI 기법을 비교 평가했습니다.

A. 평가 대상 기법 (7 가지)
세 가지 패러다임으로 분류된 기법들을 CLIP 모델에 적용했습니다.

기반 (Gradient-based) 방법: 클래스별 그래디언트를 피처 맵으로 역전파하여 가중치를 계산.
- Grad-CAM, Grad-CAM++, LayerCAM, LeGrad
점수 기반 (Score-based, Gradient-free) 방법: 이미지 영역을 마스킹하여 모델 점수 변화를 측정.
- ScoreCAM, gScoreCAM
CLIP 특화 (CLIP-specific) 방법: 추론 파이프라인에 직접 개입하여 텍스트 - 이미지 상호작용을 분리.
- CLIP Surgery

B. 사례 연구 1: 정량적 평가 (Quantitative Case Study)

데이터셋: 미술사적 아이코노그래피가 포함된 두 개의 데이터셋 사용.
- IconArt: 1,480 장의 이미지, 10 개 클래스 (성인, 천사, 나체 등).
- ArtDL: 4,166 장의 이미지, 59 개 클래스 (성인, 성모 마리아, 아기 예수 등).
평가 지표: 제로샷 조건 (파인튜닝 없음) 에서 생성된 시알리언시 맵을 이진 마스크로 변환한 후, 정답 주석 (Ground Truth) 과의 IoU(Intersection over Union) 를 기반으로 한 BoxAcc(경계 상자 정확도) 를 측정.
절차: 임계값 ( $\tau$ ) 에 따른 민감도를 줄이기 위해 다양한 임계값 구간에서 최대 BoxAcc 를 탐색하여 비교.

C. 사례 연구 2: 정성적 평가 (Qualitative Case Study)

설계: 온라인 설문조사 (SoSci Survey) 를 통해 33 명의 참가자 (미술사 전공자 및 일반인 포함) 가 7 점의 다양한 예술 작품과 14 개의 클래스에 대해 수행.
과제: 참가자가 특정 클래스 (예: "뱀", "성모 마리아") 와 관련된 영역을 직접 표시한 후, 7 가지 XAI 기법이 생성한 히트맵 중 인간이 중요하게 생각한 영역과 가장 일치하는 순위를 매김.
분석: 참가자 간 일치도 (Inter-rater reliability) 를 측정하기 위해 Kendall's W 계수를 사용.

3. 주요 결과 (Key Results)

A. 정량적 결과 (국소화 정확도)

성능 우위: CLIP Surgery가 두 데이터셋 (IconArt, ArtDL) 모두에서 가장 높은 정확도를 보였습니다. 특히 ArtDL 에서 IoU $\ge$ 0.30 기준 52.28% 의 BoxAcc 를 기록하여 2 위인 LeGrad(43.82%) 보다 약 9%p 높았습니다.
객체 크기 영향: CLIP Surgery 는 작음, 중간, 큰 모든 크기의 객체에서 일관되게 높은 성능을 보였습니다.
기법 간 차이:
- 기반 방법 (Grad-CAM 등): 성능이 현저히 저하되었으며, 아이코노그래픽 자료에 대한 전이 학습 능력이 낮았습니다.
- 점수 기반 방법 (ScoreCAM 등): 중간 수준의 성능을 보였으나 CLIP Surgery 에는 미치지 못했습니다.
- LeGrad: CLIP Surgery 다음으로 좋은 성능을 보였으며, 특히 '아기 예수'와 같은 특정 클래스에서는 CLIP Surgery 보다 우세한 경우도 있었습니다.
데이터셋 차이: IconArt 는 작은 객체와 복잡한 상징적 모티프가 많아 ArtDL 보다 전체 정확도가 낮았습니다.

B. 정성적 결과 (인간 판단과의 일치도)

참가자 선호도: 참가자들은 CLIP Surgery, LeGrad, ScoreCAM이 생성한 맵을 가장 인간적 판단과 일치한다고 평가했습니다. 반면, Grad-CAM 계열 기법은 하위 순위로 평가되었습니다.
개념의 모호성 영향:
- 구체적 객체: "뱀", "다리", "꽃" 등 시각적으로 명확한 객체는 참가자 간 일치도 (Kendall's W) 가 높았습니다.
- 추상적/상징적 객체: "lustful(욕정적인)", "Sphinx(스핑크스)", "Virgin Mary(성모 마리아)" 등 맥락 의존적이거나 상징적인 개념은 일치도가 낮았으며, 어떤 기법도 우세하지 않았습니다. 이는 모델이 이러한 개념을 명확히 인코딩하지 못했거나, 인간 해석의 다양성 때문입니다.
전문성 영향: 기본적인 지식을 가진 참가자는 CLIP Surgery 를 선호했으나, 중급 이상의 전문성을 가진 참가자는 LeGrad 를 약간 더 선호하는 경향이 있었습니다.

4. 주요 기여 및 논의 (Key Contributions & Discussion)

XAI 기법의 한계와 가능성: XAI 기법은 모델이 '어디를 보는지'를 시각화할 수는 있으나, 그것이 모델의 진정한 '이해'를 드러내는지는 별개의 문제임을 지적했습니다. 특히 추상적이고 상징적인 미술사적 개념에 대해서는 설명 가능성의 한계가 명확히 드러났습니다.
표현의 한계 (Limits of Representation): 모델이 훈련 데이터 (웹 스크래핑된 이미지) 에서 해당 개념을 충분히 학습하지 못했거나 (예: 십자가에 못 박힌 도둑), 개념 자체가 고정된 시각적 템플릿이 없는 경우 (예: '도둑'이라는 용어의 다양성), 어떤 XAI 기법을 사용하더라도 분산된 (diffuse) 맵이 생성됩니다. 이는 XAI 기법의 결함이 아니라 모델 자체의 표현적 한계입니다.
계산 효율성 vs. 설명의 질:
- CLIP Surgery: 단일 순전파 (forward pass) 만으로 작동하여 실시간 적용에 가장 효율적이며, 그 결과도 인간 판단과 가장 잘 일치했습니다.
- ScoreCAM: 정확도는 높으나 많은 순전파가 필요하여 실시간 적용이 어렵습니다.
- 기반 방법: 계산은 빠르지만, 그라디언트 포화 (saturation) 문제로 인해 불안정하거나 부정확한 맵을 생성할 수 있습니다.
미술사적 함의: 설명 가능성은 기계적 진단 도구를 넘어, 인간과 기계의 시선이 어떻게 교차하고 충돌하는지를 보여주는 해석적 (hermeneutic) 과정이어야 함을 강조했습니다.

5. 의의 (Significance)

이 논문은 디지털 미술사 분야에서 VLM 을 활용할 때 중요한 방법론적 통찰을 제공합니다.

비판적 수용: VLM 을 '출고 그대로 (out-of-the-box)' 사용할 때, 그 결과물이 훈련 데이터의 편향과 모델의 표현적 한계를 어떻게 반영하는지 비판적으로 검토해야 함을 시사합니다.
방법론적 제안: CLIP Surgery 와 같은 특화 기법이 제로샷 환경에서 가장 유망한 대안임을 입증했습니다.
인간 중심 평가의 필요성: 단순한 수치적 정확도 (IoU) 이상으로, 해당 분야의 전문가가 어떻게 해석하는지에 대한 정성적 평가가 XAI 기법의 유효성을 판단하는 데 필수적임을 보여주었습니다.
지식적 투명성: XAI 맵이 모델의 내부 구조를 투명하게 보여주는 것이 아니라, 인간의 해석적 욕망을 계산적 산물에 투영한 것일 수 있음을 경고하며, 디지털 인문학에서의 설명 가능성은 지속적인 대화와 비판적 성찰의 과정으로 접근해야 함을 주장합니다.

On the Explainability of Vision-Language Models in Art History

1. 연구의 배경: 컴퓨터는 그림을 '이해'할까, 아니면 '통계'만 할까?

2. 실험 방법: 7 가지의 '투명 안경'을 써보다

3. 실험 결과 1: 컴퓨터의 '눈'은 어디를 보고 있나? (정량적 분석)

4. 실험 결과 2: 미술사 전문가들은 어떻게 생각하나? (질적 분석)

5. 결론: 컴퓨터의 '이해'는 결국 인간의 '해석'을 비추는 거울

요약

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 및 논의 (Key Contributions & Discussion)

5. 의의 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation