Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 왜 그런 결정을 내렸는지, 우리가 눈으로 직접 볼 수 있게 만드는 새로운 방법"**을 소개합니다.

기존의 AI(특히 '비주얼 프롬프트 튜닝'이라는 기술) 는 매우 똑똑하지만, 그 두뇌 속의 생각 과정이 **완전히 검은 상자 (Black Box)**처럼 숨겨져 있어 우리가 이해하기 어렵다는 문제가 있었습니다. 마치 요리사가 요리를 해놓고 "왜 이 재료를 넣었는지" 설명을 못 하는 것과 비슷하죠.

이 논문은 이 문제를 해결하기 위해 **IVPT(해석 가능한 비주얼 프롬프트 튜닝)**라는 새로운 시스템을 제안합니다. 이를 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드리겠습니다.

1. 핵심 아이디어: "추상적인 암호" 대신 "구체적인 부품"

기존 AI 는 이미지를 보고 판단할 때, 인간이 이해할 수 없는 **추상적인 암호 (Embedding)**를 만들어냅니다.

기존 방식: "이 새는 '비행 능력 0.8, 깃털 질감 0.5' 같은 숫자 조합으로 판단했다." (우리는 이게 무슨 뜻인지 모름)
IVPT 의 방식: "이 새는 **'부리', '날개', '꼬리'**라는 구체적인 부품을 보고 판단했다." (우리가 바로 이해함)

저자는 AI 가 학습하는 과정에서 **인간이 이해할 수 있는 '개념 (Concept)'**을 찾아내어, 그 개념이 이미지의 **어떤 부분 (예: 날개 끝, 눈)**에 해당하는지 명확히 보여줍니다.

2. 작동 원리: "레고 블록"과 "지도"의 조화

이 시스템은 크게 두 가지 단계로 작동합니다.

① 개념 탐사대 (Concept Region Discovery)

AI 는 이미지를 분석하면서 **"이 부분은 '부리'라는 개념에 해당한다", "저 부분은 '날개'다"**라고 스스로 영역을 찾아냅니다.

비유: 마치 색칠공부를 할 때, "이 부분은 빨간색 (부리), 저 부분은 파란색 (날개)"으로 구분하는 것과 같습니다. AI 가 스스로 "아, 여기가 부리구나!"라고 표시해 주는 것입니다.

② 층별 연결 (Cross-Layer Fusion)

이게 이 논문이 가장 혁신적인 부분입니다.

얕은 층 (Shallow Layers): 이미지의 아주 작은 디테일 (깃털 하나, 눈썹 모양) 을 봅니다.
깊은 층 (Deep Layers): 전체적인 큰 그림 (새의 전체 형태) 을 봅니다.

기존 방법은 이 두 가지를 따로 다뤘지만, IVPT 는 얕은 층의 작은 디테일들을 모아서 깊은 층의 큰 개념으로 자연스럽게 연결해 줍니다.

비유: 레고 블록을 쌓는 과정입니다.
- 얕은 층: 작은 레고 블록 하나하나 (깃털, 부리 끝) 를 인식합니다.
- 깊은 층: 그 작은 블록들이 모여 '새'라는 큰 구조물이 된 것을 인식합니다.
- IVPT 는 "작은 블록들이 어떻게 모여 큰 새가 되었는지" 그 연결고리를 보여줍니다.

3. 왜 이것이 중요한가요? (실생활 예시)

이 기술이 있으면 AI 의 판단을 신뢰할 수 있게 됩니다.

의료 (암 진단): AI 가 "이 환자는 암입니다"라고 할 때, 기존 AI 는 "숫자 계산 결과입니다"라고만 했습니다. 하지만 IVPT 는 **"이 부분 (녹색 영역) 이 '비정상적인 세포 덩어리'로 보이기 때문에 암으로 판단했습니다"**라고 이미지의 해당 부위를 하이라이트 해줍니다. 의사는 AI 가 어디를 보고 판단했는지 확인하고 신뢰할 수 있습니다.
자율 주행: "정지 신호를 인식했다"라고 할 때, "정지 신호판의 'STOP' 글자 부분 (빨간색 영역) 을 보고 판단했다"라고 설명해 줍니다. 만약 AI 가 신호등이 아닌 '빨간색 차'를 보고 멈춘다면, 우리는 그 오류를 쉽게 찾아낼 수 있습니다.

4. 요약: 이 기술의 세 가지 장점

투명성 (Transparency): AI 가 '왜' 그런 결정을 내렸는지, 이미지의 어떤 부분을 보고 판단했는지 인간이 눈으로 확인할 수 있습니다.
공통된 언어 (Shared Concepts): 다른 종류의 새나 물체라도 '부리', '바퀴', '날개'처럼 공통된 개념을 찾아내어, AI 가 다양한 상황을 유연하게 이해하도록 돕습니다.
정교함 (Granularity): 아주 작은 디테일부터 전체적인 맥락까지, 단계별로 설명이 가능하여 AI 의 사고 과정을 마치 인간이 사물을 바라보는 것처럼 자연스럽게 보여줍니다.

결론

이 논문은 **"AI 를 더 똑똑하게 만드는 것"뿐만 아니라, "AI 가 인간에게 자신의 생각을 설명하는 법을 가르치는 것"**에 초점을 맞췄습니다. 마치 AI 에게 "내가 이걸 보고 판단했어!"라고 손가락으로 가리키며 설명하는 능력을 부여한 셈입니다. 이를 통해 우리는 AI 를 더 신뢰하고, 의료나 자율주행 같은 중요한 분야에서 안전하게 활용할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **시각 프롬프트 튜닝 (Visual Prompt Tuning, VPT)**의 해석 가능성 (Interpretability) 문제를 해결하기 위해 제안된 해석 가능한 시각 프롬프트 튜닝 (Interpretable Visual Prompt Tuning, IVPT) 프레임워크에 대한 연구입니다. ICLR 2026 에 발표된 이 논문은 학습된 프롬프트가 추상적인 임베딩 벡터에 그치는 기존 방식의 한계를 극복하고, 인간이 이해할 수 있는 시각적 개념과 직접적으로 연결된 프롬프트를 학습하는 새로운 패러다임을 제시합니다.

다음은 논문의 주요 내용을 문제 정의, 방법론, 핵심 기여, 실험 결과, 그리고 의의로 나누어 상세히 요약한 것입니다.

1. 문제 정의 (Problem)

해석 가능성의 부재: 시각 프롬프트 튜닝은 사전 학습된 비전 모델 (Vision Foundation Models) 을 특정 작업에 적응시키는 데 효율적이지만, 학습된 프롬프트가 추상적인 임베딩 벡터로만 존재하여 인간이 모델의 의사결정 과정을 이해하기 어렵습니다.
기존 방법의 한계:
- 개념 기반 (Concept-based) 및 귀속 기반 (Attribution-based) 방법: 기존 해석 가능성 방법들은 주로 단일 레이어에서 작동하거나, 특정 클래스에 종속된 프로토타입을 사용하여 클래스 간 공유 개념을 분석하기 어렵습니다.
- VPT 의 특성: 기존 VPT 방법들은 프롬프트를 이미지 영역 (Region) 과 연결하지 않으며, 다양한 네트워크 레이어 간의 개념적 상호작용을 고려하지 않습니다.
- 레이어 간 격차: 얕은 레이어의 프롬프트는 세부적인 디테일을 포착하지만 맥락이 부족하고, 깊은 레이어의 프롬프트는 추상적인 개념을 가지지만 세부 정보가 손실됩니다. 이를 통합하는 메커니즘이 부족합니다.

2. 방법론 (Methodology: IVPT)

IVPT 는 카테고리 무관 (Category-agnostic) 인 개념 프로토타입을 도입하여 학습 가능한 프롬프트와 인간이 이해할 수 있는 시각적 개념을 연결하는 프레임워크입니다. 주요 구성 요소는 다음과 같습니다.

A. 해석 가능한 프롬프트 구성 (Constructing Interpretable Prompts)

개념 영역 발견 (Concept Region Discovery, CRD): 각 프로토타입 $q_k$ 가 이미지 내의 특정 영역 (Region) 과 어떻게 연결되는지 발견합니다. 학습된 공간 편향 (Spatial Bias) 맵과 어텐션 메커니즘을 사용하여 각 프로토타입이 주시하는 이미지 패치들을 식별하고, 이를 통해 의미 있는 영역 맵 $R_k$ 를 생성합니다.
영역 내 특징 집계 (Intra-region Feature Aggregation, IFA): 발견된 개념 영역 $R_k$ $R_{k}$ 내의 패치 임베딩들을 집계하여 해당 개념에 대응하는 해석 가능한 프롬프트 $p_k$ $p_{k}$ 를 생성합니다.
- 수식적으로: $p_k = F_{IFA}(R_k, E)$ , 여기서 $E$ 는 패치 임베딩입니다.
프로토타입 기반 프롬프트 학습: 프롬프트는 단순히 학습되는 벡터가 아니라, 이미지 영역에 기반한 프로토타입의 특징을 통해 정의됩니다.

B. 레이어 간 해석 가능성 탐구 (Cross-layer Interpretation)

계층적 프로토타입: 네트워크의 깊이에 따라 프로토타입의 수와 세밀도가 달라집니다.
- 얕은 레이어: 많은 수의 프로토타입을 사용하여 세밀하고 다양한 시각적 특징을 포착합니다.
- 깊은 레이어: 프로토타입의 수가 감소하여 더 추상적이고 고수준의 개념을 표현합니다.
레이어 간 프롬프트 퓨전 (Cross-layer Prompt Fusion):
- 서로 다른 세밀도 (Fine-to-Coarse) 를 가진 프롬프트들을 통합하기 위해 그룹화 (Grouping) 와 퓨전 메커니즘을 도입합니다.
- 개념 영역 일관성 손실 (Concept Region Consistency Loss, $L_{con}$ ): 얕은 레이어의 세부 개념 영역들이 합쳐져 깊은 레이어의 고수준 개념 영역과 일치하도록 강제합니다. 이는 KL 발산을 사용하여 측정됩니다.
- 이를 통해 인간이 시각적 추론을 할 때와 유사하게, 국소적 (Local) 인 세부 사항에서 전역적 (Global) 인 의미로 이어지는 논리적 흐름을 모델이 학습하게 합니다.

C. 손실 함수 (Loss Function)

전체 학습 손실은 분류 손실 ( $L_{cls}$ ), 부분 형성 손실 ( $L_{ps}$ , 프로토타입의 공간적 구조를 보장), 그리고 개념 영역 일관성 손실 ( $L_{con}$ ) 의 가중 합으로 구성됩니다.

3. 핵심 기여 (Key Contributions)

새로운 프레임워크 제안: 학습 가능한 프롬프트와 인간이 이해할 수 있는 시각적 개념을 연결하는 첫 번째 해석 가능한 VPT 프레임워크 (IVPT) 를 제안했습니다.
레이어 간 개념 프로토타입 도입: 단일 레이어가 아닌 여러 네트워크 레이어에 걸쳐 프롬프트를 설명하고, 세밀한 특징부터 추상적인 개념까지 정렬 (Fine-to-Coarse Alignment) 하는 레이어 간 퓨전 메커니즘을 개발했습니다.
범용성 및 성능 입증: 세밀한 분류 (Fine-grained classification) 및 병리학적 이미지 (Pathological images) 벤치마크에서 기존 VPT 방법 및 기존 해석 가능 방법들보다 뛰어난 해석 가능성과 정확도를 동시에 달성함을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: CUB-200-2011 (새), PartImageNet, PASCAL-Part, Gleason-2019 (전립선암), Stanford Cars, FGVCAircraft 등 다양한 데이터셋에서 평가 수행.
정량적 평가:
- 일관성 점수 (Consistency Score) 및 안정성 점수 (Stability Score): 기존 부분 프로토타입 네트워크 (ProtoPNet 등) 및 VPT 방법들 (VPT-Shallow/Deep, E2VPT 등) 보다 일관성과 안정성에서 우위를 보였습니다. (예: DeiT-S 기준 일관성 점수 63.1 vs 기존 VPT 5.6~13.7)
- 정확도 (Accuracy): 해석 가능성을 높임에도 불구하고 분류 정확도는 기존 VPT 방법들을 능가하거나 동등한 수준을 유지했습니다.
정성적 분석:
- 시각화: IVPT 는 새의 부리, 날개, 병변 조직 (Gleason score) 등 분류에 중요한 세부 영역을 정확하게 강조하여 인간 전문가의 판단과 일치하는 결과를 보여주었습니다.
- 계층적 구조: 얕은 레이어의 세부 특징 (예: 깃털의 질감) 이 깊은 레이어의 고수준 개념 (예: '머리', '날개') 으로 자연스럽게 통합되는 과정을 시각적으로 확인했습니다.
인간 평가 (Human Study): 20 명의 참가자를 통한 평가에서 학습된 프로토타입이 인간이 이해할 수 있는 개념과 97.5% 의 정확도로 일치함을 보였으며, 세부 사항 보존, 의미 추상화, 전환 자연스러움 등에서 높은 점수를 받았습니다.

5. 의의 및 결론 (Significance)

AI 신뢰성 향상: 블랙박스처럼 작동하던 프롬프트 튜닝 방식을 투명하게 만들어, 의료 진단, 자율 주행 등 안전이 중요한 분야에서 AI 시스템의 신뢰성을 높이는 데 기여합니다.
지식 발견: 모델이 어떤 시각적 특징 (개념) 을 기반으로 판단하는지 명확히 보여줌으로써, AI 를 통한 새로운 지식 발견 (Knowledge Discovery) 을 가능하게 합니다.
효율성과 해석 가능성의 균형: 전체 모델을 파인튜닝하지 않고도 (Parameter-efficient) 높은 해석 가능성을 유지하며, 추가적인 파라미터 오버헤드는 전체 파라미터의 약 0.12% 에 불과하여 매우 효율적입니다.

요약하자면, IVPT 는 시각 프롬프트 튜닝의 '블랙박스' 문제를 해결하기 위해 계층적 구조와 개념 프로토타입을 결합하여, 모델이 어떤 이미지 영역에서 어떤 개념을 학습했는지를 명확하게 설명할 수 있는 새로운 기준을 제시한 획기적인 연구입니다.