What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제: AI 는 "왜" 그걸 보았는지 말해주지 않는다

지금까지의 AI(비전 트랜스포머) 는 사진을 보고 "이건 코끼리야!"라고 정답을 맞히는 데는 매우 뛰어났습니다. 하지만 왜 코끼리라고 생각했는지는 설명하지 못했습니다. 마치 천재 학생이 시험 문제를 맞혔는데, "어떤 단서로 풀었는지"는 말해주지 않는 것과 같습니다.

기존의 설명 방법들은 AI 가 "코끼리라고 생각한 이유 (긍정적 신호)"만 보여줬습니다. 하지만 **"코끼리가 아니라고 생각한 이유 (부정적 신호)"**는 무시해버렸습니다.

비유: 친구가 "이 사람은 나쁜 사람이야"라고 할 때, "왜 나쁜 사람인지 (나쁜 행동)"만 말해주고, "왜 착한 사람으로 오해받지 않았는지 (착한 행동)"는 말해주지 않는 것과 같습니다. 이건 불완전한 설명이죠.

💡 2. 해결책: "BiCAM" (양방향 설명 도구)

저자들은 BiCAM이라는 새로운 도구를 만들었습니다. 이 도구의 핵심은 두 가지 색으로 설명을 한다는 점입니다.

🔴 빨간색 (지지하는 신호): "아, 여기가 코끼리구나!"라고 AI 가 확신하는 부분.
🔵 파란색 (억제하는 신호): "아니, 여기는 코끼리가 아니야 (예를 들어 말이나 배경)"라고 AI 가 배제하는 부분.

창의적인 비유: "탐정 수사"
기존 방법은 "범인 (코끼리) 은 여기 있어!"라고 손가락만 가리켰습니다. 하지만 BiCAM은 탐정처럼 다음과 같이 말합니다.

"범인은 빨간색으로 표시된 이 코끼리 몸통에 있어요. 그리고 범인이 아닌 것은 파란색으로 표시된 저 말과 배경이에요. 그래서 저는 이 코끼리를 범인으로 확신합니다."

이렇게 **찬성 (빨강)**과 **반대 (파랑)**를 동시에 보여주면, AI 가 어떻게 판단했는지 훨씬 더 명확하고 논리적으로 이해할 수 있습니다.

⚖️ 3. 새로운 발견: "PNR" (정답 vs 오답의 비율)

BiCAM 을 통해 빨간색과 파란색의 균형을 분석하면, **위조된 사진 (적대적 예제)**을 잡아낼 수 있습니다.

비유:
- 진짜 사진: AI 는 "코끼리 (빨강)"를 보고 "말 (파랑)"을 확실히 배제합니다. 빨강과 파랑의 균형이 자연스럽습니다.
- 위조된 사진 (해커가 변조한 것): AI 는 혼란스러워합니다. "코끼리도 아닌데, 말도 아닌데... 뭐지?" 하면서 빨강과 파랑이 뒤죽박죽 섞이거나, 불필요한 곳에 색이 퍼집니다.

저자들은 이 **빨강과 파랑의 비율 (PNR)**을 계산하는 간단한 공식을 만들었습니다. 이 비율이 비정상적으로 변하면, "아, 이건 해커가 조작한 사진이구나!"라고 재학습 없이도 바로 알아챌 수 있습니다.

🚀 4. 왜 이것이 중요한가요?

더 정확한 설명: AI 가 무엇을 보고 무엇을 배제했는지 모두 보여줘서, 신뢰할 수 있는 AI 를 만듭니다.
빠르고 가볍습니다: 복잡한 계산을 다시 할 필요 없이, 한 번만 지나가면 (Forward-Backward pass) 바로 결과를 줍니다.
보안 강화: 해커가 AI 를 속이려 할 때, 이 도구를 쓰면 쉽게 잡아낼 수 있습니다.

📝 요약

이 논문은 **"AI 가 무언가를 판단할 때, '무엇을 보았는지'뿐만 아니라 '무엇을 배제했는지'도 함께 보여주는 것"**이 중요하다고 말합니다.

마치 양쪽 눈으로 세상을 보는 것처럼, AI 의 판단 과정에 **찬성 (빨강)**과 **반대 (파랑)**의 시선을 모두 더함으로써, 우리는 AI 의 머릿속을 훨씬 더 선명하게 볼 수 있게 되었습니다. 이는 AI 가 우리 삶에 더 안전하게, 더 투명하게 쓰이도록 돕는 중요한 한 걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

비전 트랜스포머 (ViT) 의 해석 가능성 부족: Vision Transformers(ViT) 는 이미지 분류, 객체 감지, 세그멘테이션 등에서 최첨단 성능을 보이지만, 그 의사결정 과정이 불투명하여 고위험 분야에서의 적용을 제한합니다.
기존 방법론의 한계:
- 주의 (Attention) 기반 방법: 모든 레이어의 어텐션 맵을 재귀적으로 곱하는 방식은 토큰 간의 차이를 과도하게 평탄화 (over-smoothing) 시켜 중요한 정보를 잃을 수 있습니다.
- 기울기 (Gradient) 기반 방법: 전체 네트워크를 집계해야 하거나, 음수 (부정적) 신호를 무시하고 절댓값만 사용하는 경우가 많습니다.
- CAM 기반 방법: 기존 CAM 변형들은 모델이 특정 클래스를 예측하는 '지지적 (positive)' 증거는 강조하지만, 클래스를 배제하는 '억제적 (negative)' 증거를 무시합니다. 이는 모델이 왜 특정 객체를 선택하고 다른 객체는 거부하는지에 대한 대비적 (contrastive) 인 설명을 제공하지 못합니다.
- Shapley 기반 방법: 계산 비용이 매우 높고 데이터셋별 추가 학습이 필요합니다.

2. 제안 방법론: BiCAM (Methodology)

저자들은 **BiCAM(Bidirectional Class Activation Mapping)**을 제안하여 ViT 의 예측에 기여하는 '지지적 (Supportive)' 요소와 '억제적 (Suppressive)' 요소를 모두 포착하는 양방향 설명 방법을 개발했습니다.

핵심 기술 요소:

부호화된 기여도 보존 (Preserving Signed Contributions):
- 기존 CAM 방법들이 ReLU 등을 통해 음수 값을 제거하는 것과 달리, BiCAM 은 계산 전체 과정에서 부호 (양수/음수) 를 유지합니다.
- 양수 (Red): 모델이 해당 클래스를 예측하도록 돕는 지지적 증거 (예: 코끼리 이미지에서 코끼리 부분).
- 음수 (Blue): 모델이 해당 클래스를 예측하지 않도록 방해하거나 다른 클래스를 지지하는 억제적 증거 (예: 코끼리 이미지에서 배경이나 다른 동물인 얼룩말 부분).
전략적 레이어 집계 (Strategic Layer Aggregation):
- ViT 의 모든 레이어를 사용하는 대신, **클래스 판별 정보가 집중된 깊은 레이어 (후반부)**를 선택적으로 집계합니다.
- 이론적 근거: Raghu et al. 의 연구에 따르면 클래스 판별 정보는 깊은 레이어에 집중됩니다.
- 구현: 총 레이어 수 $L$ 중 마지막 $\ell = 2L/3$ 개의 레이어만 선택하여 어텐션 맵, 값 (Value) 프로젝션, 클래스별 기울기를 추출하고 단순 합산 (summation) 으로 집계합니다. 이는 복잡한 재귀 연산이나 가중치 조합을 피하여 계산 효율성을 높입니다.
BiCAM 할당 메커니즘 (Attribution Mechanism):
- Step 1: 선택된 레이어에서 CLS 토큰에서 패치까지의 어텐션 맵과 값 (Value) 을 추출합니다.
- Step 2: 클래스 로짓에 대한 [CLS] 토큰 임베딩의 기울기를 역전파하여 계산합니다.
- Step 3: 기울기로 가중치를 부여한 값 (Value) 과 어텐션 맵을 요소별 곱 (element-wise multiplication) 하여 레이어별 마스크를 생성하고, 이를 합산합니다.
- 특징: 계산 과정에서 ReLU 나 클리핑을 적용하지 않아 양수와 음수 기여도가 모두 보존됩니다.
PNR (Positive-to-Negative Ratio):
- 정의: 지지적 기여도 (양수) 와 억제적 기여도 (음수) 의 비율을 정량화한 지표입니다.
  $PNR = \frac{\sum \text{ReLU}(M_i)}{\sum \text{ReLU}(-M_i) + \epsilon}$
- 적용: 청정 (Clean) 샘플은 의미 있는 영역에 구조화된 양/음의 균형을 보이지만, 적대적 예제 (Adversarial Examples) 는 이 균형을 왜곡시킵니다. PNR 의 변화량 ( $\Delta PNR$ ) 을 통해 모델 재학습 없이 적대적 공격을 탐지할 수 있습니다.

3. 주요 기여 (Key Contributions)

BiCAM 제안: ViT 기반 모델에 대해 단일 순전파 - 역전파 (forward-backward pass) 로 지지 및 억제 요인을 모두 강조하는 양방향 할당 방법을 제안했습니다.
PNR 지표 개발: BiCAM 의 양방향 할당을 기반으로 한 간단한 지표 PNR 을 도입하여, 재학습 없이 경량화된 적대적 예제 탐지가 가능함을 증명했습니다.
전략적 레이어 집계: 클래스 판별 신호가 집중된 깊은 레이어에 초점을 맞춘 체계적인 레이어 집계 전략을 제시하여 효율성과 정확성을 동시에 확보했습니다.
광범위한 검증: ImageNet, VOC, COCO 데이터셋에서 국소화 (Localization), 충실도 (Faithfulness), 효율성, 일반화 성능을 입증했습니다.

4. 실험 결과 (Results)

국소화 성능 (Localization):
- ImageNet: BiCAM 은 다른 모든 방법 (Attn Rollout, LRP, AGCAM 등) 보다 높은 IoU(0.5419), F1(0.6624), Recall(0.9288) 을 기록했습니다.
- VOC 및 COCO: 지지 채널 (Pos.) 에서 모든 기준보다 우수한 성능을 보였으며, 억제 채널 (Neg.) 또한 무작위 노이즈가 아닌 의미 있는 경쟁 영역을 포착함을 보여주었습니다.
충실도 (Faithfulness):
- 특징 제거 실험 (Feature Removal) 을 통해 BiCAM 이 모델의 예측과 할당 중요도 간의 정렬이 가장 뛰어나다는 것을 입증했습니다 (Faithfulness 점수: ImageNet 기준 0.3824 로 최고).
적대적 탐지 (Adversarial Detection):
- PGD, C&W, MI-FGSM 공격에 대해 PNR 기반 탐지 시 AUROC 0.796, AUPR 0.763 의 높은 성능을 보였습니다. 이는 추가 학습 없이도 효과적인 탐지가 가능함을 의미합니다.
계산 효율성:
- ViT-B/16 모델에서 LRP 보다 8.4 배 빠르고, 메모리 사용량이 현저히 적으며, ViT-Shapley 와 달리 추가 학습 시간이 0 입니다.
일반화: DeiT, Swin 등 다양한 ViT 아키텍처에서도 최소한의 수정으로 적용 가능하며 일관된 양방향 할당 맵을 생성합니다.

5. 의의 및 결론 (Significance)

해석 가능성의 패러다임 전환: 기존에 무시되던 '부정적 (억제적)' 신호를 모델 해석의 핵심 요소로 재조명했습니다. 이는 모델이 무엇을 '보았는지'뿐만 아니라 무엇을 '배제했는지'를 설명하여 더 풍부하고 대비적인 해석을 가능하게 합니다.
신뢰할 수 있는 AI: 고위험 분야에서 ViT 의 의사결정 과정을 투명하게 만들어 신뢰성을 높입니다.
실용적 보안 도구: PNR 은 별도의 학습 없이도 적대적 공격을 탐지할 수 있는 경량화된 도구로, ViT 기반 시스템의 보안 강화에 기여합니다.
향후 방향: 다중 모달 (Multi-modal) 설정으로의 확장, 분포 외 (Out-of-Distribution) 탐지, 그리고 억제 패턴을 활용한 아키텍처 개선 등의 연구가 가능함을 시사합니다.

이 논문은 Vision Transformer 의 해석 가능성을 높이기 위해 양방향 (Bidirectional) 관점의 중요성을 강조하며, 이를 통해 더 정확하고 신뢰할 수 있는 AI 모델을 구축할 수 있음을 보여줍니다.

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

🎨 1. 문제: AI 는 "왜" 그걸 보았는지 말해주지 않는다

💡 2. 해결책: "BiCAM" (양방향 설명 도구)

⚖️ 3. 새로운 발견: "PNR" (정답 vs 오답의 비율)

🚀 4. 왜 이것이 중요한가요?

📝 요약

1. 문제 제기 (Problem Statement)

2. 제안 방법론: BiCAM (Methodology)

핵심 기술 요소:

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach