Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "검은 상자"와 "최종 판결"만 보는 한계

지금까지의 AI 설명 기술들은 마치 법정에서 최종 판결문만 읽는 것과 비슷했습니다.

기존 방식: AI 가 "이 영화는 나쁜 영화야"라고 말했을 때, 왜 나쁜지 설명해달라고 하면, AI 는 마지막 단계에서 "아마도 '지루하다'라는 단어가 있었기 때문일 거야"라고 대충 말합니다.
한계점: 하지만 AI 는 단순히 마지막 단어만 보고 판단한 게 아닙니다. 문장 전체의 맥락, 문법, 단어들 사이의 복잡한 관계 (예: "비록 배우는 좋지만, 스토리는 지루하다" 같은 반전) 를 여러 단계를 거쳐서 추론했습니다. 기존 기술은 이 **과정 (과거의 생각 흐름)**을 무시하고, **결과 (최종 답변)**만 보고 설명하려다 보니, AI 가 실제로 어떻게 생각했는지 왜곡된 설명을 내놓는 경우가 많았습니다.

💡 해결책: CA-LIG (맥락을 아는 계층별 통합 설명)

이 논문은 CA-LIG라는 새로운 방법을 제안합니다. 이를 **'AI 의 생각 과정을 단계별로 추적하는 탐정'**이라고 상상해 보세요.

1. 계층별 추적 (Layer-wise): "생각의 계단"을 따라가기

AI 는 정보를 처리할 때 여러 층 (Layer) 을 거칩니다.

비유: 요리사가 요리를 할 때, 먼저 재료를 다지고 (1 단계), 양념을 섞고 (중간 단계), 마지막으로 불에 굽는 (최종 단계) 과정을 거칩니다.
기존 방식: 요리가 다 된 접시만 보고 "이 요리는 소금 때문에 짜구나"라고 추측합니다.
CA-LIG 방식: 재료를 다지는 단계부터 양념을 섞는 단계, 굽는 단계까지 모든 과정을 지켜봅니다. "아, 처음엔 소금 양이 적었는데, 중간 단계에서 소금 간을 보충했고, 마지막에 불에 구워지면서 맛이 진해졌구나"라고 과거부터 현재까지의 변화를 모두 설명해 줍니다.

2. 맥락 인식 (Context-Aware): "단어 간의 대화"를 듣기

단순히 "나쁜 단어"가 있는지 보는 게 아니라, 단어들이 서로 어떻게 대화하는지를 봅니다.

비유: "그 사람은 착한 사람이다"와 "그 사람은 착한 척 한다"라는 문장은 '착한'이라는 단어가 같지만, 의미가 정반대입니다.
CA-LIG 방식: AI 가 이 두 문장을 처리할 때, '착한'이라는 단어 자체의 중요도뿐만 아니라, 뒤에 붙은 '척'이라는 단어가 어떻게 '착한'의 의미를 뒤집었는지까지 **단어 간의 관계 (맥락)**를 파악합니다. 마치 대화 내용을 전체적으로 듣고, "아, 저 사람은 착한 척하고 있었구나"라고 정확히 이해하는 것과 같습니다.

3. 통합 설명 (Integrated): "긍정과 부정을 동시에"

기존 기술은 "이 단어가 긍정적이다"라고만 하거나 "이 단어가 부정적이다"라고만 했습니다. 하지만 CA-LIG 는 두 가지를 동시에 보여줍니다.

비유: 영화 리뷰를 쓸 때, "배우는 훌륭했지만 (긍정), 스토리가 형편없었다 (부정)"라고 쓸 때, CA-LIG 는 "배우 부분은 **초록색 (긍정)**으로, 스토리 부분은 **빨간색 (부정)**으로 표시해 줍니다."
효과: AI 가 어떤 단어는 지지하고, 어떤 단어는 반대하면서 결론을 내렸는지 정확한 균형감을 보여줍니다.

🌍 이 방법이 왜 중요한가요? (실제 효과)

이 논문은 이 방법이 다양한 분야에서 잘 작동한다는 것을 증명했습니다.

긴 문서 이해: 책 한 권 분량의 글을 읽을 때, 첫 페이지의 단어와 마지막 페이지의 단어가 어떻게 연결되는지 (긴 거리의 관계) 잘 파악합니다.
저자원 언어: 한국어나 영어처럼 데이터가 많은 언어뿐만 아니라, 에티오피아어 (아마릭어) 처럼 데이터가 적은 언어에서도 AI 가 왜 그런 판단을 내렸는지 정확히 설명해 줍니다.
이미지 인식: 고양이와 개를 구분할 때, 단순히 '귀'만 보고 판단하는 게 아니라, '귀 + 눈 + 코'가 어떻게 조합되어 '고양이'라는 결론에 도달했는지 보여줍니다.

🎯 결론: "왜?"에 대한 더 깊은 대답

이 논문의 핵심은 **"AI 가 마지막에 답을 내놓기까지, 어떤 과정을 거쳐 어떻게 생각했는지 그 전체 흐름을 보여준다"**는 점입니다.

기존의 설명 기술이 **"결과물만 보고 추측"**했다면, CA-LIG 는 **"생각의 과정을 따라가며 설명"**합니다. 덕분에 우리는 AI 가 내린 결정이 얼마나 신뢰할 수 있는지, 그리고 AI 가 실제로 무엇을 보고 판단했는지 훨씬 더 명확하고 인간적으로 이해할 수 있게 되었습니다.

한 줄 요약:

"AI 가 마지막 답을 내기까지, 어떤 계단 (층) 을 올라가고, 어떤 단어들이 서로 대화하며 (맥락) 결론에 도달했는지 하나하나 추적해 주는 새로운 설명 기술입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

트랜스포머 (Transformer) 기반 모델은 다양한 도메인에서 최첨단 성능을 보이지만, 그 깊은 계층적 구조로 인해 예측 과정이 불투명 (Black-box) 합니다. 기존 설명 가능성 (XAI) 방법론들은 다음과 같은 근본적인 한계를 지니고 있습니다.

최종 계층 편향 (Final-layer Bias): 대부분의 방법이 최종 예측 계층에서만 설명을 생성하여, 모델의 초기 계층에서 어떻게 의미 정보가 점진적으로 형성되고 변형되는지 무시합니다.
국소적 vs. 전역적 통합 부재: 기존 방법들은 토큰 수준의 국소적 중요성 (예: Integrated Gradients) 이나 전역적 구조적 상호작용 (예: Attention Flow) 중 하나만 포착할 뿐, 두 관점을 통합하지 못합니다.
컨텍스트 인식 부족: 토큰 간의 상호 의존성, 잔차 연결 (Residual connections), 피드포워드 변환, 그리고 계층 간 정보 흐름과 같은 트랜스포머 아키텍처의 핵심 구조적 요소를 고려하지 못합니다. 특히 어텐션 가중치만으로는 모델의 실제 추론 과정을 신뢰성 있게 설명할 수 없다는 사실이 입증되었습니다.

2. 제안 방법론: CA-LIG 프레임워크 (Methodology)

저자들은 이러한 한계를 극복하기 위해 컨텍스트 인식 계층별 통합 기울기 (Context-Aware Layer-wise Integrated Gradients, CA-LIG) 프레임워크를 제안했습니다. 이는 계층적 설명을 제공하는 통합 프레임워크로, 다음과 같은 4 단계 프로세스로 구성됩니다.

2.1. 계층별 통합 기울기 (Layer-wise Integrated Gradients, LIG)

기존 IG 가 최종 계층에서만 적용되는 것과 달리, CA-LIG 는 **모든 트랜스포머 블록 (Layer)**에서 통합 기울기를 계산합니다.
각 계층 $l$ 에서 입력 토큰 표현 $x^{(l)}$ 과 기준선 (Baseline) $x'^{(l)}$ 사이의 경로를 따라 기울기를 적분하여, 해당 계층에서의 토큰 관련성 (Relevance) 점수를 산출합니다.
이를 통해 토큰의 중요성이 모델의 계층을 통과하며 어떻게 진화하는지 추적할 수 있습니다.

2.2. 어텐션 기울기 계산 (Attention Gradient Computation)

단순한 어텐션 가중치 대신, 목표 클래스 점수 $y_c$ 에 대한 **어텐션 행렬의 기울기 ( $\nabla A^{(b)}$ )**를 계산합니다.
이는 특정 토큰 쌍 간의 연결이 모델의 예측에 얼마나 민감하게 영향을 미치는지 (Class-specific saliency) 를 포착하여, 토큰 간의 구조적 의존성을 반영합니다.

2.3. 관련성 및 어텐션 기울기 융합 (Fusion)

LIG 를 통해 얻은 토큰 수준의 관련성 점수와 어텐션 기울기를 컨텍스트 인식 융합 메커니즘으로 결합합니다.
수식: $R^{(b)}_{context} = \nabla A^{(b)} \odot \text{Norm}(R^{(l)})$
토큰의 국소적 중요도 (LIG) 로 어텐션 민감도를 가중치하여, 개별 토큰의 기여도와 토큰 간 상호작용을 모두 반영한 통합 관련성 맵을 생성합니다.

2.4. 컨텍스트 인식 어트리뷰션 (Context-Aware Attribution)

융합된 어텐션 관련성 행렬을 계층별로 재귀적으로 곱하여 (Rollout), 입력에서 깊은 계층까지의 정보 흐름을 추적합니다.
가변 계수 $\lambda$ 를 통해 어텐션 민감도와 토큰 관련성 간의 균형을 조절할 수 있습니다.
최종적으로 생성된 맵은 부호화된 (Signed) 형태로, 지지하는 증거 (Positive) 와 반대되는 증거 (Negative) 를 구분하여 모델의 내부 추론 과정을 투명하게 보여줍니다.

3. 주요 기여 (Key Contributions)

통합 계층적 프레임워크: 최종 계층에 국한되지 않고 모든 트랜스포머 계층에서 토큰 관련성의 진화를 포착하는 최초의 통일된 XAI 프레임워크를 제안했습니다.
그라디언트 - 어텐션 융합 메커니즘: 계층별 기울기와 어텐션 기울기 구조를 융합하여, 국소적 토큰 관련성과 전역적 상호작용 패턴을 연결했습니다.
컨텍스트 인식 및 관련성 보존: 멀티헤드 어텐션 경로에서 정규화와 관련성 보존을 강제하여, 구조적 맥락을 고려한 해석 가능성을 향상시켰습니다.
광범위한 실증 평가: 감정 분석, 저자원 언어의 혐오 발언 탐지 (아프리카 언어 포함), 긴 문서 분류, 그리고 비전 태스크 (Vision Transformer) 등 다양한 도메인과 모델 (BERT, XLM-R, AfroLM, MAE) 에서 검증되었습니다.

4. 실험 결과 (Results)

정성적 평가 (Qualitative):
- 텍스트: 20 Newsgroups 및 IMDB 데이터셋에서 CA-LIG 는 'God', 'bible', 'atheist' 등 의미 있는 토큰들과 그들의 문맥적 연결 (예: 'evidence' $\to$ 'bible') 을 명확하게 식별했습니다. 기존 방법들 (Attention Rollout, IG 등) 이 [CLS] 토큰에 과도하게 의존하거나 불필요한 토큰에 균일한 점수를 부여하는 반면, CA-LIG 는 의미 있는 단어에 집중된 선명한 어트리뷰션 맵을 생성했습니다.
- 비전 (Vision): MAE 모델을 사용한 이미지 분류 (고양이 vs 개) 에서 CA-LIG 는 배경 잡음 대신 객체의 핵심 부분 (눈, 코, 수염) 에 집중하여 더 일관된 시각화를 제공했습니다.
- 저자원 언어: 암하라어 (Amharic) 혐오 발언 탐지에서도 형태론이 풍부한 언어 환경에서 안정적인 관련성 점수를 보였습니다.
정량적 평가 (Quantitative):
- ERASER 벤치마크 (Movie Reviews): 인간이 표기한 근거 (Rationale) 와의 일치도를 측정하는 Token-F1 점수에서 CA-LIG 는 IG, LRP, Attention Rollout 등 기존 최첨단 방법들보다 일관되게 높은 성능을 기록했습니다.
- 비전 태스크 (Perturbation-based AUC): 중요한 패치를 추가/삭제했을 때 모델의 신뢰도 변화 (Insertion/Deletion AUC) 를 측정하여, CA-LIG 가 더 신뢰할 수 있는 (Faithful) 설명을 제공함을 입증했습니다.
계층별 민감도 분석:
- BERT 의 계층별 분석 결과, 초기 계층 (1-4) 은 구문적 특징, 중기 계층 (5-8) 은 의미적 맥락, 후기 계층 (9-12) 은 의사결정 통합을 담당한다는 기존 연구와 일치하는 패턴을 CA-LIG 가 포착함을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 트랜스포머 모델의 "블랙박스" 문제를 해결하기 위해 **계층적 (Hierarchical)**이고 **맥락 인식적 (Context-Aware)**인 설명 방식을 도입했다는 점에서 의의가 큽니다.

신뢰성 향상: 단순한 어텐션 가중치가 아닌, 기울기 기반의 완전성 (Completeness) 속성을 유지하면서 어텐션 구조를 통합함으로써 모델의 실제 추론 과정을 더 정확하게 반영합니다.
범용성: NLP(텍스트) 뿐만 아니라 컴퓨터 비전(이미지) 영역에서도 동일한 프레임워크가 유효함을 입증하여, XAI 방법론의 통합적 접근 가능성을 제시했습니다.
실용적 가치: 모델의 의사결정 과정을 계층별로 추적할 수 있게 함으로써, 모델 디버깅, 편향 탐지, 그리고 신뢰성 있는 AI 시스템 구축에 기여합니다.

결론적으로, CA-LIG 는 기존 XAI 방법론의 한계를 넘어 트랜스포머 모델의 내부 작동 원리를 더 투명하고 신뢰할 수 있게 설명하는 새로운 표준을 제시합니다.