Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

이 논문은 Transformer 모델의 예측을 더 정확하고 맥락에 민감하게 설명하기 위해 계층별 통합 기울기와 어텐션 기울기를 통합한 '맥락 인식 계층별 통합 기울기 (CA-LIG)' 프레임워크를 제안하고 다양한 작업과 모델에서 기존 방법보다 우수한 해석 가능성을 입증합니다.

Melkamu Abay Mersha, Jugal Kalita

게시일 2026-02-19
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "검은 상자"와 "최종 판결"만 보는 한계

지금까지의 AI 설명 기술들은 마치 법정에서 최종 판결문만 읽는 것과 비슷했습니다.

  • 기존 방식: AI 가 "이 영화는 나쁜 영화야"라고 말했을 때, 왜 나쁜지 설명해달라고 하면, AI 는 마지막 단계에서 "아마도 '지루하다'라는 단어가 있었기 때문일 거야"라고 대충 말합니다.
  • 한계점: 하지만 AI 는 단순히 마지막 단어만 보고 판단한 게 아닙니다. 문장 전체의 맥락, 문법, 단어들 사이의 복잡한 관계 (예: "비록 배우는 좋지만, 스토리는 지루하다" 같은 반전) 를 여러 단계를 거쳐서 추론했습니다. 기존 기술은 이 **과정 (과거의 생각 흐름)**을 무시하고, **결과 (최종 답변)**만 보고 설명하려다 보니, AI 가 실제로 어떻게 생각했는지 왜곡된 설명을 내놓는 경우가 많았습니다.

💡 해결책: CA-LIG (맥락을 아는 계층별 통합 설명)

이 논문은 CA-LIG라는 새로운 방법을 제안합니다. 이를 **'AI 의 생각 과정을 단계별로 추적하는 탐정'**이라고 상상해 보세요.

1. 계층별 추적 (Layer-wise): "생각의 계단"을 따라가기

AI 는 정보를 처리할 때 여러 층 (Layer) 을 거칩니다.

  • 비유: 요리사가 요리를 할 때, 먼저 재료를 다지고 (1 단계), 양념을 섞고 (중간 단계), 마지막으로 불에 굽는 (최종 단계) 과정을 거칩니다.
  • 기존 방식: 요리가 다 된 접시만 보고 "이 요리는 소금 때문에 짜구나"라고 추측합니다.
  • CA-LIG 방식: 재료를 다지는 단계부터 양념을 섞는 단계, 굽는 단계까지 모든 과정을 지켜봅니다. "아, 처음엔 소금 양이 적었는데, 중간 단계에서 소금 간을 보충했고, 마지막에 불에 구워지면서 맛이 진해졌구나"라고 과거부터 현재까지의 변화를 모두 설명해 줍니다.

2. 맥락 인식 (Context-Aware): "단어 간의 대화"를 듣기

단순히 "나쁜 단어"가 있는지 보는 게 아니라, 단어들이 서로 어떻게 대화하는지를 봅니다.

  • 비유: "그 사람은 착한 사람이다"와 "그 사람은 착한 척 한다"라는 문장은 '착한'이라는 단어가 같지만, 의미가 정반대입니다.
  • CA-LIG 방식: AI 가 이 두 문장을 처리할 때, '착한'이라는 단어 자체의 중요도뿐만 아니라, 뒤에 붙은 '척'이라는 단어가 어떻게 '착한'의 의미를 뒤집었는지까지 **단어 간의 관계 (맥락)**를 파악합니다. 마치 대화 내용을 전체적으로 듣고, "아, 저 사람은 착한 척하고 있었구나"라고 정확히 이해하는 것과 같습니다.

3. 통합 설명 (Integrated): "긍정과 부정을 동시에"

기존 기술은 "이 단어가 긍정적이다"라고만 하거나 "이 단어가 부정적이다"라고만 했습니다. 하지만 CA-LIG 는 두 가지를 동시에 보여줍니다.

  • 비유: 영화 리뷰를 쓸 때, "배우는 훌륭했지만 (긍정), 스토리가 형편없었다 (부정)"라고 쓸 때, CA-LIG 는 "배우 부분은 **초록색 (긍정)**으로, 스토리 부분은 **빨간색 (부정)**으로 표시해 줍니다."
  • 효과: AI 가 어떤 단어는 지지하고, 어떤 단어는 반대하면서 결론을 내렸는지 정확한 균형감을 보여줍니다.

🌍 이 방법이 왜 중요한가요? (실제 효과)

이 논문은 이 방법이 다양한 분야에서 잘 작동한다는 것을 증명했습니다.

  1. 긴 문서 이해: 책 한 권 분량의 글을 읽을 때, 첫 페이지의 단어와 마지막 페이지의 단어가 어떻게 연결되는지 (긴 거리의 관계) 잘 파악합니다.
  2. 저자원 언어: 한국어나 영어처럼 데이터가 많은 언어뿐만 아니라, 에티오피아어 (아마릭어) 처럼 데이터가 적은 언어에서도 AI 가 왜 그런 판단을 내렸는지 정확히 설명해 줍니다.
  3. 이미지 인식: 고양이와 개를 구분할 때, 단순히 '귀'만 보고 판단하는 게 아니라, '귀 + 눈 + 코'가 어떻게 조합되어 '고양이'라는 결론에 도달했는지 보여줍니다.

🎯 결론: "왜?"에 대한 더 깊은 대답

이 논문의 핵심은 **"AI 가 마지막에 답을 내놓기까지, 어떤 과정을 거쳐 어떻게 생각했는지 그 전체 흐름을 보여준다"**는 점입니다.

기존의 설명 기술이 **"결과물만 보고 추측"**했다면, CA-LIG 는 **"생각의 과정을 따라가며 설명"**합니다. 덕분에 우리는 AI 가 내린 결정이 얼마나 신뢰할 수 있는지, 그리고 AI 가 실제로 무엇을 보고 판단했는지 훨씬 더 명확하고 인간적으로 이해할 수 있게 되었습니다.

한 줄 요약:

"AI 가 마지막 답을 내기까지, 어떤 계단 (층) 을 올라가고, 어떤 단어들이 서로 대화하며 (맥락) 결론에 도달했는지 하나하나 추적해 주는 새로운 설명 기술입니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →