Causal Interpretation of Neural Network Computations with Contribution Decomposition

이 논문은 희소 오토인코더를 활용하여 신경망의 입력-출력 변환 과정을 숨겨진 뉴런의 인과적 기여도로 분해하는 CODEC 방법론을 제안하며, 이를 통해 기존 활성화 분석으로는 파악하기 어려운 계층적 비선형 계산의 메커니즘과 제어 가능성을 규명했습니다.

Joshua Brendan Melander, Zaki Alaoui, Shenghua Liu, Surya Ganguli, Stephen A. Baccus

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"CODEC"**이라는 새로운 방법을 소개하며, 인공지능 (AI) 이 어떻게 생각해서 결론을 내리는지 그 '속내'를 파헤치는 방법을 제안합니다.

기존의 방법들은 AI 가 어떤 단어를 선택했는지, 혹은 어떤 픽셀을 주목했는지만 봤다면, CODEC 는 **"그 픽셀이 AI 의 최종 결정에 얼마나 기여했는지 (기여도)"**를 직접 계산하고 분석합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 방법의 한계: "무대 위의 배우"만 보는 것

기존의 AI 해석 기술들은 마치 연극을 볼 때 **무대 위에서 가장 크게 소리를 지르는 배우 (활성화된 뉴런)**만 주목하는 것과 같습니다.

  • 문제점: 배우가 크게 소리 질렀다고 해서 그 배우가 극의 결말을 바꾼 건 아닐 수 있습니다. 오히려 조용히 서 있는 배우가 극의 흐름을 막거나 (부정적 기여), 다른 배우의 소리를 돋우었을 수도 있거든요.
  • 결과: 우리는 "누가 큰 소리를 냈는지"는 알 수 있어도, "누가 실제로 극을 이끌었는지"는 모릅니다.

2. CODEC 의 등장: "연극의 기여도 분석가"

이 논문은 **CODEC(기여도 분해)**라는 도구를 만들어냈습니다. 이는 각 배우 (뉴런) 가 극의 결말에 **얼마나 기여했는지 (기여도)**를 정량적으로 측정합니다.

  • 핵심 아이디어: 단순히 "소리 (활성화)"를 보는 게 아니라, 그 소리가 극의 결말을 얼마나 밀어 올렸는지 (양수 기여) 혹은 **얼마나 방해했는지 (음수 기여)**를 모두 계산합니다.

3. 주요 발견: "혼란스러운 주방"에서 "명확한 레시피"로

연구진은 이 CODEC 를 이미지 인식 AI(ResNet-50 등) 에 적용해 놀라운 사실을 발견했습니다.

A. 층이 깊어질수록 '단순해진다' (희소성)

  • 비유: AI 의 첫 번째 층은 마치 혼잡한 주방 같습니다. 수많은 요리사 (뉴런) 가 동시에 재료를 자르고, 소스를 뿌리고, 불을 조절합니다. 모두 바쁘지만 누가 무엇을 했는지 알기 어렵습니다.
  • 발견: 하지만 AI 가 깊어질수록 (층이 깊어질수록), 실제로 요리에 기여하는 요리사는 드물어집니다. 마치 "이 요리는 오직 3 명의 요리사만 제대로 참여했다"는 식으로, 불필요한 소음이 사라지고 핵심 기여자들만 남게 됩니다.

B. "좋음"과 "나쁨"이 분리된다 (부정적 기여의 분리)

  • 비유: 처음에는 "맛있는 소스 (긍정)"와 "쓴 소스 (부정)"가 섞여 있어서 어떤 요리사가 무엇을 했는지 구별하기 어렵습니다.
  • 발견: 하지만 AI 가 깊어질수록, 맛을 내는 역할맛을 없애는 역할이 명확하게 분리됩니다. 특정 뉴런은 "이것은 개다"라고 확신하게 만들고, 다른 뉴런은 "아니, 이건 고양이가 아니다"라고 부정하는 역할을 명확히 수행합니다. 이 둘이 섞이지 않고 따로따로 작동한다는 점이 핵심입니다.

4. CODEC 의 마법: "레시피"를 찾아내다

이제 CODEC 는 이 기여도 데이터를 분석해 **공통된 패턴 (모드)**을 찾아냅니다.

  • 비유: 수천 명의 요리사들이 각자 다른 행동을 했지만, CODEC 는 **"이 50 명은 모두 '고양이'를 찾을 때 함께 움직이는 팀이다"**라고 그룹화합니다.
  • 효과:
    1. 조작 가능: 이 '고양이 팀'의 역할을 끄면 (제거하면), AI 는 고양이 사진을 못 봅니다. 반대로 이 팀만 남기고 나머지를 다 끄면, AI 는 고양이만 봅니다.
    2. 이해 가능: 이 팀이 어떤 특징 (귀, 수염 등) 을 보고 판단하는지 시각화할 수 있습니다.

5. 생물학적 뇌에도 적용: "망막의 비밀"

이 방법은 인공지능뿐만 아니라 **동물의 뇌 (예: 척추동물의 망막)**를 연구하는 데에도 쓰였습니다.

  • 비유: 망막의 신경세포들이 어떻게 빛을 처리해서 뇌로 보내는지 알기 어려웠는데, CODEC 를 쓰니 **"이 세포들은 '움직임'을 감지할 때 함께 일하고, 저 세포들은 '색깔'을 감지할 때 함께 일한다"**는 조합이 드러났습니다.
  • 의의: 이는 생물학자들이 실험을 통해 검증할 수 있는 새로운 가설을 자동으로 만들어줍니다.

6. 요약: 왜 이 연구가 중요한가?

지금까지 우리는 AI 가 **"무엇을 보았는지 (활성화)"**만 알 수 있었습니다. 하지만 CODEC 는 **"무엇이 결정을 내리게 했는지 (기여도)"**를 보여줍니다.

  • 기존: "이 사진에서 고양이 귀가 빛났어!" (단순 관찰)
  • CODEC: "이 귀가 빛난 게 아니라, 이 특정 뉴런들이 '귀'를 인식해서 '고양이'라는 결론을 내리게 한 거야! 그리고 그 반대 역할을 하는 뉴런들은 '개'라는 결론을 막았어." (인과적 이해)

이처럼 CODEC 는 AI 의 블랙박스 속을 들여다보게 해주는 가장 정교한 해부도와 같습니다. 이를 통해 우리는 더 안전하고, 더 투명하며, 더 효율적인 AI 를 만들 수 있게 될 것입니다.