Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

이 논문은 디지털 병리학에서 다중 인스턴스 학습 (MIL) 모델의 주석 열지도 (heatmap) 의 유효성을 검증하기 위한 새로운 평가 프레임워크를 제시하고, 기존 주의 메커니즘 기반 방법보다 교란 (perturbation) 및 계층별 관련성 전파 (LRP) 같은 기법이 모델 의사결정 메커니즘을 더 정확하게 반영하여 생물학적 통찰력을 제공할 수 있음을 대규모 벤치마크 실험을 통해 입증했습니다.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 거대한 퍼즐과 AI 의 추리

병리학자들은 거대한 조직 슬라이드 (Whole Slide Image) 를 현미경으로 보며 병을 진단합니다. 이 슬라이드는 수천 개의 작은 조각 (패치) 으로 나뉘어 있습니다.

  • AI 의 역할: AI 는 이 수천 개의 조각을 한 번에 보고 "이 환자는 암입니다"라고 결론을 내립니다. 이를 **다중 인스턴스 학습 (MIL)**이라고 합니다.
  • 기존의 문제: AI 가 "어떤 조각이 가장 중요해서 암이라고 판단했는지" 보여주기 위해 **히트맵 (Heatmap, 열지도)**을 그립니다. 마치 범인이 숨어있는 곳을 빨간색으로 표시하는 것 같죠.
    • 하지만 지금까지는 AI 가 만든 이 '빨간색 지도'가 진짜로 AI 가 생각한 이유와 일치하는지 확인해 본 적이 거의 없었습니다. 그냥 "오, 빨간색이 여기 있네? 아마 여기가 중요하겠지?"라고 믿고 넘어갔던 거죠.

2. 연구의 핵심: "지도가 진짜인가, 가짜인가?"를 검증하는 방법

저자들은 이 지도가 AI 의 진짜 추리 과정을 faithfully(충실하게) 반영하는지 확인하는 새로운 방법을 개발했습니다.

  • 비유: "범인 제거 게임"
    • AI 가 "이 빨간색 조각들이 중요해서 암이라고 판단했다"고 한다면, 그 빨간색 조각들을 하나씩 지워보면 AI 의 결론이 어떻게 변할까요?
    • 진짜 지도라면: 중요한 조각을 지울수록 AI 는 "아, 이건 아니야"라고 결론을 바꾸거나 확신이 떨어질 것입니다.
    • 가짜 지도라면: 중요한 조각을 지워도 AI 는 여전히 "암이야!"라고 고집을 부릴 것입니다. (즉, 지도가 AI 의 실제 생각과 다르다는 뜻이죠.)
    • 저자들은 이 **'조각 지우기 실험 (Patch Flipping)'**을 통해 각 설명 방법의 신뢰도를 점수화했습니다.

3. 실험 결과: "누가 진짜 범인 (설명 방법) 인가?"

저자들은 6 가지 다른 설명 방법 (AI 가 어떻게 생각했는지 보여주는 도구) 을 비교했습니다. 결과는 놀라웠습니다.

  • 실패한 방법 (Attention Heatmap):
    • 가장 흔히 쓰이는 '주의 (Attention)' 지도는 가장 신뢰할 수 없었습니다.
    • 비유: 마치 범인을 잡으려다 실수로 가장 눈에 띄는 옷을 입은 사람을 지목한 것과 같습니다. AI 가 실제로 그 부분을 보고 판단한 게 아니라, 그냥 "여기가 눈에 띄네"라고 표시한 것뿐입니다.
  • 성공한 방법 (Single, LRP, IG):
    • **Single (단일 조각 테스트), LRP(계층별 관련성 전파), IG(적분 기울기)**라는 세 가지 방법이 훨씬 더 AI 의 진짜 생각과 일치했습니다.
    • 비유: 이들은 범인의 지문이나 DNA처럼, AI 가 실제로 판단에 사용한 증거를 정확히 찾아냅니다.

4. 실제 적용 사례: AI 가 발견한 새로운 비밀

이렇게 신뢰할 수 있는 지도를 사용하면 AI 가 숨겨진 비밀을 찾아낼 수 있습니다.

  • 사례 1: 유전자 지도 그리기
    • AI 가 조직 슬라이드만 보고 유전자 수치를 예측했는데, 그 '중요한 부분 지도'가 실제 유전자 측정 데이터 (공간 전사체) 와 완벽하게 일치했습니다.
    • 의미: AI 가 단순히 암을 진단하는 것을 넘어, 어떤 조직 부위에서 어떤 유전자가 활발한지를 시각적으로 보여줄 수 있다는 뜻입니다. 마치 조직 안에 유전자의 '지도'를 그려준 것과 같습니다.
  • 사례 2: HPV 감염의 숨은 패턴 찾기
    • 목과 머리 부위 암에서 HPV 감염을 예측할 때, AI 는 의사들이 미처 눈치채지 못한 세 가지 다른 패턴으로 감염을 찾아냈습니다.
    • 비유: 의사들은 "염증이 심한 곳"을 보고 진단했지만, AI 는 "염증이 적은 곳"이나 "특정 세포가 모여 있는 곳"을 보고 다른 방식으로 진단했습니다. 이는 AI 가 인간이 알지 못했던 새로운 병리학적 단서를 발견했음을 의미합니다.

5. 결론: 왜 이 연구가 중요한가?

이 논문은 **"AI 의 설명 (히트맵) 을 맹신하지 말고, 검증해야 한다"**는 메시지를 전합니다.

  • 기존: "AI 가 빨간색으로 표시했으니 믿자." (위험할 수 있음)
  • 새로운 접근: "AI 가 빨간색으로 표시한 게 진짜 이유인지, '조각 지우기' 테스트로 확인하자. 그리고 가장 신뢰할 수 있는 도구 (LRP, Single 등) 를 쓰자."

이 연구를 통해 의료 현장에서 AI 가 내린 판단을 더 신뢰할 수 있게 되었고, AI 가 발견한 새로운 생물학적 단서들을 통해 더 나은 치료법을 개발할 수 있는 길이 열렸습니다. 마치 수사팀이 가짜 단서를 걸러내고 진짜 범인의 흔적을 찾아내는 과정과 같습니다.