Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Each language version is independently generated for its own context, not a direct translation.

병리학자들은 거대한 조직 슬라이드 (Whole Slide Image) 를 현미경으로 보며 병을 진단합니다. 이 슬라이드는 수천 개의 작은 조각 (패치) 으로 나뉘어 있습니다.

AI 의 역할: AI 는 이 수천 개의 조각을 한 번에 보고 "이 환자는 암입니다"라고 결론을 내립니다. 이를 **다중 인스턴스 학습 (MIL)**이라고 합니다.
기존의 문제: AI 가 "어떤 조각이 가장 중요해서 암이라고 판단했는지" 보여주기 위해 **히트맵 (Heatmap, 열지도)**을 그립니다. 마치 범인이 숨어있는 곳을 빨간색으로 표시하는 것 같죠.
- 하지만 지금까지는 AI 가 만든 이 '빨간색 지도'가 진짜로 AI 가 생각한 이유와 일치하는지 확인해 본 적이 거의 없었습니다. 그냥 "오, 빨간색이 여기 있네? 아마 여기가 중요하겠지?"라고 믿고 넘어갔던 거죠.

저자들은 이 지도가 AI 의 진짜 추리 과정을 faithfully(충실하게) 반영하는지 확인하는 새로운 방법을 개발했습니다.

비유: "범인 제거 게임"
- AI 가 "이 빨간색 조각들이 중요해서 암이라고 판단했다"고 한다면, 그 빨간색 조각들을 하나씩 지워보면 AI 의 결론이 어떻게 변할까요?
- 진짜 지도라면: 중요한 조각을 지울수록 AI 는 "아, 이건 아니야"라고 결론을 바꾸거나 확신이 떨어질 것입니다.
- 가짜 지도라면: 중요한 조각을 지워도 AI 는 여전히 "암이야!"라고 고집을 부릴 것입니다. (즉, 지도가 AI 의 실제 생각과 다르다는 뜻이죠.)
- 저자들은 이 **'조각 지우기 실험 (Patch Flipping)'**을 통해 각 설명 방법의 신뢰도를 점수화했습니다.

저자들은 6 가지 다른 설명 방법 (AI 가 어떻게 생각했는지 보여주는 도구) 을 비교했습니다. 결과는 놀라웠습니다.

실패한 방법 (Attention Heatmap):
- 가장 흔히 쓰이는 '주의 (Attention)' 지도는 가장 신뢰할 수 없었습니다.
- 비유: 마치 범인을 잡으려다 실수로 가장 눈에 띄는 옷을 입은 사람을 지목한 것과 같습니다. AI 가 실제로 그 부분을 보고 판단한 게 아니라, 그냥 "여기가 눈에 띄네"라고 표시한 것뿐입니다.
성공한 방법 (Single, LRP, IG):
- **Single (단일 조각 테스트), LRP(계층별 관련성 전파), IG(적분 기울기)**라는 세 가지 방법이 훨씬 더 AI 의 진짜 생각과 일치했습니다.
- 비유: 이들은 범인의 지문이나 DNA처럼, AI 가 실제로 판단에 사용한 증거를 정확히 찾아냅니다.

이렇게 신뢰할 수 있는 지도를 사용하면 AI 가 숨겨진 비밀을 찾아낼 수 있습니다.

사례 1: 유전자 지도 그리기
- AI 가 조직 슬라이드만 보고 유전자 수치를 예측했는데, 그 '중요한 부분 지도'가 실제 유전자 측정 데이터 (공간 전사체) 와 완벽하게 일치했습니다.
- 의미: AI 가 단순히 암을 진단하는 것을 넘어, 어떤 조직 부위에서 어떤 유전자가 활발한지를 시각적으로 보여줄 수 있다는 뜻입니다. 마치 조직 안에 유전자의 '지도'를 그려준 것과 같습니다.
사례 2: HPV 감염의 숨은 패턴 찾기
- 목과 머리 부위 암에서 HPV 감염을 예측할 때, AI 는 의사들이 미처 눈치채지 못한 세 가지 다른 패턴으로 감염을 찾아냈습니다.
- 비유: 의사들은 "염증이 심한 곳"을 보고 진단했지만, AI 는 "염증이 적은 곳"이나 "특정 세포가 모여 있는 곳"을 보고 다른 방식으로 진단했습니다. 이는 AI 가 인간이 알지 못했던 새로운 병리학적 단서를 발견했음을 의미합니다.

이 논문은 **"AI 의 설명 (히트맵) 을 맹신하지 말고, 검증해야 한다"**는 메시지를 전합니다.

기존: "AI 가 빨간색으로 표시했으니 믿자." (위험할 수 있음)
새로운 접근: "AI 가 빨간색으로 표시한 게 진짜 이유인지, '조각 지우기' 테스트로 확인하자. 그리고 가장 신뢰할 수 있는 도구 (LRP, Single 등) 를 쓰자."

이 연구를 통해 의료 현장에서 AI 가 내린 판단을 더 신뢰할 수 있게 되었고, AI 가 발견한 새로운 생물학적 단서들을 통해 더 나은 치료법을 개발할 수 있는 길이 열렸습니다. 마치 수사팀이 가짜 단서를 걸러내고 진짜 범인의 흔적을 찾아내는 과정과 같습니다.

유사한 논문