Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

이 논문은 CNN 의 모든 합성곱 계층에서 그라디언트 기반 설명을 집계하고 백분위수 기반 윈소라이제이션을 적용하여 다중 스케일 정보를 포착하고 사용자가 의미 수준을 조절할 수 있는 새로운 시각적 설명 방법인 'Winsor-CAM'을 제안하며, 의료 및 자율 시스템 등 안전이 중요한 분야에서 기존 방법들보다 뛰어난 국소화 및 충실도 성능을 입증했습니다.

Casey Wall, Longwei Wang, Rodrigue Rizk, KC Santosh

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ AI 의 눈: "무엇을 보고 판단했을까?"

우리가 사진을 보고 "저건 개야"라고 말할 때, 우리는 개 전체를 보고 판단합니다. 하지만 AI(딥러닝) 는 사진을 아주 작은 조각들 (픽셀) 로 쪼개서 여러 단계의 과정을 거쳐 판단합니다.

기존의 유명한 방법인 **'Grad-CAM'**은 AI 가 결정을 내릴 때 마지막 단계에서만 무엇을 보았는지 알려줍니다.

  • 비유: 마치 시험을 치른 학생에게 "너는 마지막 문제만 풀었어"라고 말하는 것과 같습니다. 하지만 학생은 처음부터 끝까지 문제를 풀었을 텐데, 마지막 단계만 보면 중요한 단서 (예: 문제의 첫 문장이나 중간 계산 과정) 를 놓칠 수 있습니다.

🎯 새로운 방법: 윈저-CAM (Winsor-CAM)

이 논문은 "그럼 처음부터 끝까지 모든 단계를 다 보자!"라고 제안합니다. 하지만 모든 단계를 다 합치면 소음이 너무 많아서 오히려 혼란스러울 수 있습니다.

여기서 윈저-CAM이 등장합니다. 이 방법은 두 가지 핵심 아이디어를 사용합니다.

1. 모든 층 (Layer) 을 한 번에 보기 (다중 스케일 통합)

AI 는 사진을 볼 때, 처음에는 '모서리'나 '색깔' 같은 간단한 것을 보고, 나중에는 '코'나 '귀' 같은 복잡한 모양을 봅니다.

  • 비유: 요리사를 생각해보세요.
    • 초기 층: 재료를 다지는 것 (소금, 후추, 채소).
    • 중간 층: 볶는 것.
    • 최종 층: 완성된 요리.
    • 기존 방법은 완성된 요리만 보여줬다면, 윈저-CAM은 다진 채소부터 볶는 과정까지 모든 과정의 기록을 한데 모아서 보여줍니다.

2. '윈저화 (Winsorization)': 극단적인 소음 제거하기

모든 과정을 다 모으면, 너무 큰 소리가 나는 부분 (예: 갑자기 튀어 오른 소음) 이 전체를 지배할 수 있습니다.

  • 비유: 회의실 상황을 상상해보세요.
    • 회의에 10 명이 참여했는데, 1 명이 너무 크게 소리를 지르거나 (극단적인 값), 다른 1 명이 너무 조용해서 (무의미한 값) 의견이 왜곡될 수 있습니다.
    • 윈저-CAM은 "너무 큰 소리는 적당히 줄이고, 너무 작은 소리는 무시하자"는 규칙을 적용합니다.
    • 핵심: 이 규칙을 사용자가 조절할 수 있습니다.
      • "저는 세부적인 것 (초기 층) 을 더 보고 싶어요" → 설정을 낮게.
      • "저는 큰 그림 (최종 층) 을 더 보고 싶어요" → 설정을 높게.
    • 마치 라디오의 볼륨 조절이나 필터를 돌려서 원하는 소리를 선명하게 듣는 것과 같습니다.

🏆 왜 이 방법이 더 좋은가요?

논문은 이 방법이 기존 방법들보다 훨씬 정확하다고 증명했습니다.

  1. 정확한 위치 파악 (Localization):

    • 기존 방법은 개가 있는 위치를 대충 가리켰지만, 윈저-CAM 은 개가 정확히 어디에 있는지 정교하게 가리킵니다.
    • 비유: 기존 방법은 "저기 개가 있어"라고 손가락을 대충 가리켰다면, 윈저-CAM 은 "저기 개가 있어"라고 정확히 코를 찍어줍니다.
  2. 의사 결정의 신뢰성 (Fidelity):

    • AI 가 정말로 그 부분을 보고 판단했는지 검증하는 테스트에서도 훨씬 좋은 점수를 받았습니다.
  3. 의료 분야에서도 작동:

    • 일반 사진뿐만 아니라, **내시경으로 보는 장기의 사진 (폴립)**에서도 잘 작동했습니다.
    • 비유: 의사가 AI 를 통해 "이 부분이 암일 가능성이 높은데, 왜 그렇게 생각하죠?"라고 물었을 때, 윈저-CAM 은 "이 부분의 색깔과 모양이 이상해서요"라고 정확한 이유를 보여줍니다.

💡 요약: 이 기술이 가져오는 변화

  • 기존: AI 는 "검은 상자"처럼 보였습니다. 결과만 알려주고, 그 이유는 마지막 단계의 추측에 의존했습니다.
  • 윈저-CAM: AI 는 이제 "투명한 상자"가 되었습니다.
    • 사용자 조절 가능: 전문가 (의사, 연구자) 가 "저는 미세한 결함을 보고 싶어요"라고 하면, AI 는 미세한 부분까지 확대해서 보여줍니다.
    • 신뢰도 상승: AI 가 왜 그런 결론을 내렸는지 명확하게 보여주므로, 인간이 AI 를 더 신뢰하고 안전하게 사용할 수 있게 됩니다.

한 줄 요약:

윈저-CAM은 AI 가 사진을 볼 때의 모든 과정을 모아서, 사용자가 "세부적인 것"과 "큰 그림" 사이에서 원하는 것을 조절하며 볼 수 있게 해주는, AI 의 생각 과정을 투명하게 보여주는 스마트한 돋보기입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →