On Pitfalls of RemOve-And-Retrain\textit{RemOve-And-Retrain}: Data Processing Inequality Perspective

이 논문은 사후 처리된 어트리뷰션 맵이 정보를 추가하지 않고도 점수를 인위적으로 개선할 수 있으며, 이는 공간적으로 흐릿한 마스크를 향한 체계적인 편향을 드러내어 특징 어트리뷰션 방법론을 정확하게 평가하는 ROAR 벤치마크의 능력을 저해하기 때문에 해당 벤치마크의 타당성이 훼손됨을 입증한다.

원저자: Junhwa Song, Keumgang Cha, Junghoon Seo

게시일 2026-06-12
📖 3 분 읽기☕ 가벼운 읽기

원저자: Junhwa Song, Keumgang Cha, Junghoon Seo

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 셰프가 어떤 요리를 할지 결정하는 과정을 알아내려고 한다고 상상해 보세요. 당신에게는 재료 목록(입력 데이터)과 요리책(신경망)이 있습니다. 셰프의 논리를 이해하기 위해, 당신은 "어트리뷰션 맵(attribution map)"이라는 특별한 도구를 사용합니다. 이 도구는 셰프가 최종적인 맛을 내기 위해 어떤 재료가 가장 중요하다고 생각하는지를 강조해 보여줍니다.

수년 동안 연구자들은 이 강조 도구들이 얼마나 정확한지 확인하기 위해 ROAR(Remove-And-Retrain, 제거 후 재학습)라는 테스트를 사용해 왔습니다. 이 테스트의 논리는 간단합니다:

  1. 강조된 재료들을 가져옵니다.
  2. 그것들을 버립니다(제거합니다).
  3. 남은 재료들만을 사용하여 셰프에게 새로운 레시피를 가르칩니다.
  4. 만약 셰프가 남은 재료들로 요리하는 데 매우 서툴러진다면, 이는 강조 도구가 진짜 중요한 재료를 잘 찾아냈다는 것을 의미합니다. 만약 셰프가 여전히 요리를 잘 해낸다면, 그 도구는 핵심 재료를 놓쳤을 가능성이 높습니다.

문제점: "흐릿한 마스크(Blurry Mask)" 속임수

이 논문은 ROAR 테스트에 숨겨진 결함이 있다고 주장합니다. 알고 보니, 셰프의 레시피를 실제로 더 잘 이해하지 않고도 ROAR 테스트를 "속일" 수 있는 방법이 있다는 것입니다.

저자들은 강조 도구의 출력값을 흐릿하게(blur) 만들면(즉, 뭉툭하게 만들거나 부드럽게 다듬으면), ROAR 테스트에서 종종 더 "좋은" 점수를 얻게 된다는 사실을 발견했습니다. 이 테스트의 세계에서 "더 좋은" 점수란, 재료를 제거했을 때 셰프의 성능이 더 많이 떨어지는 것을 의미합니다.

이 비유를 들어보겠습니다:
강조 도구가 셰프에게 꼭 필요한 특정 향신료 하나를 둘러싸는 날카롭고 정밀한 원을 그린다고 가정해 봅시다.

  • 정직한 방식: 당신은 딱 그 향신료만 제거합니다. 셰프는 조금 힘들어합니다.
  • "흐릿한" 방식: 당신은 같은 원을 가져와서 그것을 넓게 펴서 아주 크고 흐릿한 영역으로 만듭니다. 결과적으로 향신료뿐만 아니라 주변의 다른 무관한 아이템들까지 실수로 함께 제거하게 됩니다.
  • 결과: 너무 많은 것들(실제 향신료를 포함하여)을 제거했기 때문에, 셰프는 처참하게 실패합니다. 그러면 ROAR 테스트는 이렇게 말합니다. "와, 이 강조 도구 정말 대단하네요! 성능을 엄청나게 떨어뜨렸어요!"

하지만 도구가 더 똑똑해진 것은 아니었습니다. 단지 그 도구가 만들어낸 "흐릿한 마스크"가 우연히 더 많은 중요한 것들을 제거했을 뿐입니다.

"정보" 법칙 (데이터 처리 부등식)

이 논문은 **데이터 처리 부등식(Data Processing Inequality)**이라는 수학적 규칙을 사용하여 이를 증명합니다. 이것은 정보에 관한 물리 법칙과 같습니다:

  • 데이터를 처리한다고 해서 새로운 정보를 만들어낼 수는 없습니다.
  • 만약 당신이 선명한 사진을 흐릿하게 만든다면, 당신은 디테일을 잃는 것이지 셰프의 마음속에 있는 새로운 비밀을 얻는 것이 아닙니다.

저자들은 심지어 마스크를 흐릿하게 만드는 것이 셰프의 진정한 논리에 대한 정보를 손실시킴에도 불구하고, 어떻게 ROAR 테스트를 속여서 더 나은 것처럼 보이게 만들 수 있는지 증명했습니다. 즉, 높은 RO의 점수가 반드시 그 도구가 모델을 이해하고 있다는 것을 의미하는 것이 아니라, 단지 그 도구가 더 많은 데이터를 삭제하게 만드는 "흐릿한" 맵을 생성할 수도 있다는 뜻입니다.

실험: 번짐(Smearing) vs 날카로움(Sharp)

이를 증명하기 위해, 연구진은 세 가지 이미지 데이터셋(동물, 자동차, 도로 표지판 사진 등)에 대해 실험을 진행했습니다. 그들은 표준적인 강조 도구들을 가져와서, ROAR 테스트를 실행하기 전에 맵에 간단한 "번짐(smearing)" 기법(가우시안 블러링이나 맥스 풀링 등)을 적용했습니다.

연구 결과:

  • 거의 모든 경우에서, 흐릿한(blurred) 맵들이 원래의 날카로운(sharp) 맵들보다 더 좋은 ROAR 점수를 받았습니다.
  • 또한 그들은 "픽셀 랜덤(Pixel Random, 무작위 점 제거)" 방식과 "블록 랜덤(Block Random, 크고 단단한 사각형 제거)" 방식을 비교했습니다. 더 "흐릿하고" 구조적인 형태인 큰 사각형 방식이 더 많은 유의미한 정보를 제거했고, 더 똑똑하지 않았음에도 불구하고 더 높은 점수를 받았습니다.

결론

이 논문은 우리가 ROAR 테스트를 사용할 때 매우 주의해야 한다고 결론짓습니다. 어떤 방법이 높은 점수를 받았다고 해서, 그것이 AI가 어떻게 작동하는지에 대한 "진실"을 찾아냈다는 뜻은 아닙니다. 그것은 단지 더 많은 이미지를 실수로 삭제하게 만드는 "흐릿한" 마스크를 만드는 방법일 수도 있습니다.

핵심 요점: 점수만 믿지 마세요. 만약 어떤 방법이 더 "흐릿해" 보이고 더 높은 점수를 받는다면, 그것은 더 나은 이해의 징후가 아니라 테스트 자체의 속임수일 수 있습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →