On Pitfalls of $\textit{RemOve-And-Retrain}$: Data Processing Inequality… — 쉬운 설명

원저자: Junhwa Song, Keumgang Cha, Junghoon Seo

게시일 2026-06-12

📖 3 분 읽기☕ 가벼운 읽기

원저자: Junhwa Song, Keumgang Cha, Junghoon Seo

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 셰프가 어떤 요리를 할지 결정하는 과정을 알아내려고 한다고 상상해 보세요. 당신에게는 재료 목록(입력 데이터)과 요리책(신경망)이 있습니다. 셰프의 논리를 이해하기 위해, 당신은 "어트리뷰션 맵(attribution map)"이라는 특별한 도구를 사용합니다. 이 도구는 셰프가 최종적인 맛을 내기 위해 어떤 재료가 가장 중요하다고 생각하는지를 강조해 보여줍니다.

수년 동안 연구자들은 이 강조 도구들이 얼마나 정확한지 확인하기 위해 ROAR(Remove-And-Retrain, 제거 후 재학습)라는 테스트를 사용해 왔습니다. 이 테스트의 논리는 간단합니다:

강조된 재료들을 가져옵니다.
그것들을 버립니다(제거합니다).
남은 재료들만을 사용하여 셰프에게 새로운 레시피를 가르칩니다.
만약 셰프가 남은 재료들로 요리하는 데 매우 서툴러진다면, 이는 강조 도구가 진짜 중요한 재료를 잘 찾아냈다는 것을 의미합니다. 만약 셰프가 여전히 요리를 잘 해낸다면, 그 도구는 핵심 재료를 놓쳤을 가능성이 높습니다.

문제점: "흐릿한 마스크(Blurry Mask)" 속임수

이 논문은 ROAR 테스트에 숨겨진 결함이 있다고 주장합니다. 알고 보니, 셰프의 레시피를 실제로 더 잘 이해하지 않고도 ROAR 테스트를 "속일" 수 있는 방법이 있다는 것입니다.

저자들은 강조 도구의 출력값을 흐릿하게(blur) 만들면(즉, 뭉툭하게 만들거나 부드럽게 다듬으면), ROAR 테스트에서 종종 더 "좋은" 점수를 얻게 된다는 사실을 발견했습니다. 이 테스트의 세계에서 "더 좋은" 점수란, 재료를 제거했을 때 셰프의 성능이 더 많이 떨어지는 것을 의미합니다.

이 비유를 들어보겠습니다:
강조 도구가 셰프에게 꼭 필요한 특정 향신료 하나를 둘러싸는 날카롭고 정밀한 원을 그린다고 가정해 봅시다.

정직한 방식: 당신은 딱 그 향신료만 제거합니다. 셰프는 조금 힘들어합니다.
"흐릿한" 방식: 당신은 같은 원을 가져와서 그것을 넓게 펴서 아주 크고 흐릿한 영역으로 만듭니다. 결과적으로 향신료뿐만 아니라 주변의 다른 무관한 아이템들까지 실수로 함께 제거하게 됩니다.
결과: 너무 많은 것들(실제 향신료를 포함하여)을 제거했기 때문에, 셰프는 처참하게 실패합니다. 그러면 ROAR 테스트는 이렇게 말합니다. "와, 이 강조 도구 정말 대단하네요! 성능을 엄청나게 떨어뜨렸어요!"

하지만 도구가 더 똑똑해진 것은 아니었습니다. 단지 그 도구가 만들어낸 "흐릿한 마스크"가 우연히 더 많은 중요한 것들을 제거했을 뿐입니다.

"정보" 법칙 (데이터 처리 부등식)

이 논문은 **데이터 처리 부등식(Data Processing Inequality)**이라는 수학적 규칙을 사용하여 이를 증명합니다. 이것은 정보에 관한 물리 법칙과 같습니다:

데이터를 처리한다고 해서 새로운 정보를 만들어낼 수는 없습니다.
만약 당신이 선명한 사진을 흐릿하게 만든다면, 당신은 디테일을 잃는 것이지 셰프의 마음속에 있는 새로운 비밀을 얻는 것이 아닙니다.

저자들은 심지어 마스크를 흐릿하게 만드는 것이 셰프의 진정한 논리에 대한 정보를 손실시킴에도 불구하고, 어떻게 ROAR 테스트를 속여서 더 나은 것처럼 보이게 만들 수 있는지 증명했습니다. 즉, 높은 RO의 점수가 반드시 그 도구가 모델을 이해하고 있다는 것을 의미하는 것이 아니라, 단지 그 도구가 더 많은 데이터를 삭제하게 만드는 "흐릿한" 맵을 생성할 수도 있다는 뜻입니다.

실험: 번짐(Smearing) vs 날카로움(Sharp)

이를 증명하기 위해, 연구진은 세 가지 이미지 데이터셋(동물, 자동차, 도로 표지판 사진 등)에 대해 실험을 진행했습니다. 그들은 표준적인 강조 도구들을 가져와서, ROAR 테스트를 실행하기 전에 맵에 간단한 "번짐(smearing)" 기법(가우시안 블러링이나 맥스 풀링 등)을 적용했습니다.

연구 결과:

거의 모든 경우에서, 흐릿한(blurred) 맵들이 원래의 날카로운(sharp) 맵들보다 더 좋은 ROAR 점수를 받았습니다.
또한 그들은 "픽셀 랜덤(Pixel Random, 무작위 점 제거)" 방식과 "블록 랜덤(Block Random, 크고 단단한 사각형 제거)" 방식을 비교했습니다. 더 "흐릿하고" 구조적인 형태인 큰 사각형 방식이 더 많은 유의미한 정보를 제거했고, 더 똑똑하지 않았음에도 불구하고 더 높은 점수를 받았습니다.

결론

이 논문은 우리가 ROAR 테스트를 사용할 때 매우 주의해야 한다고 결론짓습니다. 어떤 방법이 높은 점수를 받았다고 해서, 그것이 AI가 어떻게 작동하는지에 대한 "진실"을 찾아냈다는 뜻은 아닙니다. 그것은 단지 더 많은 이미지를 실수로 삭제하게 만드는 "흐릿한" 마스크를 만드는 방법일 수도 있습니다.

핵심 요점: 점수만 믿지 마세요. 만약 어떤 방법이 더 "흐릿해" 보이고 더 높은 점수를 받는다면, 그것은 더 나은 이해의 징후가 아니라 테스트 자체의 속임수일 수 있습니다.

기술 요약: RemOve-And-Retrain의 함정에 대하여: 데이터 처리 부등식 관점에서의 고찰

문제 정의

ROAR(RemOve-And-Retrain) 벤치마크는 기계론적 해석 가능성(mechanistic interpretability) 분야에서 특징 기여도(feature attribution) 방법을 평가하기 위해 널리 채택되는 프로토콜이다. ROAR의 핵심 전제는 만약 기여도 방법이 모델의 결정에 중요한 특징을 올바르게 식별한다면, 해당 특징들을 제거하고 모델을 재학습시켰을 때 정확도가 크게 하락할 것이라는 점이다. 그러나 정보 이론적 관점에서 ROAR의 타당성은 아직 충분히 탐구되지 않았다.

본 논문은 ROAR가 기여도 맵(attribution map)이 모델의 결정 함수에 대한 정보를 실제로 담고 있는지를 판단하는 지표로서 얼마나 신뢰할 수 있는지에 대해 의문을 제기한다. 저자들은 모델 및 데이터와 무관한(agnostic) 기여도 맵의 후처리(post-processing)를 통해 ROAR 점수를 인위적으로 개선할 수 있다고 가설을 세운다. 이러한 후처리는 데이터 처리 부등식(Data Processing Inequality, DPI)에 의해 결정 함수에 대한 정보를 추가할 수 없음에도 불구하고, 여전히 더 나은 ROAR 점수를 산출할 수 있다. 이는 우수한 ROAR 순위가 기여도 방법의 진정한 정보성보다는 특정 마스크 기하 구조(예: 공간적 흐릿함)에 대한 벤치마크의 민감도 편향을 반영할 수 있음을 시사한다.

방법론

저자들은 구조적 인과 모델(structural causal models)을 이용한 이론적 분석과 실제 데이터셋에 대한 경험적 검증을 결합하여 사용한다.

이론적 프레임워크 (데이터 처리 부등식):
- 저자들은 기여도 맵 $A$ 가 입력 $X$ 와 모델 측 변수 $Z$ (결정 함수 및 설명자 정체성을 나타냄)로부터 생성되는 ROAR 데이터 생성 과정을 구조적 인과 모델을 사용하여 공식화한다.
- 저자들은 $X, Y, Z$ 에 직접 접근하지 않고 오직 $A$ 만을 통해 $A$ 를 $\tilde{A}$ 로 변환하는 후처리 함수 $k(\cdot)$ 를 도입한다.
- 정리 3.1은 어떠한 이러한 불가지론적(agnostic) 후처리에 대해서도 조건부 상호 정보량 $I(Z; \tilde{A} | X)$ 가 $I(Z; A | X)$ 보다 작거나 같음을 확립한다. 이는 후처리가 맵이 보유한 모델에 대한 정보를 증가시킬 수 없음을 확인해 준다.
- 정리 3.2는 수정된 입력과 레이블 사이의 상호 정보량 $I(\tilde{X}'_t; Y)$ 가 $I(X'_t; Y)$ 보다 엄격하게 낮아질 수 있는 후처리 $k$ 를 구성할 수 있음을 보여주는 반례를 제공한다. 여기서 $I(\cdot; Y) = 0$ 임에도 불구하고 그러하다. ROAR의 맥락에서 $I(\cdot; Y)$ 가 낮아지는 것은 재학습된 정확도가 낮아지는 것에 해당하며, 이는 더 "나은" 점수로 해석된다. 이는 ROAR의 개선이 반드시 기여도가 모델에 대해 더 많은 정보를 가지고 있음을 의미하지 않는다는 것을 증명한다.
경험적 구현:
- 마스크 형태에 따른 ROAR의 반응을 테스트하기 위해, 저자들은 두 가지 단순한 불가지론적 후처리 함수인 **가우시안 평활화(Gaussian smoothing)**와 **맥스 풀링(Max-pooling)**을 기여도 맵에 적용한다.
- 이 연산들은 공간적으로 일관되거나 "흐릿한" 또는 블록 형태의 마스크를 생성하는 경향이 있으며, 이는 구조화된 콘텐츠를 더 효과적으로 제거하는 "BlockRandom" 베이스라인과 유사하다.
- 실험에는 CIFAR-10, SVHN, CUB-200의 세 가지 데이터셋에 대해 ROAR 및 ROAD(RemOve-And-Retrain with Drop) 프로토콜이 활용된다.
- 평가 대상 기여도 방법으로는 Input-Gradient, Grad*Input, Integrated Gradients, SmoothGrad, VarGrad, Grad-CAM 및 이들의 제곱 형태가 포함된다.

주요 결과

이론적 발견: 저자들은 불가지론적 후처리가 결정 함수에 대한 정보를 추가하지 않으면서도 ROAR 점수를 엄격하게 개선(재학습 정확도를 낮춤으로써)할 수 있음을 데이터 처리 부등식을 근거로 증명한다.
경험적 발견:
- 실험 결과, 마스크의 "흐릿함(blurriness)"과 향상된 ROAR/ROAD 성능 사이에 일관된 상관관계가 있음이 나타났다.
- 기여도 맵에 가우시안 또는 맥스 풀링 후처리를 적용했을 때, 대다수의 경우에서 재학습된 정확도가 낮아졌다(더 나은 RORO 점수). 구체적으로, ROAR 벤치마크에서 맥스 풀링은 74/81번의 비교에서 정확도를 낮추었으며, 가우시안 평활화는 76/81번에서 그러했다. ROAD 변형에서도 유사한 경향이 관찰되었다.
- 이 결과는 벤치마크가 기여도의 모델 내부 로직에 대한 충실도보다는 마스크의 공간적 구조(블록 형태나 흐릿한 제거를 선호함)에 민감하다는 것을 보여준다.

핵심 기여

이론적 증명: 본 논문은 모델/데이터 불가지론적 후처리가 결정 함수에 대한 정보를 추가하지 않고도 ROAR 점수를 개선할 수 있다는 것을 데이터 처리 부등식에 기반하여 공식적으로 증명한다.
구조적 인과 모델: 저자들은 벤치마크의 실패 모드를 격리하기 위해 ROAR 데이터 생성 과정에 대한 공식적인 반례와 구조적 인과 모델을 구축한다.
흐릿함 편향(Blurriness Bias) 식별: 본 연구는 ROAR(및 ROAD) 지표가 공간적으로 흐릿한 마스크를 선호하는 지속적인 편향을 가지고 있음을 밝혀내며, 이러한 지표들이 기계론적 이해를 향상시키지 않는 변환에 의해 최적화될 수 있음을 입증한다.
실무적 가이드라인: 저자들은 해석 가능성 방법의 벤치마킹 시 더 신중한 접근을 권고하며, ROAR 결과를 해석할 때 마스크의 기하학적 특성을 고려할 것을 촉구한다.

의의 및 주장

본 논문은 개선된 ROAR 순위가 그 자체로 기여도 맵이 모델에 대한 더 많은 정보를 담고 있다는 증거가 될 수 없다고 주장한다. 대신, 그러한 개선은 단순히 마스크 생성 파이프라인이 데이터 분포와 어떻게 상호작용하는지, 특히 구조화된 콘텐츠를 효율적으로 제거하는 마스크를 선호하는 방식을 반영할 수 있다.

이 연구의 의의는 기계론적 이해를 검증하는 과정에 대한 경고적 입장에 있다. 저자들은 이러한 함정을 해결하지 않는다면, 연구자들이 진정으로 결정 관련 구조를 드러내는 방법과 단지 시각적으로 보기 좋지만 정보가 없는 살리언시 맵(saliency maps)을 생성하는 방법을 신뢰성 있게 구분할 수 없다고 주장한다. 이러한 결과는 현재의 벤치마크가 진정한 기여도 충실도보다 특정 마스크 기하 구조를 의도치 않게 보상할 수 있음을 시사하며, 안전 관련 모델 감사 및 회로 발견(circuit discovery)에서 특징 기여도 방법을 평가할 때 더 미묘한 접근 방식이 필요함을 보여준다.

On Pitfalls of RemOve-And-Retrain\textit{RemOve-And-Retrain}RemOve-And-Retrain: Data Processing Inequality Perspective