상상해 보세요. 매우 똑똑하지만 신비로운 "블랙박스" 컴퓨터 프로그램 (심층 신경망) 이 유방 조직 샘플의 사진을 보고 양성인지 악성인지 결정한다고 가정해 봅시다. 당신은 그것이 무엇을 결정했는지는 알지만, 왜 그렇게 결정했는지는 전혀 모릅니다. 이는 마치 의사가 진단을 내려주지만 X 선 사진을 보여주거나 그 이유를 설명하는 것을 거부하는 것과 같습니다.

이를 해결하기 위해 과학자들은 "설명 가능한 AI(XAI)" 도구를 발명했습니다. 이러한 도구들은 블랙박스의 논리를 설명하려는 다양한 통역사라고 생각하세요. 그러나 지금까지 이러한 통역사들은 완전히 다른 언어로 말해 왔습니다:

GradCAM은 기울기를 사용하여 이미지상의 "핫스팟"을 가리킵니다.
SHAP은 "이 특성을 제거하면 어떻게 될까?"라는 게임을 합니다.
LIME은 특정 이미지를 중심으로 간단한 지역 지도를 구축합니다.
Integrated Gradients는 빈 이미지에서 실제 이미지까지 경로를 추적합니다.

문제점은 무엇일까요? 그들의 답변을 비교할 수 없었다는 것입니다. 이는 환산 공식 없이 마일로 그려진 지도와 킬로미터로 그려진 지도를 비교하려는 것과 같습니다.

GRALIS 등장: 범용 통역사

이 논문은 GRALIS(Gradient-Riesz Averaged Locally-Integrated Shapley) 를 소개합니다. GRALIS 를 단순히 새로운 도구가 아니라, 이러한 서로 다른 통역사들이 실제로는 서로 다른 억양을 가진 동일한 근본 언어를 사용하고 있음을 증명하는 마스터 프레임워크로 생각하세요.

여기 간단한 비유로 풀어낸 핵심 아이디어가 있습니다:

1. "범용 레시피"(정준형)

저자들은 GradCAM, SHAP, LIME, Integrated Gradients 의 구체적인 트릭을 제거하면, 이 모든 것이 정확히 같은 수학적 레시피를 따른다는 것을 발견했습니다. 이 모두는 기여도의 가중 평균을 계산하는 것에 불과합니다.

AI 의 결정을 설명하기 위해 스무디를 만든다고 상상해 보세요.

재료 ( $\Delta$ ): 이는 "한계 기여도"입니다. 특정 특성 (픽셀이나 픽셀 그룹 등) 을 추가하는 것이 AI 의 생각을 얼마나 변화시켰나요?
레시피 책 ( $w$ ): 이는 "가중치 함수"입니다. 각 재료에 얼마나 중요성을 부여할지 결정합니다.
블렌더 ( $Q$ ): 이는 "인덱스 공간"입니다. 모든 것을 섞어주는 용기입니다.

GRALIS 는 AI 의 결정을 설명하는 어떤 공정하고 선형적이며 연속적인 방법도 반드시 이러한 스무디 레시피와 같아야 함을 증명합니다. 이는 **리제 표현 정리 (Riesz Representation Theorem)**라는 유명한 수학 정리에 기반한 것으로, 본질적으로 "무언가를 공정하고 연속적으로 측정하려면 이렇게 해야 한다"고 말합니다.

2. "고장 난 도구" 수정

이 논문은 이전 도구들이 평평한 타이어나 고장 난 엔진이 있는 자동차처럼 특정 결함을 가지고 있음을 지적합니다:

GradCAM은 음수 값을 잘라내는 "ReLU" 필터를 가지고 있었습니다. 저자들은 이 필터가 수학을 무너뜨려 다른 도구들과 비교할 수 없게 만든다고 말합니다. 그들은 이 필터를 제거하여 범용 레시피에 부합하도록 하는 "선형화"된 버전 (GradCAM-lin) 을 제안합니다.
LIME은 종종 전체 예측값과 합계가 맞지 않았습니다 (균형이 맞지 않는 예산과 같습니다). GRALIS 는 "완전성" 공리가 충족되도록 함으로써 이를 수정합니다.
SHAP은 "곡률"(특성이 어떻게 매끄럽게 상호작용하는지) 을 무시했습니다. GRALIS 는 시작점과 끝점뿐만 아니라 특성 사이의 경로를 살펴봄으로써 이 간극을 메웁니다.

3. "연합 게임"

이 논문 중 가장 멋진 통찰 중 하나는 상호작용을 처리하는 방식입니다.
성공이 사람들이 어떻게 협력하는지에 달려 있는 팀 프로젝트를 상상해 보세요.

기존 방법은 보통 "A 는 얼마나 기여했나요?"라고 물었습니다.
GRALIS는 "A 가 B 와 함께 일할 때 A 는 얼마나 기여했나요? A, B, C 가 함께 일할 때는 어떨까요?"라고 묻습니다.

이는 이미지를 협력 게임으로 변환함으로써 이를 수행합니다. 픽셀을 "초픽셀"과 같은 "연합"으로 그룹화하고, 각 그룹이 최종 점수에 얼마나 기여하는지 정확히 계산합니다. 이 논문은 수학적으로 GRALIS 가 이러한 "상호작용 값"을 근사치가 아닌 정확하게 계산함을 증명합니다.

4. "멀티스케일" 뷰

때로는 멀리서 (큰 그림) 이미지를 봐야 할 때도 있고, 가까이서 (상세한 부분) 봐야 할 때도 있습니다.

기존 방법은 보통 하나의 스케일만 선택했습니다.
GRALIS에는 MS-GRALIS(Multi-Scale GRALIS) 라는 기능이 있습니다. 이는 다양한 세부 수준 (줌 인 및 줌 아웃과 유사) 에서 이미지를 보고 "최적의 가중치"를 사용하여 이를 결합합니다. 이는 광각 샷, 미디엄 샷, 클로즈업을 촬영한 후 중요한 세부 사항을 놓치지 않도록 완벽하게 혼합하는 사진가와 같습니다.

5. "증명"(정리)

이 논문은 단순히 "이것이 작동한다"고 말하는 것을 넘어, 다음을 보장하는 7 개의 공식 정리(수학적 증명) 를 제공합니다:

완전성: 설명이 결정의 100% 를 합산합니다.
수렴성: 계산을 여러 번 실행하면 답이 (알려진 오차 한계와 함께) 진실에 점점 더 가까워집니다.
유일성: 이 공식을 작성하는 올바른 방법은 하나뿐입니다.
상호작용: 특성이 서로에 미치는 영향을 정확하게 계산합니다.

6. "테스트 드라이브"

저자들은 유방암 이미지 (BreaKHis) 의 실제 데이터셋에서 이를 테스트했습니다. 단순히 "좋아 보인다"고 말하는 것을 넘어, AI 가 강조한 "중요한" 부분을 제거했을 때 AI 의 예측이 실제로 변하는지 확인했습니다.

결과: 최상위 강조 영역을 제거했을 때, AI 의 "악성" 진단에 대한 신뢰도가 크게 떨어졌습니다 (96% 의 경우). 이는 이 도구가 단순히 추측하는 것이 아니라 실제로 올바른 지점을 찾고 있음을 증명합니다.

요약

GRALIS는 "AI 를 설명하는 이러한 다양한 방법들은 실제로 서로 다른 렌즈를 통해 바라본 동일한 것"이라고 말하는 수학적 통합입니다. 이는 이전 도구들의 결함을 수정하고, 공정한 비교를 가능하게 하며, 설명이 수학적으로 타당하고 완전하며 특성이 어떻게 협력하는지 감지할 수 있음을 보장하는 단일하고 엄격한 프레임워크를 제공합니다.

이는 결국 다양한 방언이 실제로는 동일한 언어임을 깨닫고, 이제 모든 것을 완벽하게 번역하는 사전이 생겼다는 것과 같습니다.

기술 요약: GRALIS – 선형 귀속 (Attribution) 방법을 위한 통합 표준 프레임워크

1. 문제 제기

심층 신경망에 대한 설명 가능한 인공지능 (XAI) 분야는 현재 분열되어 있습니다. GradCAM, SHAP, LIME, 통합 기울기 (IG) 와 같은 주요 귀속 방법들은 서로 다른 이론적 기반에서 작동하여 형식적으로 비교 불가능합니다. 이러한 분열로 인해 방법 선택이 경험적 수준에 머무르게 되며, 서로 다른 기법에서 생성된 귀속 지도는 체계적으로 비교하거나 결합할 수 없습니다.

이러한 방법들을 통합하려는 이전 시도는 부분적이었습니다:

Ancona 등은 기울기 기반 방법 (GradCAM 등) 이 "기울기 $\times$ 입력" 선형 형태로 표현될 수 있음을 입증했으나, 이 구조가 필수적인지 증명하지 않았으며 SHAP 나 LIME 을 포함하지 않았습니다.
Covert 와 Lee는 Shapley 게임을 통해 LIME, SHAP, IG 를 통합했으나, 집계 후 ReLU 가 그들의 프레임워크가 요구하는 선형성을 위반한다는 이유로 GradCAM 은 제외했습니다.

결과적으로 문헌에는 여섯 가지 구조적 격차가 남아 있습니다:

임의의 기준선 (Baseline): IG 는 고정된 기준선에 의존하며, 이 선택에 따라 결과가 극적으로 변합니다.
무시된 곡률: SHAP 는 연합 (coalitions) 을 비교하지만 그 사이의 경로 (곡률) 는 무시합니다.
완전성 부재: LIME 의 계수는 반드시 모델 출력 차이와 합쳐지지 않습니다.
공간적 한계: GradCAM 은 CNN 특징 맵으로 제한되며 밀집 레이어나 Transformer 에는 적용되지 않습니다.
결손된 상호작용: 대부분의 방법은 주변 귀속 (marginal attributions) 을 생성하여 통합된 특징 상호작용을 포착하지 못합니다.
다중 스케일 집계 부재: 수학적 최적 가중치로 추상화 수준 간 귀속을 집계하는 방법은 없습니다.

2. 방법론: GRALIS 프레임워크

본 논문은 Riesz 표현 정리에서 유도된 고유한 표준 구조 하에 선형 가산 귀속 방법을 통합하는 GRALIS(Gradient-Riesz Averaged Locally-Integrated Shapley) 라는 수학적 프레임워크를 제안합니다.

표준형 (Canonical Form)

GRALIS 는 $L^2(Q, \mu)$ 내의 모든 가산적이고 선형이며 연속적인 귀속 함수가 다음과 같은 고유한 표준 표현을 허용한다고 가정합니다:
$\phi_i(f, x, x') = \int_Q w(q) \cdot \Delta_i(f, x, x', q) \, d\mu(q)$
여기서:

$Q$ 는 적분 인덱스 공간 (예: 경로, 연합, 또는 특징 맵) 입니다.
$w(q)$ 는 가중 함수입니다.
$\Delta_i$ 는 특징 $i$ 의 주변 기여도입니다.

이 형태는 기존 방법들을 특수한 경우로 포함합니다:

GradCAM-lin: $Q$ 가 채널과 위치를 나타내는 GradCAM 의 선형화된 버전 (집계 후 ReLU 제거).
SHAP: $Q$ 가 연합을 나타내는 경우.
LIME: $Q$ 가 지역적 교란을 나타내는 경우.
통합 기울기 (Integrated Gradients): $Q$ 가 적분 경로를 나타내는 경우.

주요 알고리즘 구성 요소

조건부 적분 경로: 전역 경로를 적분하는 표준 IG 와 달리, GRALIS 는 특정 연합 $S$ 에 조건부인 경로를 적분합니다. $S$ 외부의 특징은 적분 동안 기준선에 유지되어 해당 연합에 특화된 곡률을 포착합니다.
GRALIS-MC: 정확한 Shapley 값의 지수적 복잡도 ( $O(2^n)$ ) 를 해결하기 위해, 논문은 몬테카를로 근사를 도입합니다. 이는 몬테카를로 샘플링 오차 ( $O(1/\sqrt{m})$ ) 와 리만 적분 오차 ( $O(1/k)$ ) 를 결합한 명시적 오차 한계와 함께 복잡도를 $O(m \cdot n \cdot k)$ 로 줄입니다.
상호작용 값: GRALIS 는 가측 투영 $\rho$ 를 통해 연속 공간으로부터 협력 게임 $v_G$ 를 유도합니다. 이는 근사하는 대신 Möbius 변환을 사용하여 유도된 게임에서 **Shapley 상호작용 값 (SIVs)**을 정확하게 계산합니다.
다중 스케일 확장 (MS-GRALIS): 여러 레이어를 가진 모델의 경우, GRALIS 는 역분산 가중치에서 유도된 가중치 $\lambda_\ell$ 를 사용하여 귀속을 집계하며, 이는 귀속의 총 분산을 최소화합니다.

3. 주요 기여 및 이론적 보장

본 논문은 개별 방법에서 결여된 보장을 제공하는 일곱 가지 형식적 정리를 수립합니다:

T1 (통합 표준형): Riesz 정리를 통해 적분 형태 $(Q, w, \Delta)$ 가 임의의 가산적이고 선형이며 연속적인 귀속 함수에 대한 필수적이고 고유한 표현임을 증명합니다.
T2 (정확한 완전성): 귀속의 합이 모델 출력과 기준선 사이의 차이 ( $f(x) - f(x')$ ) 와 같음을 보장합니다.
T3 (수렴): 샘플링 및 경로 이산화에 대한 명시적 오차 항을 포함하는 GRALIS-MC 에 대한 수렴 한계를 제공합니다.
T4 (정확한 SIVs): GRALIS 가 유도된 협력 게임 $v_G$ 에서 Shapley 상호작용 값을 정확하게 계산하며, 상호작용 추정에서 흔히 발견되는 순환성이나 근사를 피함을 보여줍니다.
T5 (Hoeffding ANOVA): 특징 독립성 하에서 GRALIS 항이 Hoeffding 함수 분해와 일치함을 보여줍니다.
T6 (Sobol 지수): Sobol 민감도 지수가 GRALIS 의 지역적 극한 사례임을 확립합니다.
T7 (다중 스케일 최적화): 역분산 가중치가 다중 스케일 집계를 위한 최적의 가중치를 제공함을 증명합니다.

대수적 정당성: 부록 X 는 Möbius 변환을 사용하여 연속 GRALIS 적분과 이산 Shapley 상호작용 값 사이의 대응을 엄밀하게 정당화하며, GRALIS 가 유효한 협력 게임 $v_G$ 를 구성하고 이에 대해 SIV 를 정확하게 계산함을 증명합니다.

4. 실험적 검증

본 논문은 BreaKHis 데이터셋(1,187 장의 이미지) 을 사용한 유방 조직학 분류 작업과 지식 증류로 훈련된 DenseNet-121 모델을 통해 예비 검증을 보고합니다.

구현: SLIC 슈퍼픽셀 분할 ( $n_{seg} \approx 25$ ), 반대 샘플링을 사용한 30 회 몬테카를로 순열, 10 회 적분 단계를 사용했습니다.
충실도 (Faithfulness): 슈퍼픽셀 삭제를 통해 평가했습니다. 악성 이미지의 경우, 상위 귀속 슈퍼픽셀을 제거하면 **96%**의 사례에서 악성 확신이 감소했습니다 (평균 감소 +0.025 에서 +0.027). 양성 이미지의 경우 효과는 대칭적이며 이론적으로 일관되었습니다 (양성 증거 제거는 악성 확신을 증가시킴).
지표:
- SAL (Saliency): 0.762 (의미론적으로 일관된 영역 식별).
- 압축성 ( $\phi_{active}$ ): 0.39, 특징 공간 변형 대비 19 배 개선.
- 삭제 AUC: 예비 추정치는 악성 이미지에 대해 양의 AUC 와 양성 이미지에 대해 대칭적인 음의 AUC 를 보여주며, 이는 클래스 조건부 구조와 일치합니다.

참고: 저자들은 기본선 방법 (GradCAM, KernelSHAP, LIME, IG) 에 대한 완전한 비교 벤치마크는 동반 논문에서 계획되어 있다고 명시적으로 밝힙니다.

5. 중요성 및 주장

본 논문은 GRALIS 가 선형 귀속 방법에 대한 통합 수학적 정당성을 제공함으로써 XAI 의 분열을 해결한다고 주장합니다. 그 중요성은 다음과 같습니다:

형식적 통합: 선형화된 GradCAM, SHAP, LIME, IG 를 단일 필수 표준형 하에 동시에 포괄하는 최초의 프레임워크입니다.
구조적 완전성: 완전성, 민감도, 국소성, 정확한 상호작용을 포함하여 기존 어떤 방법보다 더 광범위한 공리적 속성 집합 (논문 내 구조적 비교에서 14 개 중 13.5 개) 을 충족합니다.
이론적 엄밀성: 경험적 관찰을 넘어 가산 귀속에 대한 선형성이 구조적 필수 조건임을 증명하여 기울기 기반 방법과 게임 이론적 방법 사이의 "격차"를 해소합니다.
최적성: 다중 스케일 집계를 위한 수학적으로 유도된 최적 가중치를 최초로 제공합니다.

저자들은 현재 검증이 단일 데이터셋과 아키텍처에 대한 개념 증명임을 인정하며 실험 범위에 관해 겸손한 입장을 유지합니다. 그들은 이론적 기여 (정리 1~7) 가 경험적 결과와 무관하게 명시된 선형성 및 연속성 조건 하에서 무조건적으로 유효함을 강조합니다. 이 프레임워크는 Riesz 표현 조건을 벗어난 표준 GradCAM(ReLU 포함) 이나 어텐션 맵과 같은 비선형 방법은 다루지 않으며, 이는 저자들이 향후 과제로 명시적으로 지적한 한계입니다.

GRALIS: A Unified Canonical Framework for Linear Attribution Methods via Riesz Representation