Beyond False Stability: High-Noise Drift Gating for Test-Time Adversarial… — 쉬운 설명

원저자: Hashmat Shadab Malik, Muzammal Naseer, Salman Khan

게시일 2026-06-03✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Hashmat Shadab Malik, Muzammal Naseer, Salman Khan

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 아주 똑똑한 AI 비서(CLIP과 같은)를 가지고 있다고 상상해 보세요. 이 비서는 사진을 보고 그것이 무엇인지 정확히 말해줄 수 있으며, 설령 이전에 본 적 없는 종류의 사진이라 할지라도 말이죠. 이 비서는 매우 뛰어나지만, 한 가지 비밀스러운 약점이 있습니다. 누군가 사진에 아주 미세하고 거의 보이지 않는 '디지털 먼지'(적대적 공격)를 추가하면, AI는 완전히 혼란에 빠져 엉뚱한 실수를 저지르게 됩니다.

오랫동안 전문가들은 이러한 까다로운 이미지들을 AI에게 직접 '학습'시켜서 이를 해결하려 노력해 왔지만, 이는 비용이 많이 들고 시간이 오래 걸리는 작업입니다. 그래서 연구자들은 AI를 다시 학습시키지 않고도, AI가 작동하는 도중(테스트 시점에) 문제를 해결할 방법을 찾기 시작했습니다.

다음은 이 논문이 발견한 내용과 그들이 이를 어떻게 해결했는지에 대한 이야기입니다. 이해를 돕기 위해 쉬운 비유를 사용하겠습니다.

문제점: "가짜 평온함"의 함정

이전의 방법들은 이미지를 약간 흔들어 보는 방식(무작위 노이즈를 가하는 것)을 통해 이 '까다로운' 이미지들을 감지하려고 했습니다. 마치 부드러운 미풍을 일으키는 것과 같습니다. 그리고 그 바람에 AI의 답변이 얼마나 흔들리는지를 관찰했습니다.

기존의 아이디어: 그들은 "만약 AI가 부드러운 미풍 속에서도 평온함을 유지하고 별로 흔들리지 않는다면, 그것은 속임수 이미지일 것이다!"라고 생각했습니다. 그들은 이를 "가짜 안정성(False Stability)"이라고 불렀습니다.
결함: 이것은 함정이었습니다. 때때로 깨끗한 이미지(실제 사진)들도 미풍에 흔들릴 수 있는데, 이때 AI는 이를 속임수 이미지라고 착각했습니다. AI가 이 실제 사진들을 '수정'하려고 시도할 때, 오히려 상황을 더 악화시키기도 했습니다. 즉, 나쁜 이미지를 고치려 하면 좋은 이미지를 망가뜨리게 되는 트레이드오프(trade-off)가 발생했습니다.

발견: "폭풍"이 진실을 밝히다

논문의 저자들은 부드러운 미풍 대신 허리케인(강력한 노이즈)을 사용하는 방법을 결정했습니다.

그들은 AI가 보이는 행동에서 놀라운 반전을 발견했습니다:

부드러운 미풍 아래에서 (약한 노이즈): 속임수 이미지들은 기존 방식이 생각했던 것처럼 놀라울 정도로 안정적으로 보입니다.
허리케인 아래에서 (강한 노이즈): 상황이 역전됩니다! 속임수 이미지들은 극도로 불안정해집니다. 이들은 격렬하게 흔들리고 회전합니다. 반면, 실제 깨끗한 이미지들은 견고합니다. 약간 흔들릴 수는 있지만, 제자리를 지킵니다.

비유:
진짜 나무(깨끗한 이미지)와 종이로 만든 나무 모양 판(속임수 이미지)을 생각해 보세요.

선풍기로 살살 바람을 불면, 종이 판은 가볍고 뻣뻣해서 거의 움직이지 않을 수 있습니다. 반면 진짜 나무는 약간 흔들릴 수 있죠.
하지만 거대한 풍동 실험 장치를 켜면, 종이 판은 산산조각 나거나 무질서하게 회전하지만, 뿌리가 깊은 진짜 나무는 그저 휘어졌다가 다시 제자리로 돌아옵니다.

이 논문은 이 현상을 "가짜 안정성"에서 "고노이즈 불안정성(High-Noise Instability)"으로의 전환이라고 부릅니다.

해결책: "드리프트 게이트형" 문지기

저자들은 모든 이미지를 수정하려고 하는 대신(이는 실제 이미지를 망가뜨리기 때문입니다), AI의 문 앞에 똑똑한 문지기를 세웠습니다.

테스트: AI가 이미지를 보기 전, 문지기는 이미지에 빠르고 강한 "흔들림"(높은 노이зу)을 줍니다.
결정:
- 만약 이미지가 격렬하게 흔들린다면(높은 드리프트), 문지기는 "이것은 속임수처럼 보인다! 특수 방어 기제를 사용하여 수정하자"라고 판단합니다.
- 만약 이미지가 안정적으로 유지된다면(낮은 드리프트), 문지기는 "이것은 실제 사진이다. 건드리지 말고 그대로 통과시켜라"라고 판단합니다.

이것을 **드리프트 게이트형 방어(Drift-Gated Defense)**라고 부릅니다. 이는 반드시 필요할 때만 무거운 장비를 가동하는 필터와 같습니다.

결과

이 "똑똑한 문지기" 접근 방식을 통해, 저자들은 다음을 보여주었습니다:

속임수 이미지들을 효과적으로 수정할 수 있었습니다.
실수로 실제 이미지를 망가뜨리는 일을 방지했습니다(불필요하게 실제 이미지를 '수정'하려 하지 않았기 때문입니다).
꽃부터 자동차에 이르기까지 다양한 유형의 이미지와 다양한 유형의 공격에 대해 작동했습니다.
새로운 학습이 필요하지 않았으며, 기존 시스템에 바로 적용할 수 있었습니다.

핵심적인 한계점

논문은 또한 흥미로운 점을 언급했습니다. 만약 공격에 강하도록 이미 학습된(적대적으로 학습된) AI를 사용한다면, 이 "흔들림 테스트"는 더 이상 작동하지 않습니다. 왜냐하면 그런 강력한 AI들은 더 이상 "취약한 종이 판"을 가지고 있지 않기 때문입니다. 즉, 그런 모델에서는 속임수 이미지와 실제 이미지가 허리케인 속에서도 비슷하게 행동합니다. 따라서 이 특정 기술은 표준적인(비강건한) 버전의 AI 모델에서만 유효합니다.

요약하자면: 이 논문은 속임수 이미지가 미풍 속에서는 차분해 보이지만, 폭풍 속에서는 무너진다는 것을 발견했습니다. 폭풍을 통해 가짜를 가려내는 방법을 통해, AI는 실제 사물을 인식하는 능력을 해치지 않으면서 스스로를 보호할 수 있게 되었습니다.

기술 요약: 거짓 안정성을 넘어: 시각-언어 모델의 테스트 타임 적대적 방어를 위한 고노이즈 드리프트 게이팅 (Beyond False Stability: High-Noise Drift Gating for Test-Time Adversarial Defenses in Vision-Language Models)

1. 문제 정의

CLIP과 같은 시각-언어 모델(VLMs)은 강력한 제로샷 일반화 능력을 보여주지만, 적대적 섭동(adversarial perturbations)에는 매우 취약합니다. 적대적 훈련(adversarial training)은 강건성을 높일 수 있지만, 계산 비용이 많이 들고 보조 데이터셋이 필요한 경우가 많으며, 종종 적대적 강건성 이득이 깨끗한 데이터(clean) 정확도 저하를 초래하는 심각한 트레이드오프를 겪습니다.

결과적으로, 최근 연구는 사전 학습된 가중치를 수정하지 않고 작동하는 **테스트 타임 방어(test-time defenses)**에 집중해 왔습니다. 기존 방식들(예: Test-Time Counter Attack [50], Anchor-guided One-step linear Movement [43])은 깨끗한 입력과 적대적 입력이 확률적 섭동(stochastic perturbations)에 다르게 반응한다는 관찰에 기반합니다. 그러나 이러한 방법들은 대개 **약한 노이즈 영역(weak-noise regime)**에서 작동합니다. 이들은 "거짓 안정성(false stability)"—즉, 약한 노이즈 하에서 적대적 예시가 깨끗한 입력보다 더 작은 특징 드리프트(feature drift)를 보이는 현상—을 이용해 방어를 트리거합니다. 논문은 이러한 의존성이 다음과 같은 불리한 '깨끗함-강건함 트레이드오프'를 초래한다고 주장합니다:

거짓 양성(False Positives): 약한 노이즈 드리프트 신호는 신뢰할 수 없기 때문에, 깨끗한 입력을 적대적인 것으로 오인하여 불필요한 방어 개입을 수행하게 만들고, 이는 깨끗한 정확도를 저하시킵니다.
제한된 강건성: 약한 노이즈에 기반한 개입은 적대적 표현을 충분히 불안정하게 만드는 데 실패하는 경우가 많습니다.

2. 방법론

2.1 핵심 통찰: 노이즈 영역의 전이(The Noise-Regime Transition)

저자들은 확률적 섭동과 관련하여 CLIP의 시각적 표현 공간에서 간과되었던 전이 현상을 식별했습니다:

약한 노이즈 영역(Weak-Noise Regime): 적대적 예시는 "거짓 안정성"을 보이며, 깨끗한 입력보다 더 작은 잠재 드리프트(latent drift)를 나타냅니다.
고노이즈 영역(High-Noise Regime): 섭동의 강도가 증가함에 따라, 이 순서가 역전됩니다. 적대적 표현은 현저하게 더 불안정해지며, 훨씬 더 명확한 분리 신호를 생성합니다.

이러한 전이는 다음 항목 전반에서 일관되게 나타납니다:

노이즈 유형 (Uniform, Gaussian).
변환 (Photometric, Geometric).
공격 예산 ( $\epsilon \in \{1/255, 4/255, 8/255\}$ ).
다양한 데이터셋.

기하학적 해석:
저자들은 이를 특징 공간의 기하학을 통해 해석합니다. 깨끗한 이미지는 넓은 의미론적 매니폴드(semantic manifold) 상에 존재하며, 중간 정도의 노이즈는 이 매니폴드 내에서의 국소적 이동을 유발합니다. 반면, 적대적 예시는 취약하고 매니폴드 외부의 국소적 베이슨(off-manifold local basins)에 놓이도록 최적화되어 있습니다.

약한 노이즈 하에서, 적대적 특징들은 이러한 국소적 베이슨에 갇혀 있어 낮은 드리프트를 보입니다.
강한 노이즈 하에서, 섭동은 적대적 특징들을 이 취약한 베이슨 밖으로 밀어내기에 충분하며, 이로 인해 깨끗한 매니폴드를 향한 큰 변위(displacement)를 발생시킵니다. 반대로 깨끗한 특징들은 국소적으로 계속 이동합니다. 이러한 발산은 적대적 입력을 효과적으로 구별하는 고노이즈 드리프트 신호를 생성합니다.

2.2 제안된 솔루션: 드리프트 게이트형 선택적 방어(Drift-Gated Selective Defense)

고노이즈 불안정성 신호에 착안하여, 저자들은 훈련이 필요 없는 플러그인 메커니즘인 **드리프트 게이트형 방어(Drift-Gated Defense)**를 제안합니다.

알고리즘:

탐색(Probe): 테스트 입력 $x$ 에 대해 강한 확률적 섭동 $T_{\epsilon_d}$ (예: $\epsilon = 24/255$ 인 uniform noise)를 적용합니다.
드리프트 측정(Measure Drift): 잠재 드리프트 $\tau(x) = \|F_v(x) - F_v(T_{\epsilon_d}(x))\|_2$ 를 계산합니다.
게이팅(Gate): $\tau(x)$ $τ (x)$ 를 임계값 $\gamma$ $γ$ (약 $\approx 0.85$ $\approx 0.85$ 로 최적화됨)와 비교합니다.
- 만약 $\tau(x) > \gamma$ 이면: 해당 입력은 적대적 특성을 가진 것으로 분류됩니다. 방어적 개입(예: counterattack, anchor interpolation)이 트리거됩니다.
- 만약 $\tau(x) \le \gamma$ 이면: 해당 입력은 깨끗한 것으로 간주됩니다. 표준 CLIP 추론이 방어 개입 없이 진행됩니다.

이 메커니즘은 기존 방어 기법(TTC, AOM, R-TPT)을 필요한 경우에만 선택적으로 트리거함으로써, 깨끗한 정확도를 보존하면서도 강건성을 유지합니다.

3. 주요 기여

노이즈 영역 전이 규명: 본 논문은 비강건(non-robust) CLIP 모델에서 적대적 입력을 탐지하기 위한 최적의 영역이 약한 노이즈가 아니라, 고노이즈의 불안정성임을 밝혀내며 "거짓 안정성"에서 "고노이즈 불안정성"으로의 전이를 규명했습니다. 이는 약한 노이즈가 최적의 영역이라는 기존의 가설에 도전합니다.
가우시안 특정 억제 그 이상: 저자들은 노이즈 기반 방어의 강건성 이득이 가우시안 노이즈에 국한되지 않음을 입증했습니다. 충분히 강한 uniform noise, photometric, geometric 변환 모두 유사한 분리 신호를 생성하며, 이는 특정 섭동 분포보다는 섭동의 **강도(strength)**가 핵심 요소임을 나타냅 way.
드리프트 게이트형 선택적 방어: 고노이즈 잠재 드리프트를 경량 디텍터로 사용하는 새로운 훈련 불필요(training-free) 게이팅 메커니즘을 제공합니다. 이는 적대적 특성의 불안정성을 보이는 입력에만 개입함으로써 무조건적인 테스트 타임 방어의 단점인 '깨끗한 데이터 정확도 손실'을 피합니다.

4. 실험 결과

본 접근 방식은 13개의 다운스트림 데이터셋(8개의 미세 조정 데이터셋, ImageNet, 4개의 OOD 변형)에 대해 PGD, EOT-PGD, CW, MI-FGSM 공격을 대상으로 평가되었습니다.

성능 개선 (깨끗한 정확도 + 적대적 정확도의 평균):

미세 조정 데이터셋 (8개 데이터셋):
- TTC [50]: **65.7%**에서 **71.4%**로 향상.
- AOM [43]: **68.4%**에서 **73.2%**로 향상.
- R-TPT [37] + TTC: **68.8%**에서 **73.2%**로 향상.
ImageNet 및 OOD 변형:
- TTC: **56.1%**에서 **66.2%**로 향상.
- AOM: **62.1%**에서 **67.6%**로 향상.

주요 관찰 사항:

깨끗한 정확도 보존: 게이팅 메커니즘은 깨끗한 샘플의 약 **90.34%**에 대해 방어 개입을 방지하여, 베이스라인 방법에서 나타나는 깨끗한 정확도 저하를 크게 줄였습니다.
공격 유형에 대한 강건성: 이 방법은 다양한 공격 목표(PGD, CW, MI-FGSM)와 높은 공격 예산( $\epsilon = 8/255$ )에 대해서도 일반화됩니다.
적대적 훈련된 모델: 드리프트 분리 신호는 적대적 훈련된 CLIP 변형(FARE, DeltaCLIP-L)에서 대부분 사라집니다. 이는 적대적 훈련이 취약한 매니폴드 외부의 베이슨을 제거하여 깨끗한 표현과 적대적 표현을 정렬시킨다는 기하학적 가설을 뒷받침합니다. 결과적으로, 이러한 강건한 모델에는 게이팅 메커니즘을 적용할 수 없으며, 방어를 직접 적용할 수 있습니다.

5. 의의 및 주장

본 논문은 추가적인 훈련 비용 없이 VLM의 강건성을 향상시키기 위한 원칙적이고 효율적인 방향을 제시한다고 주장합니다. 약한 노이즈의 "거짓 안정성"에서 고노이즈의 "불안정성"으로 초점을 전환함으로써, 저자들은 기존 테스트 타임 방어에서 반복되는 깨끗함-강건함 트레이드오프 문제를 해결합니다.

그 의의는 다음과 같습니다:

확률적 방어의 재평가: 비강건 모델에서 적대적 입력을 탐지하기 위해 약한 노이즈가 최적이라는 오해를 바로잡았습니다.
효율성: 불필요한 깨끗한 데이터 처리를 피함으로써 계산 오버헤드를 줄이는 경량화된 플러그인 솔루션을 제공합니다.
일반화 가능성: 이 현상이 노이즈 유형, 데이터셋, 공격 예산 전반에서 견고함을 입증함으로써, 비강건 VLM 표현의 기하학적 특성임을 시사합니다.

저자들은 이러한 발견이 방어를 선택적으로 활성화하는 명확한 신호를 제공함으로써, 기존 테스트 타임 전략의 효용을 극대화하는 동시에 깨끗한 데이터에 미치는 부작용을 최소화한다고 결론짓습니다.

Beyond False Stability: High-Noise Drift Gating for Test-Time Adversarial Defenses in Vision-Language Models