TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🎨 배경: 미술관의 위대한 경비원 (CLIP 모델)

상상해 보세요. 거대한 미술관에 CLIP이라는 천재 경비원이 있습니다.

그는 그림을 보고 "이건 개야, 고양이야?"라고 순식간에 맞춥니다.
훈련을 받지 않아도 새로운 그림을 보면 바로 알아볼 수 있는 **천재적인 직감 (Zero-shot)**을 가졌습니다.

하지만 이 경비원에게는 치명적인 약점이 있습니다. **가짜 지문 (Adversarial Perturbation)**입니다.
해커들이 그림의 구석구석에 사람이 눈으로 못 볼 정도로 아주 미세한 노이즈를 섞으면, 천재 경비원도 "이건 개가 아니라 고양이네!"라고 완전히 착각합니다.

🛡️ 기존 방법들의 문제점

이 문제를 해결하기 위해 과거에는 두 가지 방법을 썼는데, 둘 다 불완전했습니다.

재교육 (Adversarial Fine-tuning): 경비원에게 "이런 가짜 지문은 사기야!"라고 가르치기 위해 다시 학교에 보내는 방법입니다.
- 문제: 비용이 너무 많이 들고, 새로운 사기 수법이 나오면 다시 가르쳐야 합니다.
모든 사람 다 검사 (Test-Time Adaptation): 미술관 입구에 오는 사람 (데이터) 들을 모두 똑같은 방식으로 검사하고 수정하는 방법입니다.
- 문제: 진짜 손님 (Clean data) 까지 다 검사하느라 시간이 걸리고, 오히려 진짜 손님을 헷갈리게 만들어 정답률을 떨어뜨립니다.

💡 TTP의 핵심 아이디어: "의자 뒤로 살짝 밀어보기"

이 논문은 **"진짜 손님과 사기꾼은 의자를 살짝 밀었을 때 반응이 다르다"**는 놀라운 사실을 발견했습니다.

진짜 손님 (Clean Image): 그림을 보고 "개"라고 말한 사람이, 그림 주변에 흰색 테두리 (Padding) 를 살짝 붙여도 여전히 "개"라고 말합니다. 반응이 거의 변하지 않습니다.
사기꾼 (Adversarial Example): 해커가 만든 가짜 그림은, 주변에 흰색 테두리를 붙이는 순간 "아! 내가 고양이였지!"라고 당황하며 반응이 크게 바뀝니다.

이 **반응의 차이 (Similarity Shift)**를 이용해 TTP는 두 단계를 거칩니다.

1 단계: 정교한 감식 (Adversarial Detection)

경비원은 입구에 오는 그림의 주변에 **흰색 테두리 (Padding)**를 살짝 붙여봅니다.

"아, 반응이 거의 안 변하네? → 진짜 손님!" → 바로 통과시킵니다. (기존 실력을 유지)
"어? 반응이 확 바뀌네? → 사기꾼!" → 다음 단계로 보냅니다.

이 방법은 **하나의 기준 (Threshold)**으로 어떤 모델, 어떤 데이터셋에서도 똑같이 잘 작동합니다. 마치 모든 사기꾼에게 똑같은 '지문 검사기'를 대는 것과 같습니다.

2 단계: 맞춤형 치료 (Robust Adaptation)

사기꾼으로 의심된 그림에게는 특별한 치료를 해줍니다.

학습 가능한 패딩 (Trainable Padding): 단순히 흰색 테두리를 붙이는 게 아니라, "어떤 색과 크기의 테두리를 붙여야 이 그림이 원래 모습으로 돌아갈까?"를 순간적으로 (한 번의 계산) 찾아냅니다.
집단 지성 (Ensemble): 여러 가지 테두리 패턴을 붙여본 후, 가장 신뢰할 수 있는 답을 골라냅니다.

이 과정을 통해 해커가 심어둔 '가짜 지문'을 지우고, 경비원이 다시 "아, 이건 개구나!"라고 정확히 맞출 수 있게 됩니다.

🌟 왜 이 방법이 특별한가요?

재교육 불필요 (No Retraining): 경비원을 다시 학교에 보내지 않아도 됩니다. 입구에서 바로 처리합니다.
진짜 손님 보호 (Clean Accuracy): 진짜 손님은 그냥 통과시켜주므로, 원래의 뛰어난 실력을 잃지 않습니다.
만능 열쇠 (Universal): 어떤 CLIP 모델 (ViT-B/32, ViT-L/14 등) 이든, 어떤 그림 (꽃, 자동차, 동물) 이든 똑같이 잘 작동합니다.

📝 한 줄 요약

"TTP는 인공지능이 해킹당했을 때, 그림 주변에 '흰색 테두리'를 붙여보며 반응을 지켜보는 것으로 사기꾼을 가려내고, 필요한 경우에만 순간적으로 그림을 원래 모습으로 복구시켜주는 똑똑한 경비 시스템입니다."

이 기술은 인공지능이 안전하고 중요한 곳 (의료, 자율주행 등) 에서 쓰일 때, 해킹으로부터 우리를 지켜주는 강력한 방패가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

비전 - 언어 모델 (VLM) 의 취약성: CLIP 과 같은 VLM 은 제로샷 (zero-shot) 인식 성능이 탁월하지만, 적대적 공격 (adversarial perturbations) 에 매우 취약합니다. 이는 안전이 중요한 시나리오에서 심각한 위험을 초래합니다.
기존 방어 기법의 한계:
- 학습 시간 방어 (Training-time defenses): 적대적 미세 조정 (adversarial fine-tuning) 을 사용하지만, 라벨링된 적대적 데이터가 필요하고 대규모 모델의 재학습 비용이 매우 높습니다.
- 테스트 시간 방어 (Test-time defenses): 기존 방법들은 모든 입력에 대해 균일한 적응 (uniform adaptation) 을 적용하여, 깨끗한 데이터 (clean inputs) 의 정확도를 떨어뜨리거나 적대적 입력을 제대로 구별하지 못해 방어 성능이 최적화되지 못합니다.
- TTC (Test-Time Counterattack) 의 문제점: 최근 제안된 TTC 는 작은 교란 하에서의 특징 안정성을 측정하여 적대적 입력을 탐지하려 하지만, 데이터셋과 모델 아키텍처에 따라 탐지 정확도가 크게 변동하여 실제 적용에 한계가 있습니다.

2. 제안 방법: 테스트 시간 패딩 (TTP)

저자들은 Test-Time Padding (TTP) 을 제안합니다. 이는 재학습이나 모델 구조 변경 없이 추론 시 (inference) 에만 작동하는 경량 방어 프레임워크입니다. 핵심 아이디어는 적대적 공격으로 인해 교란된 주시 (attention) 패턴을 공간적 패딩 (spatial padding) 이 복원할 수 있다는 관찰입니다.

TTP 는 크게 세 단계로 구성됩니다:

가. 적대적 입력 탐지 (Adversarial Detection)

원리: 입력 이미지에 고정된 패딩 (예: 검은색 또는 흰색 패딩) 을 적용하기 전과 후의 CLIP 특징 임베딩 (feature embeddings) 간의 코사인 유사도 (cosine similarity) 변화를 측정합니다.
관찰:
- 깨끗한 샘플 (Clean): 패딩 전후의 특징 변화가 미미하여 유사도가 높게 유지됩니다.
- 적대적 샘플 (Adversarial): 패딩이 공격으로 인한 주시 교란을 일부 복원하므로, 특징 공간에서 큰 변화 (similarity shift) 가 발생합니다.
실행: 미리 정의된 임계값 (unified threshold, 예: $\tau=0.8$ ) 을 사용하여 입력을 '깨끗함' 또는 '적대적'으로 분류합니다. 이 임계값은 데이터셋과 모델 아키텍처에 관계없이 일관되게 적용 가능합니다.

나. 적응형 테스트 시간 패딩 (Trainable Test-Time Padding)

탐지된 적대적 입력에 대해서만 적응 전략을 적용합니다.
단일 단계 학습 (Single-step training): 여러 개의 증강 뷰 (augmented views) 를 생성하고, 신뢰도 높은 (low-entropy) 뷰들을 선택합니다.
엔트로피 최소화: 패딩 파라미터 ( $\theta$ ) 를 한 번의 업데이트 단계로 최적화하여, 패딩된 이미지의 예측 엔트로피를 최소화합니다. 이를 통해 공격으로 손상된 모델의 주시 패턴을 효과적으로 복원합니다.

다. 유사도 인식 앙상블 (Similarity-Aware Ensemble)

최종 예측을 위해 선택된 증강 뷰들의 가중치를 동적으로 부여합니다.
가중치 계산: 각 증강 뷰의 패딩된 임베딩이 (1) 원본 적대적 입력의 패딩된 임베딩과 얼마나 유사한지 ( $\alpha$ ), 그리고 (2) 원본 적대적 입력의 패딩 전 임베딩과 얼마나 다른지 ( $\beta$ ) 를 고려하여 점수 ( $s = \alpha - \beta$ ) 를 계산합니다.
이 방식을 통해 노이즈가 제거되고 정확한 영역에 주시가 집중된 뷰에 높은 가중치를 주어 최종 예측의 신뢰도를 높입니다.

3. 주요 기여 (Key Contributions)

새로운 방어 메커니즘 발견: 공간적 패딩이 적대적 교란으로 인한 주시 패턴을 복원하며, 이를 통해 생성된 유사도 변화 (similarity shift) 를 기반으로 데이터셋과 아키텍처에 구애받지 않는 통합 탐지기를 개발했습니다.
효율적인 적응 전략: 탐지된 적대적 입력에 대해 단일 단계 학습 가능한 패딩 (trainable padding) 과 유사도 인식 앙상블을 도입하여, 재학습 없이도 강력한 방어 성능을 달성했습니다.
검증된 성능: 다양한 CLIP 백본 (ViT-B/32, B/16, L/14) 과 세밀한 분류 (fine-grained) 벤치마크에서 TTP 가 기존 테스트 시간 방어 기법 (TTC, R-TPT 등) 을 일관되게 능가하며, 적대적 robustness 를 크게 향상시키면서도 깨끗한 데이터의 정확도 (clean accuracy) 는 유지함을 입증했습니다.

4. 실험 결과 (Results)

적대적 방어 성능: PGD 공격 ( $\epsilon=4.0$ ) 하에서 ViT-B/32 기준 평균 적대적 정확도가 **39.7%**로, 기존 최첨단 방법인 R-TPT(35.3%) 보다 4.4%p 향상되었습니다. TTC 는 6.8% 로 매우 낮았습니다.
탐지 정확도: Fig. 2 에서 보듯, TTP 는 다양한 데이터셋과 모델에서 약 100% 에 가까운 탐지 정확도를 유지하며, TTC 의 불안정성을 해결했습니다.
다양한 공격 및 백본: CW, DeepFool, FGSM 등 다양한 공격 유형과 CLIP 의 다양한 크기 (ViT-B/16, L/14) 에서도 일관된 성능 향상을 보였습니다.
클린 정확도 보존: TTP 는 깨끗한 입력을 직접 예측하므로 (적응을 거치지 않음), 원본 CLIP 의 제로샷 정확도를 거의 그대로 유지합니다. 또한, 기존 테스트 시간 적응 (TTA) 기법과 결합 시 더 높은 정확도를 달성할 수 있음을 보였습니다.

5. 의의 및 결론 (Significance)

실용성: 모델 재학습이나 아키텍처 수정 없이, 추론 시 입력 공간에서 직접 작동하는 플러그 - 앤 - 플레이 (plug-and-play) 방식의 경량 방어 솔루션을 제공합니다.
패러다임 전환: "탐지 후 적응 (Detect-then-Adapt)" 전략을 통해, 깨끗한 데이터와 적대적 데이터에 대해 서로 다른 전략을 적용함으로써 두 가지 목표 (robustness 와 clean accuracy) 를 동시에 최적화하는 새로운 표준을 제시합니다.
미래 지향성: VLM 의 안전성을 확보하기 위한 실용적인 청사진을 제공하며, 향후 다양한 멀티모달 시스템에 적용 가능한 범용 방어 프레임워크로서의 가능성을 보여줍니다.

이 논문은 VLM 의 적대적 취약성을 해결하기 위해 복잡한 재학습 없이도 효과적인 탐지와 적응을 가능하게 하는 TTP를 통해, 안전하고 신뢰할 수 있는 멀티모달 AI 시스템 구축에 중요한 기여를 하고 있습니다.