Contract And Conquer: How to Provably Compute Adversarial Examples for a Black-Box Model?

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 배경: 보이지 않는 성을 공격하는 문제

상상해 보세요. 여러분은 **'검은 상자 (Black-box)'**라고 불리는 거대한 성을 공격하려는 해커입니다.

검은 상자: 성 안의 구조도, 경비병의 위치, 방어 시스템의 작동 원리 등 모든 것을 알 수 없습니다. 오직 "문을 두드리면 (입력), 어떤 대답이 나오는지 (출력)"만 알 수 있습니다.
목표: 아주 작은 변화 (예: 그림 한 줄을 살짝 바꾸거나 문장 한 마디를 살짝 고치는 것) 만으로 AI 가 완전히 다른 결론을 내리게 만드는 것입니다. 이를 '적대적 예시 (Adversarial Example)'라고 합니다.

지금까지의 해커들은 이 성을 공격할 때 **운 (Empirical)**에 의존했습니다. "이렇게 치면 통할지도 모른다"라고 시도해 보는 거죠. 하지만 문제는 **"이 방법이 정말로 이 성을 뚫을 수 있다는 보장이 없다"**는 것입니다. 만약 성이 아주 튼튼하다면, 해커는 영원히 뚫지 못하고 실패할 수도 있습니다.

🛠️ CAC 의 해결책: "약속하고 정복하다"

이 논문은 CAC 라는 새로운 전략을 제안합니다. 이 전략은 두 가지 단계를 반복하며 반드시 성을 뚫을 수 있음을 수학적으로 증명합니다.

1 단계: '가짜 성' 만들기 (지식 증류)

해커는 검은 상자 (실제 AI) 의 정체를 알 수 없으므로, **가짜 성 (대리 모델)**을 하나 만듭니다.

비유: 해커는 성의 경비병에게 "이런 상황에서 어떻게 반응하나요?"라고 계속 물어봅니다. 그리고 그 답변들을 모아서 실제 성과 똑같이 행동하는 작은 가짜 성을 만듭니다.
이 가짜 성은 해커가 안을 다 볼 수 있는 '흰 상자 (White-box)' 상태입니다. 즉, 내부 구조가 투명하게 보입니다.

2 단계: 가짜 성을 공격하고 범위를 좁히기 (수축)

해커는 이제 가짜 성을 공격합니다.

공격: 가짜 성의 약점을 찾아내어 공격합니다.
실패 시: 만약 이 공격이 실제 검은 상자 (진짜 성) 에도 효과가 없다면? 해커는 포기하지 않습니다. 대신 공격 범위를 좁힙니다.
- "아까 공격했던 지점보다 조금 더 가까이서, 더 정밀하게 공격해보자."
- 마치 사냥꾼이 사냥감을 쫓아갈 때, 사냥감이 도망친 방향을 따라가며 사냥감을 가둘 수 있는 울타리 (검색 공간) 를 점점 더 작게 좁혀가는 것과 같습니다.

🔄 이 과정이 왜 '보장'이 될까요?

이 방법의 핵심은 반복과 수축에 있습니다.

가짜 성을 만들어 실제 AI 의 행동을 학습합니다.
가짜 성을 공격합니다.
만약 실제 AI 에도 효과가 없다면, 공격 범위를 아주 조금씩 좁히고, 그 실패한 정보를 다시 가짜 성에게 가르쳐 더 똑똑하게 만듭니다.
이 과정을 반복하면, 수학적으로 반드시 일정 횟수 안에 실제 AI 를 뚫는 공격을 찾을 수 있다는 것이 증명되었습니다.

한마디로: "운을 믿고 무작정 치는 게 아니라, 실패할 때마다 범위를 좁히고 더 똑똑하게 학습시켜서 결국엔 반드시 뚫는다는 것을 수학적으로 약속한 방법"입니다.

🏆 실험 결과: 실제로 효과가 있을까요?

연구진은 이 방법을 유명 이미지 데이터셋 (ImageNet, CIFAR-10) 에서 테스트했습니다.

결과: 기존에 있던 최고의 해킹 방법들보다 더 적은 시도로, 더 미세한 변화만으로도 AI 를 속이는 데 성공했습니다.
특히, 최근 많이 쓰이는 '비전 트랜스포머 (Vision Transformer)' 같은 최신 AI 모델에서도 뛰어난 성능을 보였습니다.

💡 왜 이 연구가 중요한가요?

안전한 AI 를 위한 테스트: 우리가 의료나 자율주행 같은 중요한 곳에 AI 를 쓸 때, "이 AI 가 해킹에 얼마나 안전한가?"를 100% 확실하게 테스트할 수 있게 해줍니다.
규제 준수: 앞으로 AI 법규가 생길 텐데, "이 AI 는 해킹에 안전합니다"라고 증명하려면 단순히 "우리가 해킹해봤는데 안 뚫렸다"가 아니라, "수학적으로 뚫을 수 있는 방법이 존재한다/없다"를 증명해야 합니다. CAC 는 바로 그 '증명'을 해주는 도구입니다.

📝 요약

이 논문은 **"AI 의 약점을 찾을 때, 단순히 운을 기대하지 말고, 범위를 좁혀가며 학습하는 과정을 통해 반드시 성공할 수 있음을 보장하는 새로운 해킹 방법 (CAC)"**을 제안합니다. 이는 AI 의 안전성을 검증하고, 더 안전한 AI 시스템을 만드는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

딥러닝 모델의 보안과 견고성 (Robustness) 평가는 의료나 자율주행 등 안전이 중요한 분야에서 필수적입니다. 특히, 블랙박스 (Black-box) 환경에서의 적대적 공격 (Adversarial Attack) 은 모델의 내부 가중치나 기울기에 접근할 수 없고, 오직 입력과 출력만 쿼리 (Query) 할 수 있는 제한된 조건에서 모델의 취약점을 평가하는 핵심 도구입니다.

기존의 블랙박스 공격 방법들은 경험적으로 효과적이지만, 어떤 특정 모델에 대해 적대적 예제 (Adversarial Example) 를 찾을 수 있다는 것을 수학적으로 보장 (Provably) 하지 못합니다. 즉, 공격이 실패할 경우 모델이 실제로 견고한지, 아니면 단순히 공격 방법이 부족했는지를 구분하기 어렵습니다. 또한, 규제 준수 (예: EU AI Act) 를 위해 모델의 견고성을 검증할 때, 이러한 불확실성은 큰 걸림돌이 됩니다.

2. 제안 방법론: Contract And Conquer (CAC)

저자들은 블랙박스 모델에 대해 수렴 보장 (Convergence Guarantee) 을 가진 새로운 적대적 공격 프레임워크인 Contract And Conquer (CAC) 를 제안합니다. 이 방법은 지식 증류 (Knowledge Distillation) 와 공격 탐색 공간의 점진적 축소 (Contraction) 를 결합한 반복적 알고리즘입니다.

핵심 메커니즘

지식 증류 (Knowledge Distillation):
- 타겟 블랙박스 모델 $T$ 의 예측을 모방하는 작은 대리 모델 (Surrogate Model, $S$ ) 을 훈련시킵니다.
- 증류 데이터셋은 타겟 포인트 $x$ 에 가까운 샘플들과 초기 데이터로 구성되며, 매 반복마다 실패한 적대적 예제 정보가 데이터셋에 추가되어 확장됩니다.
화이트박스 공격 (White-box Attack on Surrogate):
- 훈련된 대리 모델 $S$ 에 대해 화이트박스 환경에서 적대적 공격 (예: MI-FGSM) 을 수행하여 적대적 예제 $z_j$ 를 생성합니다.
전송성 검증 및 공간 축소 (Transferability Check & Contraction):
- 생성된 $z_j$ 가 타겟 모델 $T$ 에도 공격 성공 (전송성) 을 보이는지 확인합니다.
- 성공 시: 알고리즘 종료 및 결과 반환.
- 실패 시:
  - $(z_j, T(z_j))$ 쌍을 증류 데이터셋에 추가하여 $S$ 를 재학습합니다.
  - 공격 탐색 공간 축소: 이전 적대적 예제 $z_j$ 와 그 이전 예제 $z_{j-1}$ 사이의 거리를 기반으로 탐색 공간 $U_\delta(x)$ 를 축소합니다. 구체적으로, 새로운 탐색 공간은 기존 공간과 $z_j$ 주변의 축소된 영역 ( $U_{\rho_j}(z_j)$ ) 의 교집합으로 정의됩니다.
  - 이 과정을 통해 모델이 특정 영역에 더 집중하도록 유도하며, 이론적으로 유한한 반복 횟수 내에 해를 찾을 수 있음을 보장합니다.

3. 주요 기여 (Key Contributions)

새로운 반복적 전이 기반 공격 (CAC) 제안: 타겟 모델을 확장하는 데이터셋에서의 지식 증류와 축소되는 탐색 공간 내에서의 화이트박스 공격을 결합한 새로운 방법론을 제시했습니다.
수학적 수렴 보장: 대리 모델에 대한 약한 가정 (기울기 유계성, 학습 능력 등) 하에, 제안된 방법이 고정된 반복 횟수 내에 블랙박스 타겟 모델에 대한 적대적 예제를 반드시 생성함을 이론적으로 증명했습니다.
실험적 성능 입증: ImageNet 및 CIFAR-10 데이터셋에서 다양한 타겟 모델 (ResNet-50, Vision Transformer 등) 을 대상으로 한 실험을 통해, 기존 최첨단 (SOTA) 블랙박스 공격 방법들보다 더 높은 공격 성공률 (ASR) 과 더 작은 perturbation 크기 (더 가까운 적대적 예제) 를 달성함을 보였습니다.

4. 실험 결과 (Results)

데이터셋 및 모델: ImageNet 과 CIFAR-10 에서 ResNet-50 과 Vision Transformer (ViT-B) 를 타겟으로 사용.
비교 대상: HopSkipJump, Sign-OPT, GeoDA, SquareAttack, SparseRS, AdvViT 등 기존 SOTA 블랙박스 공격 방법.
성능 지표:
- 공격 성공률 (ASR): CAC 는 Hard-label 및 Soft-label 설정 모두에서 거의 100% (1.00) 의 성공률을 기록했습니다. 반면, 일부 기존 방법 (예: ViT-B 에 대한 AdvViT, Soft-label ViT-B 에 대한 SquareAttack 등) 은 100% 에 미치지 못했습니다.
- 쿼리 효율성 (AQN): CAC 는 다른 방법들보다 적은 평균 쿼리 수로 성공적인 공격을 수행했습니다 (예: ImageNet ResNet-50 기준 약 488 쿼리 vs HopSkipJump 500 쿼리).
- 적대적 예제 거리 (Perturbation Magnitude): CAC 는 생성된 적대적 예제가 원본 이미지에 가장 가깝게 위치했습니다 ( $l_\infty$ 및 $l_2$ 노름 기준). 이는 공격이 더 정밀하게 수행되었음을 의미합니다.
특이점: 특히 Vision Transformer (ViT) 와 같은 최신 아키텍처에서도 기존 방법들보다 우수한 성능을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

규제 준수 및 검증 가능성: 기존의 경험적 방어 (Empirical Defense) 와 공격은 "아직 공격하지 못했다"는 부정적 증거에 의존하지만, CAC 는 "공격이 실패할 수 없음"을 수학적으로 증명합니다. 이는 AI 시스템의 안전성 검증 및 규제 기준 (Robustness Standards) 충족 여부를 판단하는 데 필수적인 도구가 될 수 있습니다.
이론과 실전의 결합: 이론적 수렴 보장을 가지면서도 실제 대규모 데이터셋 (ImageNet) 에서 SOTA 성능을 달성했다는 점은 매우 중요합니다.
향후 과제: 실제 환경에서의 가정 (예: 모든 반복에서 대리 모델에 대한 공격 성공) 을 완화하고, 이를 AI 모델의 규제 준수 평가 프레임워크로 확장하는 것이 향후 연구 방향입니다.

요약하자면, 이 논문은 블랙박스 모델의 취약점을 수학적으로 보장된 방법으로 찾아내는 최초의 체계적인 접근법을 제시하며, AI 보안 검증의 새로운 기준을 마련했다는 점에서 의의가 큽니다.