Contract And Conquer: How to Provably Compute Adversarial Examples for a Black-Box Model?

이 논문은 지식 증류와 탐색 공간의 정밀한 축소를 기반으로 하여 블랙박스 신경망에 대한 적대적 예제를 보장된 수렴성으로 계산하는 'Contract And Conquer (CAC)' 방법을 제안하고 ImageNet 데이터셋에서 기존 최첨단 방법들을 능가하는 성능을 입증합니다.

Anna Chistyakova, Mikhail Pautov

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 배경: 보이지 않는 성을 공격하는 문제

상상해 보세요. 여러분은 **'검은 상자 (Black-box)'**라고 불리는 거대한 성을 공격하려는 해커입니다.

  • 검은 상자: 성 안의 구조도, 경비병의 위치, 방어 시스템의 작동 원리 등 모든 것을 알 수 없습니다. 오직 "문을 두드리면 (입력), 어떤 대답이 나오는지 (출력)"만 알 수 있습니다.
  • 목표: 아주 작은 변화 (예: 그림 한 줄을 살짝 바꾸거나 문장 한 마디를 살짝 고치는 것) 만으로 AI 가 완전히 다른 결론을 내리게 만드는 것입니다. 이를 '적대적 예시 (Adversarial Example)'라고 합니다.

지금까지의 해커들은 이 성을 공격할 때 **운 (Empirical)**에 의존했습니다. "이렇게 치면 통할지도 모른다"라고 시도해 보는 거죠. 하지만 문제는 **"이 방법이 정말로 이 성을 뚫을 수 있다는 보장이 없다"**는 것입니다. 만약 성이 아주 튼튼하다면, 해커는 영원히 뚫지 못하고 실패할 수도 있습니다.

🛠️ CAC 의 해결책: "약속하고 정복하다"

이 논문은 CAC 라는 새로운 전략을 제안합니다. 이 전략은 두 가지 단계를 반복하며 반드시 성을 뚫을 수 있음을 수학적으로 증명합니다.

1 단계: '가짜 성' 만들기 (지식 증류)

해커는 검은 상자 (실제 AI) 의 정체를 알 수 없으므로, **가짜 성 (대리 모델)**을 하나 만듭니다.

  • 비유: 해커는 성의 경비병에게 "이런 상황에서 어떻게 반응하나요?"라고 계속 물어봅니다. 그리고 그 답변들을 모아서 실제 성과 똑같이 행동하는 작은 가짜 성을 만듭니다.
  • 이 가짜 성은 해커가 안을 다 볼 수 있는 '흰 상자 (White-box)' 상태입니다. 즉, 내부 구조가 투명하게 보입니다.

2 단계: 가짜 성을 공격하고 범위를 좁히기 (수축)

해커는 이제 가짜 성을 공격합니다.

  • 공격: 가짜 성의 약점을 찾아내어 공격합니다.
  • 실패 시: 만약 이 공격이 실제 검은 상자 (진짜 성) 에도 효과가 없다면? 해커는 포기하지 않습니다. 대신 공격 범위를 좁힙니다.
    • "아까 공격했던 지점보다 조금 더 가까이서, 더 정밀하게 공격해보자."
    • 마치 사냥꾼이 사냥감을 쫓아갈 때, 사냥감이 도망친 방향을 따라가며 사냥감을 가둘 수 있는 울타리 (검색 공간) 를 점점 더 작게 좁혀가는 것과 같습니다.

🔄 이 과정이 왜 '보장'이 될까요?

이 방법의 핵심은 반복수축에 있습니다.

  1. 가짜 성을 만들어 실제 AI 의 행동을 학습합니다.
  2. 가짜 성을 공격합니다.
  3. 만약 실제 AI 에도 효과가 없다면, 공격 범위를 아주 조금씩 좁히고, 그 실패한 정보를 다시 가짜 성에게 가르쳐 더 똑똑하게 만듭니다.
  4. 이 과정을 반복하면, 수학적으로 반드시 일정 횟수 안에 실제 AI 를 뚫는 공격을 찾을 수 있다는 것이 증명되었습니다.

한마디로: "운을 믿고 무작정 치는 게 아니라, 실패할 때마다 범위를 좁히고 더 똑똑하게 학습시켜서 결국엔 반드시 뚫는다는 것을 수학적으로 약속한 방법"입니다.

🏆 실험 결과: 실제로 효과가 있을까요?

연구진은 이 방법을 유명 이미지 데이터셋 (ImageNet, CIFAR-10) 에서 테스트했습니다.

  • 결과: 기존에 있던 최고의 해킹 방법들보다 더 적은 시도로, 더 미세한 변화만으로도 AI 를 속이는 데 성공했습니다.
  • 특히, 최근 많이 쓰이는 '비전 트랜스포머 (Vision Transformer)' 같은 최신 AI 모델에서도 뛰어난 성능을 보였습니다.

💡 왜 이 연구가 중요한가요?

  1. 안전한 AI 를 위한 테스트: 우리가 의료나 자율주행 같은 중요한 곳에 AI 를 쓸 때, "이 AI 가 해킹에 얼마나 안전한가?"를 100% 확실하게 테스트할 수 있게 해줍니다.
  2. 규제 준수: 앞으로 AI 법규가 생길 텐데, "이 AI 는 해킹에 안전합니다"라고 증명하려면 단순히 "우리가 해킹해봤는데 안 뚫렸다"가 아니라, "수학적으로 뚫을 수 있는 방법이 존재한다/없다"를 증명해야 합니다. CAC 는 바로 그 '증명'을 해주는 도구입니다.

📝 요약

이 논문은 **"AI 의 약점을 찾을 때, 단순히 운을 기대하지 말고, 범위를 좁혀가며 학습하는 과정을 통해 반드시 성공할 수 있음을 보장하는 새로운 해킹 방법 (CAC)"**을 제안합니다. 이는 AI 의 안전성을 검증하고, 더 안전한 AI 시스템을 만드는 데 큰 도움이 될 것입니다.