Diffusion or Non-Diffusion Adversarial Defenses: Rethinking the Relation between Classifier and Adversarial Purifier

이 논문은 확산 모델에 국한되지 않는 비확산 기반 적대적 정제 모델이 데이터 없이도 뛰어난 전이성과 색상 일반화 성능을 발휘하며, CIFAR-10 에서 훈련된 모델이 ImageNet 에서 확산 모델보다 우수한 성능을 보여 적대적 방어에서 확산 모델과 분류기의 관계를 재고해야 함을 주장합니다.

Yuan-Chih Chen, Chun-Shien Lu

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 주제: "AI 를 해킹으로부터 지키는 '세척기'의 진실"

우리가 사용하는 AI(예: 고양이 사진과 강아지 사진을 구별하는 AI) 는 아주 작은 변화만으로도 헷갈릴 수 있습니다. 이를 '적대적 공격 (Adversarial Attack)'이라고 합니다. 마치 고양이 그림에 눈에 보이지 않는 작은 점들을 찍어 AI 가 "이건 강아지야!"라고 오인하게 만드는 거죠.

이 문제를 해결하기 위해 연구자들은 **'적대적 정화기 (Adversarial Purifier)'**라는 세척기를 개발했습니다. 이 세척기는 해킹된 사진을 원래 깨끗한 상태로 되돌려주는 역할을 합니다.

지금까지 가장 인기 있었던 세척기는 **'확산 모델 (Diffusion Model)'**을 사용했습니다. 하지만 이 논문은 **"잠깐, 그 세척기가 진짜로 좋은 걸까?"**라고 의문을 제기하며 새로운 대안을 제시합니다.


🎨 1. 기존 방식 (확산 모델): "완벽한 복원가지만, 너무 과하게 손을 댄다"

기존의 확산 모델 기반 세척기는 해킹된 사진을 보정할 때, 마치 화가가 캔버스 전체를 다시 그려내는 것과 비슷합니다.

  • 비유: 해킹된 사진을 보려면, AI 가 "아, 이 사진은 원래 이런 느낌이었지!"라고 상상하며 완전히 새로운 그림을 그려냅니다.
  • 문제점:
    • 색감 변화에 약함: 만약 훈련 데이터가 '갈색 고양이'만 봤다면, 이 세척기는 '흰 고양이'를 보자마자 "아, 이건 갈색 고양이가 아니야"라고 생각하며 색을 갈색으로 바꿔버립니다. (논문의 'ColoredImageNet' 실험)
    • 원본을 망가뜨림: 해킹된 흔적만 지우려다 보니, 사진의 원래 디테일이나 특징까지 지워버려 AI 가 진짜 사진을 볼 때조차 헷갈리게 만들 수 있습니다.
    • 데이터 제한: 새로운 데이터 (예: 고해상도 사진) 를 처리하려면 그 데이터로 다시 세척기를 훈련해야 해서 비용이 많이 듭니다.

🛠️ 2. 새로운 제안 (MAEP): "정밀한 수리공"

저자들은 확산 모델 대신 **마스크형 오토인코더 (MAE)**를 활용한 새로운 세척기 MAEP를 제안했습니다.

  • 비유: 이 방식은 그림 전체를 다시 그리는 게 아니라, **해킹된 부분만 찾아내서 뚫린 구멍을 정교하게 메우는 '수리공'**과 같습니다.
  • 핵심 원리:
    • 사진의 일부 조각을 가리고 (마스크), 남은 부분으로 잃어버린 부분을 추론하게 합니다.
    • 이때 **'정화 손실 (Purification Loss)'**이라는 규칙을 적용해, 해킹된 흔적은 지우되 원래 사진의 특징 (색깔, 모양) 은 그대로 유지하도록 훈련시킵니다.

🏆 3. 왜 새로운 방식이 더 좋은가요? (실제 실험 결과)

논문의 실험 결과는 놀라웠습니다.

  1. 색깔 변화에 강함: 갈색 고양이만 봐도 흰 고양이를 제대로 인식합니다. 확산 모델은 색이 바뀌면 망가졌지만, MAEP 는 원본의 느낌을 잘 살려냈습니다.
  2. 다른 데이터에도 잘 통함 (이동성):
    • 비유: 작고 단순한 그림 (CIFAR-10) 으로 훈련된 세척기가, 복잡한 고화질 사진 (ImageNet) 을 처리할 때도 잘 작동합니다.
    • 결과: 고화질 사진 전용으로 훈련된 확산 모델보다, 저화질로 훈련된 MAEP 가 고화질 사진에서도 더 좋은 성능을 냈습니다. 이는 마치 작은 도구로 큰 일을 해낸 것과 같습니다.
  3. 원본 훼손 최소화: 확산 모델은 사진을 다시 그리는 과정에서 원본의 디테일을 잃어버렸지만, MAEP 는 원본의 질감을 거의 그대로 유지하며 해킹만 제거했습니다.

💡 요약: 이 논문이 우리에게 주는 메시지

"새로운 기술을 무조건 믿지 말고, 원본을 얼마나 잘 보존하는지 확인해야 합니다."

기존의 확산 모델 기반 방어 기술은 "해킹을 막는다"는 점에서는 훌륭했지만, AI 가 세상을 보는 방식 (일반화 능력) 을 망가뜨리는 부작용이 있었습니다.

이 논문은 **"해킹된 사진을 원본에 가장 가깝게, 그리고 자연스럽게 되돌리는 것"**이 진정한 방어임을 증명했습니다. 마치 해킹된 문서를 고칠 때, 내용을 완전히 새로 쓰는 게 아니라 틀린 부분만 수정하고 원본의 뉘앙스를 살리는 것이 더 현명하다는 교훈을 줍니다.

한 줄 요약:

"과도하게 그림을 다시 그리는 세척기 (확산 모델) 대신, **원본의 특징을 살려 해킹 흔적만 지우는 정밀 수리공 (MAEP)**이 AI 방어에 더 효과적입니다."