Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

이 논문은 사전 학습된 생성 모델의 잠재 공간에서 교란을 최적화하여 기존 픽셀 기반 공격보다 이종 모델 간 전이 성능이 뛰어나고 고주파 노이즈가 적은 새로운 적대적 예제 공격 기법인 LTA 를 제안합니다.

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LTA(잠재 공간 전이 공격)"**이라는 새로운 해킹 방법을 소개합니다. 이 내용을 일반인이 이해하기 쉽게, 일상적인 비유와 함께 설명해 드릴게요.

🎨 핵심 비유: "고해상도 사진 편집" vs "점토 조형"

기존의 AI 해킹 방법들은 고해상도 사진 편집기를 사용하는 것과 비슷합니다.

  • 기존 방법 (픽셀 공간 공격): 사진의 각 픽셀 (작은 점) 을 하나하나 미세하게 조작해서 AI 가 잘못 보게 만듭니다. 마치 사진 위에 아주 작은 소금 알갱이 (고주파 노이즈) 를 뿌리는 것과 같아요.

    • 문제점: 이 소금 알갱이들은 AI 에겐 치명적이지만, 사람이 보거나 사진 크기를 줄이거나 자르면 쉽게 사라져 버립니다. 마치 "바람에 날아가는 모래"처럼 약합니다.
  • 새로운 방법 (LTA): 이 논문은 **점토 (Clay)**를 빚는 방식에 비유할 수 있습니다.

    • LTA 의 방식: 해커는 사진의 픽셀을 직접 건드리지 않고, 사진의 **본질적인 형태 (잠재 공간)**를 점토처럼 빚어서 바꿉니다. Stable Diffusion 이라는 거대 AI 가 학습한 '이미지 생성 원리'라는 점토를 사용합니다.
    • 결과: 이 점토를 다시 사진으로 꺼내면, 픽셀 단위의 소금 알갱이가 아니라 자연스러운 그림자나 형태 변화처럼 보입니다. 바람 (사진 크기 조절, 자르기) 이 불어도 형태가 유지됩니다.

🚀 LTA 가 어떻게 작동할까요? (3 단계 스토리)

1. "점토를 빚는다" (잠재 공간 최적화)

해커는 AI 가 이미지를 이해하는 방식 (잠재 공간) 에서부터 시작합니다. 여기서 perturbations (교란) 을 만들면, AI 가 이미지를 해석하는 '구조' 자체를 건드리게 됩니다.

  • 비유: 건물의 벽돌 하나를 뺄 게 아니라, 건물의 설계도 (구조) 를 살짝 비틀어서 건물이 무너지게 만드는 것과 같습니다.

2. "바람을 맞춘다" (EOT - 변환에 대한 기대)

실제 AI 시스템은 들어오는 사진을 크기를 줄이거나 (리사이즈), 잘라내거나 (크롭) 회전시키는 경우가 많습니다. 기존 해킹 방법은 이런 변화에 약했습니다.

  • LTA 의 전략: 해커는 점토를 빚을 때, "이 점토가 바람에 날려서 작아지거나, 잘려도 여전히 무너지게 만들자"라고 상상하며 빚습니다.
  • 효과: 어떤 크기로 사진을 보내도 AI 를 속일 수 있는 튼튼한 해킹이 됩니다.

3. "매끄럽게 다듬는다" (주기적 평활화)

점토를 빚다 보면 거친 자국이나 날카로운 부분이 생길 수 있습니다.

  • LTA 의 전략: 해커는 빚는 중간중간 손으로 살살 문질러서 (가우시안 평활화) 거친 부분을 없앱니다.
  • 효과: 해킹 신호가 너무 날카로워 AI 만이 감지하는 '인공적인 노이즈'가 아니라, 자연스러운 이미지 변화처럼 보이게 만듭니다.

🏆 왜 이 방법이 특별한가요?

  1. 다른 AI 와도 통합니다 (전이성):

    • 기존 해킹은 특정 AI 모델 (예: CNN) 에 맞춰 만든 소금 알갱이들이라, 다른 모델 (예: Vision Transformer) 에겐 효과가 없었습니다.
    • 하지만 LTA 는 이미지의 '자연스러운 구조'를 건드리기 때문에, 어떤 AI 모델을 만나도 통합니다. 마치 "건물의 기초를 흔드는 것"이라 어떤 건물이든 무너뜨리는 것과 같습니다.
    • 특히 CNN 에서 ViT 로 넘어갈 때 효과가 엄청나게 좋아졌습니다.
  2. 방어막을 뚫습니다:

    • 많은 AI 방어 시스템은 "이상한 소금 알갱이 (고주파 노이즈)"를 제거하려고 합니다.
    • LTA 는 소금 알갱이가 아니라 자연스러운 그림자를 만들기 때문에, 방어 시스템이 "이건 원래 사진에 있는 그림자야"라고 착각하게 만들어 뚫고 들어갑니다.
  3. 사람 눈에도 덜 듭니다:

    • 실험 결과, 사람들이 이 해킹된 사진을 보고 "수정된 거 아니야?"라고 눈치채는 비율이 기존 방법보다 낮았습니다.

💡 요약

이 논문은 **"AI 를 속이는 가장 좋은 방법은 AI 가 이해하는 '자연스러운 이미지 구조'를 이용하는 것"**이라고 말합니다.

기존의 거친 해킹 (소금 뿌리기) 대신, Stable Diffusion 이라는 거대 AI 가 가르쳐 준 '점토 (잠재 공간)'를 이용해 자연스럽고 튼튼한 해킹을 만들었습니다. 이 방법은 AI 가 사진을 크기를 바꾸거나 자르더라도, 그리고 다른 종류의 AI 모델을 만나더라도 여전히 효과적이며, 사람 눈에도 잘 듭니다.

이는 AI 보안 연구에 **"생각의 전환"**을 가져온 중요한 연구입니다.