DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

이 논문은 확산 모델의 적대적 유도 과정에서 발생하는 분포 왜곡을 경로 공간 KL 발산으로 정량화하고, 생성 모델의 점수 기하학에 수직인 접선 공간으로 적대적 그래디언트를 투영하여 분포를 보존하면서도 분류 성공률을 유지하는 'DPAC'라는 새로운 제어 기법을 제안하고 이론적·실험적으로 검증합니다.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim, Seok-Hwan Choi

게시일 2026-03-06
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"DPAC"**이라는 새로운 기술을 소개합니다. 이 기술은 인공지능이 그림을 그리는 방식 (확산 모델) 을 이용해, 해커가 원하는 대로 이미지를 변조하면서도 화질은 그대로 유지되도록 도와줍니다.

기존 방법들은 화질과 해킹 성공률 사이에서 고민해야 했지만, DPAC 는 두 마리 토끼를 다 잡는 방법을 제시합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🎨 비유: "완벽한 그림을 그리는 예술가와 엉뚱한 지시"

1. 배경: AI 그림 그리기 (확산 모델)

AI 가 그림을 그리는 과정은 마치 어두운 방에서 점진적으로 그림을 선명하게 해가는 작업과 같습니다. 처음엔 잡음 (노이즈) 만 있는데, AI 가 "이게 사람 얼굴이야, 저게 고양이 꼬리야"라고 알려주며 (이걸 '스코어'라고 합니다) 차근차근 선명하게 만들어갑니다.

2. 문제점: 기존 방법 (AdvDiff) 의 실수

이제 해커가 "이 그림을 고양이로 보이게 만들어줘 (하지만 사람으로 인식되게 해)"라고 명령을 내린다고 가정해 봅시다.

  • 기존 방법 (AdvDiff): AI 에게 "고양이로 바꿔!"라고 소리 지르듯 강하게 명령합니다.
  • 결과: AI 는 명령을 따르려고 너무 애를 써서, 그림의 본질적인 질감을 망쳐버립니다.
    • 비유: 화가가 "그림을 좀 더 붉게 칠해!"라고 할 때, 화가가 붓을 너무 세게 눌러 캔버스 (그림의 질감) 를 찢어버리거나, 물감을 너무 많이 뿌려서 그림이 뭉개져 버린 것과 같습니다.
    • 해킹 성공률은 높아지지만,出来的 그림은 심하게 일그러져서 (FID 점수 나쁨) 더 이상 자연스러운 그림으로 보이지 않게 됩니다.

3. 해결책: DPAC (분산 보존 적대적 제어)

저자들은 이 문제를 **"방향"**에서 찾았습니다.

  • 문제: 기존 방법은 그림을 변형시킬 때, **그림의 질감을 해치는 방향 (수직 방향)**으로 힘을 가했습니다.
  • DPAC 의 아이디어: "그림의 질감을 해치지 않으면서, 목적지 (고양이) 로만 이동하게 해보자."
    • 비유: 그림을 그리는 화가가 "붉게 칠해!"라는 명령을 들었을 때, 캔버스를 찢지 않고 그림 위를 미끄러지듯 (접선 방향) 이동하며 색을 입히는 것입니다.
    • 핵심 기술: AI 가 그리는 경로를 따라갈 때, 그림의 질감을 망치는 힘 (수직 성분) 을 잘라내고, 오직 그림의 흐름을 따라가는 힘 (접선 성분) 만 남깁니다.

4. 왜 이것이 중요한가요? (결과)

  • 기존 방법: 명령을 강하게 내릴수록 그림이 파괴됩니다. (화질 붕괴)
  • DPAC: 명령을 강하게 내려도 그림은 여전히 자연스럽습니다.
    • 실험 결과, DPAC 는 기존 방법보다 3 배 적은 에너지로 더 좋은 화질을 유지하면서도 해킹 성공률은 높였습니다.
    • 마치 비행기가 목적지에 가려면 엔진을 과하게 켜서 연료를 다 태우는 대신, 날개를 살짝만 조정하여 효율적으로 날아가는 것과 같습니다.

📝 한 줄 요약

"기존 AI 해킹 기술은 그림을 망치면서 목적지에 도달하려 했지만, DPAC 는 그림의 아름다움을 해치지 않은 채, 가장 효율적인 길로만 목적지를 바꿔줍니다."

이 기술은 AI 가 생성한 이미지가 얼마나 조작되었는지 감지하는 방어 기술 개발이나, AI 의 취약점을 안전하게 테스트하는 데 큰 도움이 될 것으로 기대됩니다.