Spread them Apart: Towards Robust Watermarking of Generated Content

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 아이디어: "그림을 그리는 순간, 비밀 스탬프를 찍다"

최근 AI 가 그리는 그림이 너무 예뻐서 진짜 사진과 구별하기 어렵습니다. 문제는 누군가 AI 가 그린 그림을 가져다가 "이건 내가 직접 그린 거야!"라고 거짓말하고 저작권을 주장할 수 있다는 점입니다.

이 논문은 **"AI 가 그림을 그리는 그 순간에, 그림 속에 사용자의 고유한 비밀 코드를 숨겨버리는 방법"**을 제안합니다.

1. 비유: "요리사와 레시피"

기존 방식: 요리를 다 하고 나서 그릇에 스티커를 붙이는 것 (이미지가 완성된 후 수정). 하지만 이 스티커는 쉽게 떼어내거나 가릴 수 있습니다.
이 논문의 방식: 요리사가 재료를 섞고 요리하는 과정 자체를 조금씩 조절해서, 그 요리의 '맛'이나 '결'에 특정 요리사의 손맛이 배어있게 만드는 것입니다. 요리가 완성되면 그 맛은 이미 음식에 스며들어 있어, 아무리 요리법을 바꿔도 (이미지를 변형해도) 그 손맛은 사라지지 않습니다.

🔍 이 기술이 어떻게 작동할까요?

1 단계: 비밀 키 발급 (등록)

사용자가 AI 서비스에 가입하면, 시스템은 그에게 두 가지 것을 줍니다.

공개된 비밀 (Watermark): "이 그림은 내가 그렸다"는 것을 증명하는 100 자짜리 암호문 (예: 0 과 1 의 나열).
비밀 열쇠 (Secret Key): 이 암호문을 찾아낼 수 있는 지도. (예: "그림의 왼쪽 10 번째 픽셀과 오른쪽 20 번째 픽셀을 비교해라" 같은 규칙).

2 단계: 그림 그리기 (물결 퍼뜨리기)

사용자가 "고양이 그림 그려줘"라고 요청하면, AI 는 그림을 그리기 시작합니다. 이때 AI 는 단순히 그림만 그리는 게 아니라, 사용자의 비밀 암호문이 그림 속에 자연스럽게 녹아들도록 그림의 미세한 픽셀 값들을 조정합니다.

핵심 원리 (Spread them Apart): 그림 속의 두 픽셀 (A 와 B) 을 비교합니다. 암호가 '0'이라면 A 가 B 보다 밝게, '1'이라면 A 가 B 보다 어둡게 만듭니다.
강력한 방어: 단순히 A 가 B 보다 밝게 하는 게 아니라, 충분히 많이 (예: 20% 이상) 차이를 두도록 강제합니다. 그래서 나중에 그림을 조금만 흐리게 하거나 밝기를 조절해도, "A 가 여전히 B 보다 밝다"는 사실은 변하지 않습니다.

3 단계: 진위 확인 (수사)

나중에 그 그림이 의심스러워지면, 소유자는 그 사람의 '비밀 열쇠'로 그림을 분석합니다.

"왼쪽 픽셀이 오른쪽보다 밝나요?" -> "네, 맞습니다."
"다음 픽셀은?" -> "네, 어둡습니다."
이렇게 100 개를 다 확인하면, 원래 암호문과 거의 일치하는지 알 수 있습니다. 일치하면 "이 그림은 AI 가 그렸고, 특정 사용자가 그렸다"는 것을 100% 증명할 수 있습니다.

🛡️ 왜 이 기술이 특별한가요? (강점)

이 방법은 다른 기술들과 비교해 세 가지 강력한 장점이 있습니다.

재학습 불필요 (No Retraining):
- 다른 방법들은 AI 모델을 처음부터 다시 가르쳐야 했지만, 이 방법은 이미 훈련된 AI 를 그대로 사용하면서 그림을 그리는 과정만 살짝 조정합니다. 비용이 거의 들지 않습니다.
변형 공격에 강함 (Robustness):
- 비유: 누군가 이 그림을 가져다가 "밝기를 조절하고, 회전시키고, 흐리게 하고, 노이즈를 넣어서 지워버리겠다!"라고 공격해 봅니다.
- 결과: 이 방법은 그림의 **기본적인 구조 (픽셀 간의 크기 차이)**에 코드를 심기 때문에, 그림을 회전시키거나 색을 바꾸는 정도로는 코드가 지워지지 않습니다. 마치 물결이 퍼져나갈 때 (Spread them Apart) 물결의 방향을 바꾸더라도 물결 자체는 사라지지 않는 것과 같습니다.
악의적인 공격도 막아냄:
- 해커가 AI 모델의 작동 원리를 다 알고 있어서 "지워주는 AI"를 만들어 공격해도 (화이트박스 공격), 이 코드는 여전히 살아남을 확률이 매우 높습니다.

📊 실험 결과

연구진은 이 방법을 'Stable Diffusion'이라는 유명한 AI 모델에 적용해 보았습니다.

밝기 조절, 회전, 자르기, JPEG 압축 등 다양한 공격을 가해도 코드가 거의 지워지지 않았습니다.
다른 최신 기술들보다 오류율이 훨씬 낮았으며, 특히 그림을 회전시키거나 이동시키는 공격에 매우 강력했습니다.

💡 결론: "AI 시대의 저작권 수호자"

이 논문은 **"Spread them Apart (그들을 멀리 퍼뜨려라)"**라는 제목처럼, 그림 속에 코드를 단순히 숨기는 게 아니라, 그림의 여러 부분으로 퍼뜨려서 어떤 변형이 가해져도 코드가 살아남게 만드는 기술입니다.

이 기술이 보편화되면:

AI 가 그린 그림임을 자동으로 감지할 수 있습니다.
누가 그 그림을 생성했는지 정확히 추적할 수 있습니다.
저작권 도용을 막고, AI 의 윤리적인 사용을 보장할 수 있게 됩니다.

간단히 말해, **"AI 가 그린 그림에 영구적인, 지울 수 없는 디지털 낙인을 찍는 기술"**이라고 이해하시면 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

최근 확산 모델 (Diffusion Models) 을 포함한 생성형 AI 의 발전으로 인해 생성된 이미지의 품질이 인간이 그린 그림이나 사진과 구별하기 어려울 정도로 향상되었습니다. 이로 인해 다음과 같은 윤리적, 법적 문제가 대두되었습니다.

저작권 침해 및 소유권 주장: 합법적인 라이선스 하에 생성된 콘텐츠를 사용자가 불법적으로 독점 저작권을 주장하거나, 생성된 콘텐츠임을 숨기는 경우.
가짜 뉴스 및 딥페이크: 생성된 콘텐츠가 실제 이미지인 것처럼 위장하여 사회적 혼란을 야기할 수 있음.

이러한 문제를 해결하기 위해, **생성된 콘텐츠의 출처를 식별 (Attribution)**하고, **특정 모델에 의해 생성되었음을 탐지 (Detection)**할 수 있는 강력한 디지털 워터마킹 기술이 필요합니다. 기존 방법들은 대부분 모델 재학습이 필요하거나, 다양한 후처리 공격 (밝기 조절, 압축, 노이즈 등) 에 취약하다는 한계가 있었습니다.

2. 제안 방법론: Spread them Apart (Methodology)

이 논문은 생성 과정 (Inference) 중에 워터마크를 임베딩하는 새로운 프레임워크인 **"Spread them Apart"**를 제안합니다. 이 방법은 생성 모델을 재학습시키지 않고도 적용 가능하며, 피크셀 수준과 주파수 영역의 불변성 (Invariance) 을 활용합니다.

2.1. 기본 원리 (Pixel-level Embedding)

키 생성: 각 사용자에게 고유한 공개 키 (워터마크 비트열 $w$ ) 와 비공개 키 (시크릿 $s$ ) 를 할당합니다. 시크릿은 이미지 내 특정 픽셀 쌍의 인덱스 집합 $\{a_i, b_i\}$ 로 구성됩니다.
임베딩 로직: 생성된 이미지 $x$ $x$ 의 특정 픽셀 쌍 $(x_{a_i}, x_{b_i})$ $(x_{a_{i}}, x_{b_{i}})$ 의 밝기 관계를 워터마크 비트 $w_i$ $w_{i}$ 에 따라 제어합니다.
- $w_i = 0$ 이면: $x_{a_i} \ge x_{b_i}$
- $w_i = 1$ 이면: $x_{a_i} < x_{b_i}$
- 또한, 두 픽셀 간의 차이 ( $|x_{a_i} - x_{b_i}|$ ) 가 임계값 $\epsilon$ 이상으로 유지되도록 정규화하여 공격에 대한 강건성을 확보합니다.
최적화: 생성 모델 (Stable Diffusion) 의 잠재 공간 (Latent Space) 에서 이미지 품질 ( $\mathcal{L}_{qual}$ $L_{q u a l}$ ) 을 유지하면서 워터마크 조건 ( $\mathcal{L}_{wm}$ $L_{w m}$ ) 을 만족하도록 잠재 벡터 $z$ $z$ 를 최적화합니다.
- 손실 함수: $\mathcal{L} = \lambda_{wm}\mathcal{L}_{wm} + \lambda_{qual}\mathcal{L}_{qual}$

2.2. 검출 및 귀속 (Detection & Attribution)

검출: 이미지에서 시크릿 키를 사용하여 픽셀 쌍의 관계를 역으로 확인하여 워터마크 비트열을 복원합니다.
이중 꼬리 검출 (Double-tail detection): 복원된 워터마크와 원본 워터마크 간의 비트 거리 ( $d$ ) 가 매우 작거나 (거의 일치), 매우 클 때 (거의 반대) 를 모두 '해당 사용자의 생성물'로 판단합니다. 이는 워터마크를 뒤집는 (Flipping) 공격을 방어하기 위함입니다.
귀속: 복원된 워터마크와 등록된 모든 사용자의 워터마크를 비교하여 거리가 가장 짧은 사용자를 생성자로 판별합니다.

2.3. 확장: 여러 개의 워터마크 (Robustness to Geometric Attacks)

단순 픽셀 기반 방법은 회전 (Rotation) 이나 이동 (Translation) 과 같은 기하학적 변환에 취약할 수 있습니다.
이를 해결하기 위해 **주파수 영역의 불변성 (Invariants)**을 활용합니다.
- 이동 불변성 (Translation Invariant): 푸리에 변환의 크기 (Magnitude)
- 회전 불변성 (Rotation Invariant): 푸리에 - 멜린 (Fourier-Mellin) 변환의 크기
생성 시 픽셀 영역뿐만 아니라 이러한 불변성 영역에도 동일한 워터마크를 동시에 임베딩하여, 기하학적 변환이 가해져도 워터마크가 유지되도록 합니다.

3. 주요 기여 (Key Contributions)

재학습 불필요 프레임워크: 생성 모델의 구조 변경이나 재학습 없이, 추론 (Inference) 단계에서 잠재 벡터를 최적화하여 워터마크를 임베딩하는 방법을 제안했습니다.
이론적 강건성 증명: 제안된 워터마크가 유계 (Bounded) 크기의 가법적 (Additive) 교란, 승법적 (Multiplicative) 교란, 그리고 지수 함수 (Exponentiation, 예: 감마 보정) 에 대해 수학적으로 강건함을 증명했습니다.
다중 공격 방어: 밝기/대비 조절, JPEG 압축, 노이즈 추가, 그리고 강력한 화이트박스 적대적 공격 (PGD) 에 대한 실험적 검증 결과를 제시했습니다. 특히 기하학적 변환 (회전, 이동) 에 대한 강건성을 위해 주파수 영역 불변성을 활용한 확장 모델을 제안했습니다.

4. 실험 결과 (Results)

데이터셋 및 설정: Stable Diffusion 2-base 모델, DiffusionDB 데이터셋 (1000 개 이미지), 워터마크 길이 100 비트.
비교 대상: Stable Signature, SSL, AquaLora, WOUAF 등 최신 워터마킹 기법들과 비교.
성능 지표:
- 평균 비트 오류율 (ABWE): 다양한 공격 (밝기, 대비, 감마, JPEG, 노이즈 등) 하에서 제안 방법 (Ours) 은 다른 방법들보다 현저히 낮은 오류율을 보였습니다. (예: JPEG 압축에서 0.147 vs Stable Signature 0.167, SSL 0.205).
- 진양성률 (TPR): 워터마크가 제거된 후에도 생성자를 올바르게 식별하는 비율이 높았습니다.
  - 기하학적 공격: 단일 워터마크 (STA(1)) 는 회전/이동에 취약했으나, 확장된 3 중 워터마크 (STA(3)) 는 회전 및 이동 공격에서도 96% 이상의 높은 TPR 을 기록했습니다.
  - 적대적 공격 (PGD): 화이트박스 공격 하에서도 다른 방법들보다 우수한 성능을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

실용성: 기존 모델을 수정하거나 재학습할 필요가 없어 실제 서비스 (SaaS 등) 에 즉시 적용 가능합니다.
강건성: 단순한 픽셀 조작뿐만 아니라, 이미지 처리의 일반적인 변환 (밝기, 대비, 압축) 은 물론, 의도적인 워터마크 제거 공격 (적대적 공격) 과 기하학적 변형까지 방어할 수 있음을 입증했습니다.
이중 기능: 단순히 "AI 가 만든 이미지"인지 탐지하는 것을 넘어, "누가" 생성했는지까지 식별 (Attribution) 할 수 있어, 생성형 AI 생태계의 책임 소재를 명확히 하는 데 기여합니다.