Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection

이 논문은 텍스트-이미지 확산 모델의 저작권 및 개인정보 침해 위험을 완화하기 위해, 훈련 중 의미론적 정렬을 유지하면서 과적합을 줄이는 '지역 인식 프롬프트 증강 (RAPTA)'과 대규모 주석 데이터 없이도 복제를 효과적으로 탐지하는 '주도 멀티모달 복제 탐지 (ADMCD)'라는 두 가지 방법을 제안하고 그 유효성을 입증합니다.

Yunzhuo Chen, Jordan Vice, Naveed Akhtar, Nur Al Hasan Haldar, Ajmal Mian

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근 화두가 되고 있는 'AI 그림 생성 기술 (텍스트를 입력하면 그림을 그려주는 모델)'이 학습했던 원본 그림들을 그대로 베끼거나 너무 비슷하게 만들어내는 문제를 해결하기 위한 두 가지 혁신적인 방법을 소개합니다.

비유하자면, 이 기술은 **"AI 가 그림을 그릴 때 '창의적인 재해석'을 하도록 유도하고, 만약 '도용'을 했다면 그것을 정확히 찾아내는 감시 시스템"**을 개발한 것입니다.

두 가지 핵심 기술을 일상적인 비유로 설명해 드릴게요.


1. RAPTA: "창의적인 요리사에게 레시피를 다양하게 바꿔달라고 요청하기"

(Region-Aware Prompt Augmentation)

상황:
기존의 AI 는 "고양이를 그려줘"라고 하면, 학습 데이터에 있던 특정 고양이 사진 (예: '누구네 집의 흰 고양이') 을 기억해내서 그걸 그대로 그려버리는 경향이 있습니다. 마치 요리사가 레시피를 외워서 똑같은 요리만 반복하는 것과 같습니다.

해결책 (RAPTA):
이 방법은 AI 가 그림을 그리는 학습 과정에서 개입합니다.

  • 비유: AI 가 "고양이"를 그릴 때, 단순히 "고양이"라고만 말하지 않고, **"오른쪽 구석에 있는 누런 고양이"**나 **"왼쪽에서 뛰어오르는 검은 고양이"**처럼 구체적인 위치와 특징을 넣어주며 레시피를 바꿉니다.
  • 작동 원리:
    1. AI 가 학습할 때, 먼저 그림 속의 주요 객체 (고양이, 개, 자동차 등) 를 찾아냅니다.
    2. 그 객체가 그림의 어디에 있는지 (위쪽, 왼쪽 등) 를 분석합니다.
    3. AI 에게 "그냥 고양이"가 아니라, **"왼쪽 구석에 있는 고양이"**처럼 위치 정보가 포함된 다양한 문장을 무작위로 골라주며 학습시킵니다.
  • 효과: AI 는 특정 한 장의 그림을 통째로 외우는 대신, "고양이"라는 개념을 다양한 위치와 형태로 이해하게 됩니다. 결과적으로 원본 그림을 그대로 베끼는 일은 줄어들지만, 그림의 퀄리티와 의미는 그대로 유지됩니다.

2. ADMCD: "세 가지 눈으로 보는 정교한 위조지폐 탐지기"

(Attention-Driven Multimodal Copy Detection)

상황:
AI 가 그린 그림이 원본과 너무 비슷한지, 아니면 단순히 스타일만 닮은 것인지 구별하는 것은 매우 어렵습니다. 기존 기술들은 그림의 '색감'만 보거나 '전체적인 느낌'만 봐서, 위조지폐를 진짜로 오인하거나 진짜 위조를 놓치는 경우가 많았습니다.

해결책 (ADMCD):
이 방법은 AI 가 그린 그림과 원본을 비교할 때 세 가지 다른 '눈'을 동시에 사용합니다.

  • 비유: 위조지폐를 검사할 때, 한 사람만 보는 게 아니라 세 명의 전문가가 합심해서 보는 것과 같습니다.
    1. 세부 부분 전문가 (패치): 지폐의 미세한 무늬나 선 하나하나를 확대해서 봅니다. (위치와 구조 확인)
    2. 전체 분위기 전문가 (시맨틱): 지폐의 전체적인 디자인과 느낌, 문구를 봅니다. (의미와 맥락 확인)
    3. 질감 전문가 (텍스처): 종이의 질감이나 잉크의 번짐 등을 봅니다. (재료와 디테일 확인)
  • 작동 원리:
    • 이 세 전문가의 의견을 **하나의 AI (트랜스포머)**가 종합합니다.
    • 만약 세 전문가 모두 "이건 원본과 거의 똑같아!"라고 하면 **완전 도용 (Retrieve Copy)**으로 판정합니다.
    • 만약 "전체 느낌은 비슷하지만, 세부적인 건 달라"라고 하면 **스타일 모방 (Style Copy)**으로 판정합니다.
  • 효과: 빛의 반사, 노이즈, 회전, 잘라내기 같은 변형이 있어도 정확하게 도용 여부를 찾아냅니다. 기존 기술들은 이런 변형에 약했지만, 이 방법은 세 가지 눈을 서로 보완하게 하여 매우 강력하고 정확한 감지가 가능합니다.

요약: 이 연구가 가져오는 변화

  1. 창의성 보호: AI 가 학습 데이터를 '외워서' 베끼는 습관을 고쳐주어, 저작권 문제를 줄이고 더 창의적인 그림을 만들게 합니다. (RAPTA)
  2. 정확한 감시: AI 가 만든 그림이 도용된 것인지, 단순한 스타일 닮음인지, 아니면 완전히 새로운 것인지 정확하게 구별할 수 있게 합니다. (ADMCD)

결론적으로, 이 논문은 "AI 가 그림을 그릴 때는 더 똑똑하고 다양하게 생각하게 만들고, 만약 도용을 했다면 누구도 놓치지 않게 찾아내는" 완벽한 시스템을 제안한 것입니다.