Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"생성형 AI(이미지 만드는 인공지능) 가 실수하거나, 우리가 원하지 않는 특정 얼굴이나 이미지를 더 이상 만들지 못하게 하는 새로운 방법"**을 소개합니다.

기존의 방법들은 "이런 말 (프롬프트) 을 하지 마세요"라고 AI 에게 지시하는 방식이었는데, 이 논문은 "말이 통하지 않는 구체적인 실수 하나하나를 AI 의 기억에서 지우는" 기술을 제안합니다.

이해하기 쉽게 세 가지 비유로 설명해 드릴게요.

1. 문제 상황: "말이 통하지 않는 실수"

생성형 AI 는 보통 우리가 "고양이"라고 말하면 고양이를 그려줍니다. 하지만 AI 가 실수를 해서, 역사적 인물을 엉뚱한 인종으로 그리거나, 국기를 잘못 그리는 경우가 있습니다.

기존 방법의 한계: "역사적 인물을 잘못 그리는 것"을 막으려면 AI 에게 "역사적 인물을 그릴 때 조심해"라고 말해야 합니다. 하지만 문제는 AI 가 왜 실수를 했는지, 어떤 '말'이 그 실수를 유발하는지 정확히 알 수 없다는 점입니다. 마치 "어떤 단어를 입력하면 AI 가 엉뚱한 얼굴을 그릴까?"를 찾는 것이 불가능에 가깝습니다.
이 논문의 목표: 특정 단어를 금지하는 게 아니라, **"그 잘못된 그림 하나하나 (예: 특정 배우의 얼굴, 잘못된 국기) 를 AI 의 기억에서 지우자"**는 것입니다.

2. 해결책: "기억을 수정하는 마법 지우개"

이 논문은 AI 의 기억을 지울 때, 단순히 그 이미지를 '삭제'하는 게 아니라 **비유적인 '대리 이미지 (Surrogate)'**를 만들어 사용합니다.

비유: 사진관과 편집기
- AI 가 특정 배우의 얼굴을 그릴 때, 그 배우의 얼굴을 지우고 싶다고 가정해 봅시다.
- 기존 방식 (완전 삭제): 그 배우의 사진이 있는 책장을 통째로 찢어버리는 겁니다. 하지만 책장을 찢으면 다른 중요한 내용 (책의 다른 페이지) 도 함께 망가질 수 있습니다.
- 이 논문의 방식 (대리 이미지): 그 배우의 얼굴을 비슷하지만 다른 사람 (예: 코를 살짝 변형하거나, 모자를 쓴 모습) 으로 편집해서 AI 에게 보여줍니다.
- AI 에게 "이 얼굴은 원래 배우가 아니야, 이 편집된 얼굴이 맞아"라고 가르칩니다.
- 결과적으로 AI 는 원래 배우의 얼굴을 그리는 능력을 잃게 되지만, 다른 얼굴을 그리는 능력이나 그림의 질은 그대로 유지됩니다.

3. 핵심 기술: "시간에 따른 교정"과 "갈등 해결"

AI 를 가르칠 때 두 가지 목표가 충돌합니다.

잊게 하기: 특정 얼굴을 잊게 하라.
기억하게 하기: 다른 모든 것은 잘 그려라.

이 두 가지가 서로 싸우면 AI 가 혼란스러워집니다. 이 논문은 이를 해결하기 위해 두 가지 기술을 썼습니다.

시간을 아는 교정 (Timestep-aware weighting):
- 그림을 그릴 때, 처음에는 전체적인 윤곽 (몸통, 배경) 을 중요하게 여기고, 나중에는 세부적인 얼굴 특징 (눈, 코) 을 중요하게 여깁니다.
- 이 논리는 "세부적인 얼굴 특징을 잊게 하는 건 나중에, 전체적인 그림의 질을 지키는 건 처음에 집중하자"는 식으로, AI 가 혼란스러워하지 않게 순서를 조절합니다.
갈등 해결 수술 (Gradient Surgery):
- "잊게 하라"는 명령과 "기억하게 하라"는 명령이 서로 반대 방향으로 AI 를 당길 때, AI 가 찢어지지 않도록 두 명령을 부드럽게 섞어서 한 방향으로만 가게 만듭니다.

4. 왜 이 기술이 중요한가요? (실생활 예시)

개인정보 보호: 어떤 사람의 얼굴이 AI 에 의해 유출되어 실수로 생성될 때, 그 사람의 얼굴을 지우려면 그 사람의 이름이나 특징을 모두 찾아서 금지해야 합니다. 하지만 이 기술은 그 사람의 얼굴 사진 하나만 있으면, 그 얼굴이 나오는 모든 경우를 막을 수 있습니다.
문화적 오해 방지: AI 가 특정 국가의 국기를 잘못 그리거나, 특정 인물을 인종적으로 편향되게 그릴 때, 그 특정 실수 패턴 하나를 정확히 지워 다른 정상적인 그림은 그대로 유지할 수 있습니다.

요약

이 논문은 **"AI 가 실수한 그림 하나를 지우려면, 그 그림을 '비슷하지만 다른 그림'으로 바꿔서 AI 에게 다시 가르쳐주자"**는 아이디어입니다.

기존에는 "무슨 말을 하지 마라"고 지시하는 방식이었다면, 이제는 **"이 그림은 안 돼, 대신 이 그림으로 그려"**라고 구체적으로 가르쳐서, AI 가 원하는 것은 잘 그리되, 원치 않는 실수는 잊어버리게 만드는 **'정밀한 기억 수정 기술'**입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 생성형 AI, 특히 확산 모델 (Diffusion Models, DM) 은 고품질의 이미지 생성으로 널리 사용되지만, 특정 개인 (예: 유명인의 얼굴), 문화적/사실적 오류 (예: 잘못된 국기나 역사적 인물의 묘사), 또는 프라이버시 침해와 같은 원치 않는 출력을 생성할 수 있습니다.
기존 방법의 한계:
- 프롬프트 기반 언러닝 (Prompt-based Unlearning): 기존 연구들은 특정 개념 (예: "누드", "특정 스타일") 을 프롬프트를 통해 정의하고 해당 프롬프트에 대한 생성을 막는 방식에 의존합니다.
- 프롬프트 불가능한 경우 (Unpromptable Outputs): 특정 개인의 얼굴이나 문화적으로 잘못된 묘사는 텍스트 프롬프트로 명확히 정의하기 어렵거나, 프롬프트가 없는 무조건적 (Unconditional) 모델에서는 적용 자체가 불가능합니다. 또한, 특정 프롬프트 전체를 차단하면 해당 프롬프트로 생성될 수 있는 정상적인 콘텐츠까지 손실될 수 있습니다.
핵심 문제: 텍스트 프롬프트 없이도 특정 인스턴스 (Instance) 단위로만 선택적으로 잊게 하되, 모델의 전체적인 성능과 다른 콘텐츠 생성 능력 (Model Integrity) 은 유지하는 것은 기존 방법으로는 해결하기 어려운 과제입니다.

2. 제안 방법 (Methodology)

저자들은 프롬프트 없는 인스턴스 언러닝 (Prompt-free Instance Unlearning) 을 위해 다음과 같은 세 가지 핵심 기법을 결합한 서로게이트 기반 (Surrogate-based) 방법을 제안합니다.

가. 서로게이트 기반 포기 목표 (Surrogate-based Forgetting Objective)

개념: 잊어야 할 대상 이미지 ( $x_f$ ) 를 직접적으로 제거하는 대신, 해당 이미지의 구조는 유지하되 원치 않는 속성 (예: 얼굴 정체성) 만 수정한 서로게이트 이미지 ( $x_s$ ) 를 생성합니다.
구현: TediGAN, SDEdit, 또는 수동 편집 도구를 사용하여 대상의 신원을 변경하거나 원치 않는 요소를 제거합니다.
손실 함수: 모델이 원래 이미지 ( $x_f$ $x_{f}$ ) 를 생성하려 할 때, 대신 서로게이트 이미지 ( $x_s$ $x_{s}$ ) 에 해당하는 노이즈를 예측하도록 유도합니다.
- 기존 리마인드 손실 ( $L_r$ ): 기억해야 할 데이터 ( $D_r$ ) 에 대해 정상 학습.
- 새로운 포기 손실 ( $L_f$ ): 잊어야 할 데이터 ( $x_f$ ) 에 대해, 실제 노이즈 대신 $x_f$ 와 $x_s$ 를 연결하는 변형된 노이즈 ( $\epsilon'$ ) 를 예측하도록 학습시킵니다.
- 이를 통해 모델은 특정 인스턴스의 생성 경로를 왜곡시켜 "잊게" 하지만, 구조적 유사성은 유지합니다.

나. 시간 단계 인식 가중치 (Timestep-aware Weighting)

동기: 확산 모델의 노이즈 제거 과정은 시간 단계 (timestep) 에 따라 다른 정보를 처리합니다. 초기 단계는 세부적인 디테일, 후기 단계는 전체적인 형태와 구조를 담당합니다.
전략:
- 기억 (Remembering): 초기 시간 단계에서 중요하므로 $L_r$ 의 가중치를 높입니다.
- 포기 (Forgetting): 후기 시간 단계에서 중요하므로 $L_f$ 의 가중치를 높입니다.
- 가중치 $\lambda(t) = 1 - \beta t$ 를 도입하여 두 목표 간의 균형을 동적으로 조절합니다.

다. 그래디언트 외과 수술 (Gradient Surgery)

문제: 기억 ( $L_r$ ) 과 포기 ( $L_f$ ) 의 목표는 상충되어 그래디언트가 서로를 방해할 수 있습니다.
해결: PCGrad 와 유사한 방식을 사용하여, 두 그래디언트 ( $\nabla L_r, \nabla L_f$ $\nabla L_{r}, \nabla L_{f}$ ) 가 서로 반대 방향 (내적 < 0) 일 때, 한 그래디언트를 다른 그래디언트에 수직으로 투영하여 제거합니다.
- 이 과정에서 기억 그래디언트 ( $\nabla L_r$ ) 는 보존하고, 포기 그래디언트 ( $\nabla L_f$ ) 만 수정하여 모델의 전체적인 성능 저하를 방지합니다.

3. 주요 기여 (Key Contributions)

새로운 문제 설정: 프롬프트로 정의할 수 없는 원치 않는 출력 (Unpromptable outputs) 에 대한 인스턴스 수준의 언러닝 문제를 최초로 체계적으로 다룸.
프롬프트 없는 해결책: 프롬프트나 개념 수준의 감독 없이도, 이미지 편집을 통해 생성된 서로게이트 데이터를 활용하여 정밀한 인스턴스 삭제를 가능하게 함.
모델 무결성 유지: 기존 프롬프트 기반 방법이나 다른 프롬프트 없는 방법들 (NegGrad, EraseDiff 등) 이 겪던 모델 성능 저하 (Artifacts, 왜곡) 를 극복하고, 높은 품질의 생성 능력을 유지함.
이론적 분석: 정확한 언러닝 (Exact Unlearning) 과 서로게이트 기반 언러닝을 비교하는 이론적 분석을 통해, 적절한 서로게이트 사용이 모델 파라미터의 급격한 변화를 방지하고 원본 매핑을 더 잘 보존할 수 있음을 증명.

4. 실험 결과 (Results)

데이터셋 및 모델:
- 무조건적 모델: DDPM (CelebA-HQ, FFHQ).
- 조건부 모델: Stable Diffusion 3 (SD3).
평가 지표:
- 잊기 성공도: SSCD (Self-Supervised Copy Detection) < 0.4.
- 모델 무결성: LPIPS (낮을수록 좋음), SSIM (높을수록 좋음), FID (낮을수록 좋음).
성능:
- 단일/다중 인스턴스: CelebA-HQ 에서 특정 유명인 얼굴을 잊게 하는 실험에서, 제안된 방법은 NegGrad, EraseDiff, SISS 등 기존 방법들보다 훨씬 낮은 LPIPS 와 높은 SSIM을 기록하여 모델 무결성을 잘 유지하면서도 성공적으로 잊는 것을 입증했습니다.
- SD3 적용: "Xerxes" (페르시아 왕), "Japan flag" (일본 국기) 등 문화적/사실적 오류가 발생하는 프롬프트에 대해, 해당 오류만 수정하고 다른 정상 생성은 유지하는 데 성공했습니다.
- OOD (Out-of-Domain) 일반화: 훈련 데이터 (CelebA) 와 다른 도메인 (FFHQ) 의 데이터에서도 유사한 성능을 보여주어 일반화 능력을 입증했습니다.

5. 의의 및 중요성 (Significance)

실용적 핫픽스 (Hotfix): 생성형 AI 서비스 제공자가 사용자의 프롬프트 필터링만으로는 해결할 수 없는, 생성된 결과물 자체의 문제 (개인 얼굴 노출, 문화적 왜곡 등) 를 사후에 수정할 수 있는 실용적인 솔루션을 제공합니다.
법적/윤리적 준수: GDPR 의 "잊힐 권리 (Right to be Forgotten)"와 같은 법적 요구사항을 충족시키기 위해, 식별 가능한 개인 정보를 모델에서 선택적으로 제거할 수 있는 능력을 제공합니다.
기술적 진보: 프롬프트에 의존하지 않는 정밀한 인스턴스 제어 기술은 생성 모델의 안전성과 윤리성을 높이는 중요한 이정표가 됩니다.

결론적으로, 이 논문은 확산 모델에서 텍스트 프롬프트로 정의하기 어려운 특정 원치 않는 인스턴스를 선택적으로 삭제하면서도 모델의 전반적인 성능을 훼손하지 않는 혁신적인 방법을 제시했습니다.

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

1. 문제 상황: "말이 통하지 않는 실수"

2. 해결책: "기억을 수정하는 마법 지우개"

3. 핵심 기술: "시간에 따른 교정"과 "갈등 해결"

4. 왜 이 기술이 중요한가요? (실생활 예시)

요약

1. 문제 정의 (Problem Definition)

2. 제안 방법 (Methodology)

가. 서로게이트 기반 포기 목표 (Surrogate-based Forgetting Objective)

나. 시간 단계 인식 가중치 (Timestep-aware Weighting)

다. 그래디언트 외과 수술 (Gradient Surgery)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 중요성 (Significance)

유사한 논문

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers