Prototype-Guided Concept Erasure in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

🚨 문제: "나쁜 것"은 모양이 천차만별이다!

생각해 보세요. AI 에게 **"폭력 (Violence)"**이나 **"성적인 내용 (Sexual)"**을 그리지 말라고 시켰다고 칩시다.

기존의 방법 (단일 사냥꾼):
AI 는 "폭력"이라는 단어를 들으면, 주로 **'피가 튀는 장면'**이나 '칼' 같은 구체적인 이미지만 기억하고 지웁니다. 마치 "피가 나는 것만 막으면 폭력은 사라진다"라고 생각하는 거죠.
하지만 문제는 '폭력'의 종류가 너무 많다는 것입니다. 총격전, 시위, 싸움, 폭동 등 모양이 다릅니다. 기존 방법은 피가 튀는 장면은 막아도, 총을 든 장면이나 시위 장면은 여전히 그려냅니다. 마치 '피만 막으면 다 해결된다고 생각해서, 총알은 그냥 통과시키는' 상황과 비슷합니다.

💡 해결책: "프로토타입 (Prototype)"이라는 나만의 사냥꾼 팀

이 논문은 "폭력"이나 "성적"이라는 개념은 하나의 모양이 아니라, 여러 가지 얼굴을 가진 다면체라고 말합니다. 그래서 하나만 막는 게 아니라, 여러 가지 얼굴을 모두 잡을 수 있는 팀을 꾸립니다.

1. 개념의 '얼굴'들을 찾아내다 (프로토타입 수집)

연구자들은 AI 가 그리는 수천 장의 이미지를 분석했습니다. 그리고 "폭력"이라는 주제가 어떤 다양한 모습으로 나타나는지 찾아냈습니다.

얼굴 1: 피가 튀는 잔혹한 장면
얼굴 2: 총격전이나 싸움
얼굴 3: 시위나 폭동
얼굴 4: 범죄적인 분위기 등

이렇게 다양한 '얼굴' (프로토타입) 들을 모아서 하나의 팀을 만듭니다. 마치 "나쁜 놈은 피만 흘리는 게 아니야, 총도 들고, 시위도 하고, 폭동도 치지. 그러니 이 모든 얼굴을 다 기억해!"라고 팀원들에게 지시하는 것과 같습니다.

2. AI 의 뇌에 주입하다 (학습 없이 작동)

이 방법은 AI 를 다시 훈련시키는 (재학습) 번거로운 작업을 하지 않습니다. 대신, AI 가 그림을 그리는 **순간 (추론 단계)**에 이 '팀'을 투입합니다.

상황: 사용자가 "어떤 장면을 그려줘"라고 요청합니다.
작동: AI 가 그림을 그리기 시작하면, 우리 팀이 **"이 그림에 우리 팀원 중 누구 (예: 폭력적인 얼굴 2) 와 비슷한 게 있나?"**를 실시간으로 확인합니다.
제동: 만약 비슷한 게 보이면, AI 에게 **"아니야, 그건 안 돼! 그 방향은 금지야!"**라고 강력한 신호를 보냅니다. (이걸 '부정적 조건부 가이드'라고 합니다.)

🎯 비유로 정리하기

기존 방법 (ESD, RECE 등):

마치 **"불을 끄는 소방관"**이 한 명만 있는 상황입니다. 불이 난 곳 (나쁜 개념) 이 하나만 있다면 잘 끄지만, 불이 여러 곳에서 동시에 나거나 (다양한 폭력 장면), 연기 (은유적 표현) 로 변하면 한 명만으로는 다 잡을 수 없습니다.

이 논문 방법 (Prototype-Guided Erasure):

**"유령 사냥꾼 팀"**을 소환하는 것입니다.

유령 (나쁜 개념) 이 어떤 모습으로 나타나는지 미리 조사합니다 (피, 총, 시위 등 다양한 모습).

각 모습에 맞는 전문 사냥꾼 (프로토타입) 을 팀으로 꾸립니다.

그림을 그리는 순간, 팀원들이 **"어? 저기 유령의 '총' 모양이 보인다!"**라고 외치며 그 부분을 즉시 지워버립니다.

중요한 건, **유령이 아닌 다른 것들 (예: 평화로운 풍경, 아름다운 꽃)**은 건드리지 않고 그대로 남겨둔다는 것입니다.

✨ 이 방법의 장점

넓은 개념도 완벽하게 잡는다: '폭력'이나 '성적'처럼 모양이 복잡한 주제도, 다양한 얼굴을 가진 팀이 모두 잡아서 완벽하게 지웁니다.
그림의 질은 그대로: 나쁜 내용만 지우고, 그림의 아름다움이나 다른 디테일은 그대로 유지됩니다. (화질이 떨어지지 않음)
빠르고 간편함: AI 를 다시 훈련시킬 필요가 없어서, 기존 모델을 그대로 쓰면서 바로 적용할 수 있습니다.

📝 결론

이 논문은 **"나쁜 개념은 하나만 잡는 게 아니라, 그 개념이 가진 모든 다양한 모습을 미리 파악해서 팀으로 잡아야 한다"**는 아이디어를 제시합니다. 마치 **"유령 사냥꾼 팀"**을 만들어서, AI 가 그리는 그림에서 나쁜 내용을 찾아내어 정확하게 지워버리는 똑똑한 방법입니다.

이 기술이 발전하면, AI 가 우리가 원하지 않는 위험한 내용을 그리는 일은 훨씬 줄어들고, 더 안전하고 통제 가능한 AI 를 사용할 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존 방법의 한계:
- 기존 개념 소거 (Concept Erasure) 기법들은 'Pikachu'나 'Elon Musk'와 같이 **구체적이고 좁은 범위 (Narrow Concepts)**의 개념을 제거하는 데는 효과적입니다.
- 그러나 **'성적 (Sexual)', '폭력 (Violence)', '혐오 (Hate)'**와 같은 **광범위하고 추상적인 개념 (Broad Concepts)**에 대해서는 성능이 크게 저하됩니다.
- 근본 원인: 광범위한 개념은 의상, 자세, 배경, 텍스트 표현 등 매우 다양하고 이질적인 (Heterogeneous) 방식으로 표현될 수 있습니다. 기존 방법들은 이러한 다면적인 개념을 단일 방향 (Single Direction) 또는 단일 신호로 가정하고 처리하려 하기 때문에, 일부 표현은 제거되더라도 다른 의미 모드 (Semantic Modes) 는 여전히 생성되는 '불완전한 소거'가 발생합니다.

2. 제안 방법 (Methodology: Prototype-Guided Concept Erasure)

저자들은 모델의 내재된 임베딩 기하학적 구조를 활용하여, 학습이 필요 없는 (Training-free) 새로운 소거 기법을 제안합니다. 핵심 아이디어는 광범위한 개념을 단일 벡터가 아닌 여러 개의 '개념 프로토타입 (Concept Prototypes)' 집합으로 모델링하는 것입니다.

2.1. 핵심 단계

개념 프로토타입 추출 (Image Space):
- 대상 개념 ( $\kappa$ ) 이 포함된 프롬프트와 해당 개념을 제거한 프롬프트 (Contrastive Prompt) 를 사용하여 이미지를 생성합니다.
- CLIP 이미지 인코더를 통해 두 이미지 집합의 임베딩 차이를 계산합니다.
- 이 차이 벡터들을 클러스터링 (Clustering) 하여, 개념의 다양한 의미 모드 (Semantic Modes) 를 대표하는 이미지 공간의 프로토타입 ( $p_I$ ) 집합을 도출합니다.
텍스트 공간으로 전이 (Text Space Transfer):
- 확산 모델 (LDM) 은 텍스트 프롬프트로 조건부 학습되므로, 이미지 프로토타입을 텍스트 임베딩 공간으로 변환해야 합니다.
- 학습 가능한 소프트 프롬프트 (Soft Prompt, $p_T$ ) 를 초기화하고, CLIP 텍스트 인코더를 통해 이를 이미지 프로토타입과 최대한 유사한 방향 (Cosine Similarity 최대화) 으로 최적화합니다.
- 이를 통해 텍스트 공간의 개념 프로토타입 세트를 생성합니다.
추론 시 가이드 (Inference Guidance):
- 사용자가 입력한 프롬프트 ( $c$ ) 와 학습된 텍스트 프로토타입들 간의 코사인 유사도를 계산하여 가장 관련성이 높은 프로토타입 ( $p_{k^*}$ ) 을 선택합니다.
- **클래스프리 가이드 (Classifier-Free Guidance, CFG)**를 수정하여, 선택된 프로토타입을 **부정적 조건부 신호 (Negative Conditioning Signal)**로 사용합니다.
- 수식적으로, 노이즈 예측 ( $\tilde{\epsilon}_\theta$ ) 에서 목표 개념의 프로토타입 방향을 뺌으로써 해당 개념의 생성 확률을 억제합니다.
- $\tilde{\epsilon}_\theta(zt, c) = \epsilon_\theta(zt) + \alpha(\epsilon_\theta(zt, c) - \epsilon_\theta(zt)) - \beta(\epsilon_\theta(zt, p_{k^*}) - \epsilon_\theta(zt))$

3. 주요 기여 (Key Contributions)

기존 방법의 약점 규명: 광범위한 추상 개념은 단일 방향으로는 완전히 제거할 수 없으며, 이질적인 여러 의미 모드 (Heterogeneous Modes) 로 구성되어 있음을 규명했습니다.
프로토타입 기반 프레임워크 제안: 이미지와 텍스트 임베딩 공간 모두에서 개념의 다중 모드 분포를 대표하는 프로토타입 집합을 학습하고, 이를 추론 시 부정적 가이드 신호로 활용하는 학습 불필요 (Training-free) 프레임워크를 제안했습니다.
높은 성능과 품질 유지: 다양한 벤치마크 (I2P, Adversarial Attacks) 에서 기존 방법들 (ESD, RECE, Safree 등) 보다 광범위한 개념 제거 성능이 월등히 우수하면서도, 이미지 생성의 전반적인 품질 (Aesthetic Score, CLIP Score) 을 유지함을 실험적으로 입증했습니다.

4. 실험 결과 (Results)

광범위한 개념 제거 (Broad Concept Erasure):
- I2P 데이터셋 (Hate, Harassment, Violence, Sexual 등 7 가지 카테고리) 에서 Q16 및 NudeNet 검출기를 사용하여 평가했습니다.
- 제안된 방법은 모든 카테고리에서 가장 낮은 부적절 콘텐츠 검출률을 기록했습니다. 특히 'Violence'나 'Sexual'처럼 표현이 다양한 개념에서 기존 방법들이 놓치던 부분까지 효과적으로 제거했습니다.
- 적대적 공격 (Adversarial Attacks) 테스트 (Ring-a-Bell, Prompt4Debugging 등) 에서도 높은 제거 성공률 (ASR) 을 보였습니다.
좁은 개념 제거 (Narrow Concept Erasure):
- 예술 스타일 (Van Gogh, Monet) 과 지식재산권 (Mickey, Snoopy) 제거에서도 우수한 성능을 보였습니다.
- 지식 보존 (Knowledge Preservation): 제거된 개념 외의 다른 개념 (예: 'Snoopy'를 지우되 'Dog' 개념은 유지) 에 대한 드리프트가 적고, FID 및 CLIP Score 에서 높은 점수를 기록했습니다.
프로토타입 수에 대한 분석 (Ablation Study):
- 광범위한 개념 (예: Sexual) 의 경우, 프로토타입 수 ( $K$ ) 가 너무 적으면 제거가 불완전하고, 너무 많으면 노이즈가 발생합니다.
- 실험 결과, $K \approx 16$ 정도의 중간 범위의 프로토타입 수가 제거의 완전성과 생성 품질 간의 최적 균형을 이루는 것으로 확인되었습니다.

5. 의의 및 결론 (Significance)

안전하고 제어 가능한 생성: 이 연구는 T2I 모델의 안전성 문제를 해결하기 위해, 단순한 필터링을 넘어 모델의 내부 표현 구조를 정교하게 제어하는 새로운 패러다임을 제시합니다.
실용성: 모델 재학습 (Fine-tuning) 이 필요 없는 **추론 시 (Inference-time)**만 작동하는 방식이라 계산 비용이 낮고 다양한 모델 (SD v1.4, SDXL, SD3.5 등) 에 쉽게 적용 가능합니다.
미래 방향: 광범위하고 복잡한 개념을 어떻게 체계적으로 분해하고 제어할 것인지에 대한 중요한 통찰을 제공하며, 생성형 AI 의 윤리적 사용과 규제 기술 발전에 기여할 것으로 기대됩니다.

요약: 본 논문은 "광범위한 개념 (Broad Concepts) 은 단일 벡터로 제거할 수 없다"는 통찰에서 출발하여, 여러 개의 프로토타입을 학습하여 부정적 가이드 신호로 활용하는 학습 불필요 기법을 제안했습니다. 이를 통해 기존 방법들이 해결하지 못했던 복잡한 유해 콘텐츠 (성적, 폭력 등) 를 효과적으로 제거하면서도 이미지 품질을 유지하는 성과를 달성했습니다.