EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"EraseAnything++"**라는 새로운 기술을 소개합니다. 이 기술은 최신 AI 그림 그리기 (이미지 생성) 와 영상 만들기 (비디오 생성) 모델에서 원치 않는 내용 (예: 선정적인 장면, 특정 유명인, 저작권이 있는 스타일 등) 을 지우면서도, AI 가 그리는 다른 그림들의 질은 그대로 유지하게 해주는 방법입니다.

기존의 기술들은 최신 AI 모델 (Flux, OpenSora 등) 에 적용하기 어렵거나, 지우려고 하면 다른 것까지 망가뜨리는 문제가 있었습니다. 이 논문은 이를 해결했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "치약 다시 넣기"와 "우유에 커피"

상상해 보세요. AI 는 거대한 요리사입니다. 이 요리사는 수많은 레시피 (데이터) 를 보고 배워서 어떤 주문이 들어오면 맛있는 요리를 만들어냅니다. 하지만 가끔은 "비밀 레시피"나 "위험한 재료"가 섞여 있어서, 특정 주문을 받으면 **유해한 요리 (NSFW 콘텐츠)**를 만들어내기도 합니다.

기존 방법의 문제:
- 과도한 청소: 유해한 재료를 없애려고 너무 세게 닦아서, 요리사 자신이 "소금도 넣지 마라"는 식으로 **기초적인 요리 능력까지 잃어버리는 경우 (기억 상실)**가 많았습니다.
- 새로운 모델의 어려움: 최신 AI 모델은 요리 방식이 완전히 달라져서 (U-Net 에서 Transformer 로), 예전에 쓰던 청소 도구로는 제대로 닦을 수 없었습니다.
- 비디오의 난이도: 그림은 한 장이지만, 영상은 1 초당 24 장의 그림이 이어지는 것입니다. 첫 장은 잘 지웠는데, 2 장, 3 장으로 갈수록 지워진 내용이 다시 튀어나오거나 (시간적 흔들림), 영상이 찌그러지는 문제가 있었습니다.

2. 해결책: EraseAnything++ (스마트한 '선택적 지우개')

이 논문이 제안한 **EraseAnything++**는 마치 **"유능한 편집자"**와 같습니다.

비유 1: "갈라진 길"을 만드는 다목적 최적화 (Multi-Objective Optimization)

이 기술의 핵심은 **"원치 않는 것은 확실히 지우되, 다른 것은 절대 건드리지 말라"**는 두 가지 목표를 동시에 달성하는 것입니다.

비유: AI 를 운전하는 차라고 상상해 보세요.
- 목표 A: "유해한 길 (원치 않는 개념)"로 가지 않게 브레이크를 밟아야 합니다.
- 목표 B: "안전한 길 (다른 개념)"로 가는 가속은 멈추지 말아야 합니다.
- 기존 기술: 브레이크를 너무 세게 밟으면 차가 멈춰서 (기억 상실) 다른 곳도 못 갑니다.
- EraseAnything++: 스마트한 조향 장치를 달았습니다. 유해한 길로 치우치기 시작하면, 그 방향으로만 살짝 핸들을 꺾고 (기울기 수술, Gradient Surgery), 다른 방향으로는 가속을 유지합니다. 두 가지 목표가 충돌할 때, 서로를 해치지 않는 최적의 균형점을 찾아냅니다.

비유 2: "앵커와 전파" (Anchor-and-Propagate) - 영상용 기술

영상에서 특정 내용을 지울 때는 첫 장이 중요합니다.

비유: 긴 줄을 당기는 게임 (줄다리기) 을 생각해 보세요.
- 앵커 (Anchor): 줄의 **시작점 (첫 번째 프레임)**을 단단히 고정합니다. 여기서 유해한 내용을 완벽하게 지워버립니다.
- 전파 (Propagate): 그 고정된 상태를 바탕으로 줄을 당겨가며, 나중에 줄이 흔들려서 유해한 내용이 다시 튀어나오지 않도록 줄 전체를 감시합니다.
- 효과: 첫 장만 지우고 나머지를 내버려 두면, 시간이 지나면서 유해한 내용이 다시 나타날 수 있습니다. 하지만 이 기술은 시작부터 끝까지 일관되게 지워진 상태를 유지시킵니다.

비유 3: "유사한 것"을 구별하는 교활한 전략

AI 는 "나체 (Nude)"라는 단어를 지우려고 하면, 비슷한 단어인 "벌거벗은 (Naked)"나 "옷을 입지 않은 (Unclothed)"도 함께 지워버려서 AI 가 정상적인 사람 그림도 못 그리게 만들 수 있습니다.

EraseAnything++의 전략:
- AI 에게 "나체"라는 개념을 유해한 것으로 인식하게 만들되, "나체"와 뜻이 비슷한 다른 단어들은 아예 관련 없는 것으로 인식하게 훈련시킵니다.
- 마치 "나체"라는 단어를 AI 의 뇌에서 "사과"라는 단어로 착각하게 만들어서, "사과"를 그릴 때 "나체"가 생각나지 않게 하는 것과 같습니다. 이렇게 하면 유해한 내용은 지워지지만, 정상적인 그림은 여전히 잘 그릴 수 있습니다.

3. 왜 이것이 중요한가요? (결과)

이 기술을 적용하면 다음과 같은 변화가 일어납니다.

정확한 삭제: 원치 않는 내용 (예: 선정성, 특정 유명인) 은 완벽하게 사라집니다.
질 유지: 다른 그림이나 영상은 원래의 화질과 자연스러움을 잃지 않습니다. (기존 방법들은 그림이 뭉개지거나 색이 이상해지는 경우가 많았습니다.)
영상의 일관성: 긴 영상에서도 처음부터 끝까지 유해한 내용이 다시 튀어나오지 않습니다.
최신 AI 지원: 최신 AI 모델 (Flux, OpenSora 등) 에서도 잘 작동합니다.

요약

**EraseAnything++**는 최신 AI 그림/영상 모델에게 "나쁜 것만 골라내서 지우되, 좋은 것은 그대로 남겨두는" 능력을 가르치는 기술입니다. 마치 정교한 외과 수술처럼, 병 (유해 콘텐츠) 만 제거하고 건강한 조직 (일반적인 생성 능력) 은 보호하며, 긴 영상에서도 그 상태가 유지되도록 합니다.

이 기술은 AI 가 더 안전하면서도, 여전히 창의적이고 유용하게 사용될 수 있는 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

최근 Stable Diffusion v3, Flux, OpenSora 와 같은 차세대 텍스트 - 이미지 (T2I) 및 텍스트 - 비디오 (T2V) 생성 모델들은 Rectified Flow(정류 흐름) 기반의 목적 함수와 Transformer 아키텍처를 채택하여 성능을 획기적으로 개선했습니다. 그러나 이러한 발전과 함께 모델이 부적절하거나 위험한 콘텐츠 (NSFW, 저작권 침해 등) 를 생성할 수 있다는 우려가 커졌습니다.

기존의 개념 소거 (Concept Erasure) 방법들은 주로 이전 세대인 U-Net 기반의 DDPM/DDIM 모델 (예: Stable Diffusion v1/v2) 을 대상으로 개발되었습니다. 이러한 기존 방법들은 다음과 같은 이유로 최신 모델에 적용될 때 심각한 한계를 보입니다:

아키텍처 불일치: 최신 모델은 명시적인 Cross-Attention 레이어가 없거나 구조가 달라, 기존 가중치 조작 기법이 작동하지 않음.
텍스트 인코더 차이: CLIP 대신 T5와 같은 문장 단위 임베딩을 사용하는 경우, 단어 수준의 유사성 기반 소거가 비효율적임.
비디오의 시간적 일관성 문제: 비디오 생성 시, 소거된 개념이 시간적 주의 (Temporal Attention) 를 통해 후속 프레임으로 유출되거나 (Temporal Drift), 소거 과정에서 움직임이 뚝뚝 끊기는 현상이 발생함.
균형의 어려움: 원하지 않는 개념을 제거하는 동시에 모델의 일반적 생성 능력 (Utility) 을 보존하는 것 사이의 균형을 맞추기 어려움.

2. 제안 방법론 (Methodology)

저자들은 **EraseAnything++**를 제안하여 이미지와 비디오 모두에서 개념 소거를 가능하게 하는 통합 프레임워크를 제시합니다. 핵심은 개념 소거를 제약 조건이 있는 다목적 최적화 (Constrained Multi-Objective Optimization, MOO) 문제로 재정의하고, 이를 효율적으로 해결하는 것입니다.

A. 다목적 최적화 프레임워크 (Unified MOO Framework)

목표: 타겟 개념의 제거 (Erasure, $L_e$ ) 를 최대화하면서, 무관한 개념의 생성 능력 보존 (Preservation, $L_p$ ) 을 제약 조건으로 둡니다.
함수: $L_e$ 를 최소화하고 $L_p$ 의 손실 증가를 허용 오차 ( $\epsilon$ ) 이내로 제한하는 문제를 설정합니다.
해결책: 암시적 기울기 수술 (Implicit Gradient Surgery) 기법을 도입합니다.
- 기존 명시적 기울기 수술 (Explicit Gradient Surgery) 은 두 가지 목적 함수에 대한 기울기를 별도로 계산해야 하여 계산 비용이 2 배가 됩니다.
- EraseAnything++ 는 **이중 변수 (Dual Variable, $\lambda$ )**를 경사 하강법으로 근사 업데이트하여, 단일 역전파 (Backpropagation) 만으로 기울기 충돌을 해결하고 계산 효율성을 극대화합니다.

B. 이미지 생성 모델 (Flux 등) 적용

소거 목적 ( $L_e$ ):
- Flow Matching 기반 ESD Loss: 기존 ESD 를 Rectified Flow 에 맞게 수정하여, 타겟 개념이 포함된 프롬프트에 대한 속도 (Velocity) 예측을 무조건적 (Null-text) 궤적으로 유도합니다.
- Attention Map Regularization: Transformer 의 자기 주의 (Self-Attention) 맵에서 타겟 토큰의 활성화 값을 희소화 (Sparsity Penalty) 하여 개념 잔여물 (Residue) 을 제거합니다.
보존 목적 ( $L_p$ ):
- LoRA 기반 미세 조정: 무관한 개념에 대한 생성 능력을 보존하기 위해 LoRA 를 활용합니다.
- 역방향 자기 대비 손실 (Reverse Self-Contrastive Loss, RSC): LLM(GPT-4o) 을 활용해 타겟 개념과 의미적으로 다른 무관한 개념들을 동적으로 생성합니다. 타겟 개념의 특징을 무관한 개념의 특징에 가깝게 만들고, 동의어 (Synonym) 특징과는 멀어지도록 학습시켜, 모델이 타겟 개념을 '의미 없는 노이즈'로 인식하도록 유도합니다.

C. 비디오 생성 모델 (Open-Sora 등) 적용

Anchor-and-Propagate 전략: 비디오의 시간적 일관성을 확보하기 위해 도입된 2 단계 억제 메커니즘입니다.
1. Anchor (초기 프레임): 첫 번째 프레임을 '앵커'로 설정하여 공간적 최적화 (이미지 소거 + 보존) 를 완전히 수행합니다. 이는 전체 시퀀스의 시작점을 정화합니다.
2. Propagate (전체 프레임): 3D Video DiT 아키텍처 내에서 시간적 주의 경로를 통해 소거된 상태가 누출되지 않도록, 3D 볼륨 전체에 걸쳐 Attention Regularization 과 보존 손실을 적용합니다. 이를 통해 시간적 드리프트 (Temporal Drift) 를 방지합니다.

3. 주요 기여 (Key Contributions)

통합 프레임워크: Flow Matching 기반 Transformer 아키텍처 (Flux, OpenSora) 에 적용 가능한 최초의 범용 개념 소거 프레임워크를 제시했습니다.
이론적 기반: 개념 소거를 엄격한 수학적 모델 (제약 다목적 최적화) 로 공식화하고, 이를 해결하기 위한 암시적 기울기 수술 알고리즘을 제안하여 계산 효율성과 이론적 수렴성을 보장했습니다.
새로운 최적화 전략:
- LoRA 기반 파라미터 적응, Attention Map 정규화, 역방향 자기 대비 손실 (RSC) 을 도입하여 정밀한 소거와 보존의 균형을 달성했습니다.
- 비디오를 위해 Anchor-and-Propagate 전략을 개발하여 시간적 일관성 문제를 해결했습니다.
광범위한 실험: 이미지 (Flux) 와 비디오 (OpenSora) 벤치마크에서 기존 최첨단 방법 (SOTA) 들을 압도하는 성능을 입증했습니다.

4. 실험 결과 (Results)

이미지 소거 (Flux 모델):
- NSFW 소거: I2P 데이터셋에서 UCE 와 유사하거나 더 낮은 노출도 (Explicit Content) 를 보였으며, 특히 FID 와 CLIP 점수 (생성 품질) 는 UCE 보다 훨씬 우수하여 모델의 일반적 능력을 보존했습니다.
- 스타일/개념 소거: 200 아티스트 스타일 소거 및 엔티티/관계 소거 테스트에서, 소거된 개념의 정확도 ( $ACC_e$ ) 와 보존된 개념의 정확도 ( $ACC_{ir}$ ) 간의 균형 지표 ( $H_a$ ) 에서 모든 기존 방법 (ESD, MACE, EAP 등) 보다 최상의 성능을 기록했습니다.
- 공격 견고성: 프롬프트 변형 (Obfuscation) 공격에 대해 기존 방법들보다 훨씬 낮은 공격 성공률을 보이며, 토큰 단위가 아닌 의미적 개념 단위로 소거됨을 입증했습니다.
비디오 소거 (OpenSora 모델):
- NSFW 비디오: Gen 과 Ring-A-Bell 데이터셋에서 NSFW 프레임 비율을 가장 낮게 유지했습니다.
- 품질 보존: SAFREE 나 NegPrompt 와 달리, 소거 과정에서 발생하는 시각적 아티팩트 (과포화, 깜빡임) 나 시간적 불일치를 최소화했습니다. T2VUnlearning 은 과도한 소거 (주제 전체 삭제) 를 보인 반면, EraseAnything++ 는 타겟 개념만 정밀하게 제거하고 주체는 유지했습니다.
- ImageNet 객체 소거: 제거된 객체의 성공률 (ESR) 은 94.15% 로 가장 높았으며, 보존된 객체의 성공률 (PSR) 도 76.45% 로 원본 모델에 가까운 성능을 유지했습니다.

5. 의의 및 결론 (Significance)

EraseAnything++ 는 차세대 생성형 AI 모델 (Flow-Matching Transformer) 의 안전성 문제를 해결하는 중요한 이정표입니다.

기술적 혁신: 단순한 미세 조정을 넘어, 수학적 최적화 이론을 기반으로 한 비대칭적 제약 최적화를 통해 '소거'와 '보존'이라는 상충되는 목표를 효과적으로 조화시켰습니다.
실용성: 계산 비용이 적게 들고 (단일 역전파), 비디오와 이미지 모두에 적용 가능하여 실제 배포 환경에서의 활용 가능성이 높습니다.
미래 지향성: 생성형 AI 의 책임 있는 배포 (Responsible Deployment) 를 위해 필수적인 '소거 (Unlearning)' 기술의 새로운 표준을 제시하며, 특히 비디오 영역에서의 개념 소거 문제를 해결한 최초의 체계적인 접근법으로 평가됩니다.

이 연구는 생성 모델이 안전하게 사용될 수 있도록 하되, 그 창의성과 품질을 훼손하지 않는 균형을 찾는 데 있어 획기적인 진전을 이루었습니다.