EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

이 논문은 플로우 매칭 기반의 차세대 이미지 및 비디오 생성 모델에서 원하지 않는 개념을 효과적으로 제거하면서도 생성 품질과 시간적 일관성을 유지하기 위해, 제약 조건이 있는 다목적 최적화와 효율적인 그라디언트 수술 기법을 통합한 'EraseAnything++' 프레임워크를 제안합니다.

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao, Shiji Zhou, Wenjun Wu

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"EraseAnything++"**라는 새로운 기술을 소개합니다. 이 기술은 최신 AI 그림 그리기 (이미지 생성) 와 영상 만들기 (비디오 생성) 모델에서 원치 않는 내용 (예: 선정적인 장면, 특정 유명인, 저작권이 있는 스타일 등) 을 지우면서도, AI 가 그리는 다른 그림들의 질은 그대로 유지하게 해주는 방법입니다.

기존의 기술들은 최신 AI 모델 (Flux, OpenSora 등) 에 적용하기 어렵거나, 지우려고 하면 다른 것까지 망가뜨리는 문제가 있었습니다. 이 논문은 이를 해결했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제 상황: "치약 다시 넣기"와 "우유에 커피"

상상해 보세요. AI 는 거대한 요리사입니다. 이 요리사는 수많은 레시피 (데이터) 를 보고 배워서 어떤 주문이 들어오면 맛있는 요리를 만들어냅니다. 하지만 가끔은 "비밀 레시피"나 "위험한 재료"가 섞여 있어서, 특정 주문을 받으면 **유해한 요리 (NSFW 콘텐츠)**를 만들어내기도 합니다.

  • 기존 방법의 문제:
    • 과도한 청소: 유해한 재료를 없애려고 너무 세게 닦아서, 요리사 자신이 "소금도 넣지 마라"는 식으로 **기초적인 요리 능력까지 잃어버리는 경우 (기억 상실)**가 많았습니다.
    • 새로운 모델의 어려움: 최신 AI 모델은 요리 방식이 완전히 달라져서 (U-Net 에서 Transformer 로), 예전에 쓰던 청소 도구로는 제대로 닦을 수 없었습니다.
    • 비디오의 난이도: 그림은 한 장이지만, 영상은 1 초당 24 장의 그림이 이어지는 것입니다. 첫 장은 잘 지웠는데, 2 장, 3 장으로 갈수록 지워진 내용이 다시 튀어나오거나 (시간적 흔들림), 영상이 찌그러지는 문제가 있었습니다.

2. 해결책: EraseAnything++ (스마트한 '선택적 지우개')

이 논문이 제안한 **EraseAnything++**는 마치 **"유능한 편집자"**와 같습니다.

비유 1: "갈라진 길"을 만드는 다목적 최적화 (Multi-Objective Optimization)

이 기술의 핵심은 **"원치 않는 것은 확실히 지우되, 다른 것은 절대 건드리지 말라"**는 두 가지 목표를 동시에 달성하는 것입니다.

  • 비유: AI 를 운전하는 차라고 상상해 보세요.
    • 목표 A: "유해한 길 (원치 않는 개념)"로 가지 않게 브레이크를 밟아야 합니다.
    • 목표 B: "안전한 길 (다른 개념)"로 가는 가속은 멈추지 말아야 합니다.
    • 기존 기술: 브레이크를 너무 세게 밟으면 차가 멈춰서 (기억 상실) 다른 곳도 못 갑니다.
    • EraseAnything++: 스마트한 조향 장치를 달았습니다. 유해한 길로 치우치기 시작하면, 그 방향으로만 살짝 핸들을 꺾고 (기울기 수술, Gradient Surgery), 다른 방향으로는 가속을 유지합니다. 두 가지 목표가 충돌할 때, 서로를 해치지 않는 최적의 균형점을 찾아냅니다.

비유 2: "앵커와 전파" (Anchor-and-Propagate) - 영상용 기술

영상에서 특정 내용을 지울 때는 첫 장이 중요합니다.

  • 비유: 긴 줄을 당기는 게임 (줄다리기) 을 생각해 보세요.
    • 앵커 (Anchor): 줄의 **시작점 (첫 번째 프레임)**을 단단히 고정합니다. 여기서 유해한 내용을 완벽하게 지워버립니다.
    • 전파 (Propagate): 그 고정된 상태를 바탕으로 줄을 당겨가며, 나중에 줄이 흔들려서 유해한 내용이 다시 튀어나오지 않도록 줄 전체를 감시합니다.
    • 효과: 첫 장만 지우고 나머지를 내버려 두면, 시간이 지나면서 유해한 내용이 다시 나타날 수 있습니다. 하지만 이 기술은 시작부터 끝까지 일관되게 지워진 상태를 유지시킵니다.

비유 3: "유사한 것"을 구별하는 교활한 전략

AI 는 "나체 (Nude)"라는 단어를 지우려고 하면, 비슷한 단어인 "벌거벗은 (Naked)"나 "옷을 입지 않은 (Unclothed)"도 함께 지워버려서 AI 가 정상적인 사람 그림도 못 그리게 만들 수 있습니다.

  • EraseAnything++의 전략:
    • AI 에게 "나체"라는 개념을 유해한 것으로 인식하게 만들되, "나체"와 뜻이 비슷한 다른 단어들은 아예 관련 없는 것으로 인식하게 훈련시킵니다.
    • 마치 "나체"라는 단어를 AI 의 뇌에서 "사과"라는 단어로 착각하게 만들어서, "사과"를 그릴 때 "나체"가 생각나지 않게 하는 것과 같습니다. 이렇게 하면 유해한 내용은 지워지지만, 정상적인 그림은 여전히 잘 그릴 수 있습니다.

3. 왜 이것이 중요한가요? (결과)

이 기술을 적용하면 다음과 같은 변화가 일어납니다.

  1. 정확한 삭제: 원치 않는 내용 (예: 선정성, 특정 유명인) 은 완벽하게 사라집니다.
  2. 질 유지: 다른 그림이나 영상은 원래의 화질과 자연스러움을 잃지 않습니다. (기존 방법들은 그림이 뭉개지거나 색이 이상해지는 경우가 많았습니다.)
  3. 영상의 일관성: 긴 영상에서도 처음부터 끝까지 유해한 내용이 다시 튀어나오지 않습니다.
  4. 최신 AI 지원: 최신 AI 모델 (Flux, OpenSora 등) 에서도 잘 작동합니다.

요약

**EraseAnything++**는 최신 AI 그림/영상 모델에게 "나쁜 것만 골라내서 지우되, 좋은 것은 그대로 남겨두는" 능력을 가르치는 기술입니다. 마치 정교한 외과 수술처럼, 병 (유해 콘텐츠) 만 제거하고 건강한 조직 (일반적인 생성 능력) 은 보호하며, 긴 영상에서도 그 상태가 유지되도록 합니다.

이 기술은 AI 가 더 안전하면서도, 여전히 창의적이고 유용하게 사용될 수 있는 길을 열어줍니다.