Prototype-Guided Concept Erasure in Diffusion Models

이 논문은 기존 방법으로는 제거하기 어려운 광범위한 개념을 효과적으로 삭제하기 위해, 모델의 잠재 임베딩 기하학을 분석하여 개념 프로토타입을 추출하고 이를 부정적 조건 신호로 활용하는 새로운 접근법을 제안합니다.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚨 문제: "나쁜 것"은 모양이 천차만별이다!

생각해 보세요. AI 에게 **"폭력 (Violence)"**이나 **"성적인 내용 (Sexual)"**을 그리지 말라고 시켰다고 칩시다.

  • 기존의 방법 (단일 사냥꾼):
    AI 는 "폭력"이라는 단어를 들으면, 주로 **'피가 튀는 장면'**이나 '칼' 같은 구체적인 이미지만 기억하고 지웁니다. 마치 "피가 나는 것만 막으면 폭력은 사라진다"라고 생각하는 거죠.
    하지만 문제는 '폭력'의 종류가 너무 많다는 것입니다. 총격전, 시위, 싸움, 폭동 등 모양이 다릅니다. 기존 방법은 피가 튀는 장면은 막아도, 총을 든 장면이나 시위 장면은 여전히 그려냅니다. 마치 '피만 막으면 다 해결된다고 생각해서, 총알은 그냥 통과시키는' 상황과 비슷합니다.

💡 해결책: "프로토타입 (Prototype)"이라는 나만의 사냥꾼 팀

이 논문은 "폭력"이나 "성적"이라는 개념은 하나의 모양이 아니라, 여러 가지 얼굴을 가진 다면체라고 말합니다. 그래서 하나만 막는 게 아니라, 여러 가지 얼굴을 모두 잡을 수 있는 팀을 꾸립니다.

1. 개념의 '얼굴'들을 찾아내다 (프로토타입 수집)

연구자들은 AI 가 그리는 수천 장의 이미지를 분석했습니다. 그리고 "폭력"이라는 주제가 어떤 다양한 모습으로 나타나는지 찾아냈습니다.

  • 얼굴 1: 피가 튀는 잔혹한 장면
  • 얼굴 2: 총격전이나 싸움
  • 얼굴 3: 시위나 폭동
  • 얼굴 4: 범죄적인 분위기 등

이렇게 다양한 '얼굴' (프로토타입) 들을 모아서 하나의 팀을 만듭니다. 마치 "나쁜 놈은 피만 흘리는 게 아니야, 총도 들고, 시위도 하고, 폭동도 치지. 그러니 이 모든 얼굴을 다 기억해!"라고 팀원들에게 지시하는 것과 같습니다.

2. AI 의 뇌에 주입하다 (학습 없이 작동)

이 방법은 AI 를 다시 훈련시키는 (재학습) 번거로운 작업을 하지 않습니다. 대신, AI 가 그림을 그리는 **순간 (추론 단계)**에 이 '팀'을 투입합니다.

  • 상황: 사용자가 "어떤 장면을 그려줘"라고 요청합니다.
  • 작동: AI 가 그림을 그리기 시작하면, 우리 팀이 **"이 그림에 우리 팀원 중 누구 (예: 폭력적인 얼굴 2) 와 비슷한 게 있나?"**를 실시간으로 확인합니다.
  • 제동: 만약 비슷한 게 보이면, AI 에게 **"아니야, 그건 안 돼! 그 방향은 금지야!"**라고 강력한 신호를 보냅니다. (이걸 '부정적 조건부 가이드'라고 합니다.)

🎯 비유로 정리하기

기존 방법 (ESD, RECE 등):

마치 **"불을 끄는 소방관"**이 한 명만 있는 상황입니다. 불이 난 곳 (나쁜 개념) 이 하나만 있다면 잘 끄지만, 불이 여러 곳에서 동시에 나거나 (다양한 폭력 장면), 연기 (은유적 표현) 로 변하면 한 명만으로는 다 잡을 수 없습니다.

이 논문 방법 (Prototype-Guided Erasure):

**"유령 사냥꾼 팀"**을 소환하는 것입니다.

  1. 유령 (나쁜 개념) 이 어떤 모습으로 나타나는지 미리 조사합니다 (피, 총, 시위 등 다양한 모습).
  2. 각 모습에 맞는 전문 사냥꾼 (프로토타입) 을 팀으로 꾸립니다.
  3. 그림을 그리는 순간, 팀원들이 **"어? 저기 유령의 '총' 모양이 보인다!"**라고 외치며 그 부분을 즉시 지워버립니다.
  4. 중요한 건, **유령이 아닌 다른 것들 (예: 평화로운 풍경, 아름다운 꽃)**은 건드리지 않고 그대로 남겨둔다는 것입니다.

✨ 이 방법의 장점

  1. 넓은 개념도 완벽하게 잡는다: '폭력'이나 '성적'처럼 모양이 복잡한 주제도, 다양한 얼굴을 가진 팀이 모두 잡아서 완벽하게 지웁니다.
  2. 그림의 질은 그대로: 나쁜 내용만 지우고, 그림의 아름다움이나 다른 디테일은 그대로 유지됩니다. (화질이 떨어지지 않음)
  3. 빠르고 간편함: AI 를 다시 훈련시킬 필요가 없어서, 기존 모델을 그대로 쓰면서 바로 적용할 수 있습니다.

📝 결론

이 논문은 **"나쁜 개념은 하나만 잡는 게 아니라, 그 개념이 가진 모든 다양한 모습을 미리 파악해서 팀으로 잡아야 한다"**는 아이디어를 제시합니다. 마치 **"유령 사냥꾼 팀"**을 만들어서, AI 가 그리는 그림에서 나쁜 내용을 찾아내어 정확하게 지워버리는 똑똑한 방법입니다.

이 기술이 발전하면, AI 가 우리가 원하지 않는 위험한 내용을 그리는 일은 훨씬 줄어들고, 더 안전하고 통제 가능한 AI 를 사용할 수 있게 될 것입니다.