Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

이 논문은 텍스트 인코더의 초기 레이어만 미세 조정하여 고수준 의미 표현을 의도적으로 왜곡하는 'HiRM' 기법을 제안함으로써, 생성 품질을 저하시키지 않으면서도 특정 개념을 정밀하게 제거하고 다양한 아키텍처로 확장 가능한 텍스트-이미지 확산 모델의 개념 말소 솔루션을 제시합니다.

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "요리사 (AI) 와 레시피 책 (텍스트 인코더)"

생각해 보세요. AI 는 요리사이고, 우리가 입력하는 글자 (프롬프트) 는 레시피입니다.
예를 들어 "반 고흐 스타일의 강아지"라고 입력하면, AI 는 레시피를 보고 반 고흐의 붓터치와 강아지 모양을 섞어서 그림을 그립니다.

하지만 문제는, AI 가 **"나체"**나 "특정 작가의 스타일" 같은 원치 않는 레시피를 읽으면 그걸 그대로 그림으로 만들어낸다는 점입니다.

1. 기존 방법의 문제점: "요리사 전체를 다시 교육하기"

기존에 이 문제를 해결하려던 방법들은 요리사 (AI 모델 전체) 를 다시 교육시키는 방식이었습니다.

  • 문제: 요리사에게 "나체 그림은 절대 그리지 마!"라고 가르치려다 보니, 요리사가 "사과 그림도 못 그리는" 상황이 생깁니다. (원치 않는 개념까지 지워버리는 부작용)
  • 비용: 요리사 전체를 다시 가르치는 데는 엄청난 시간과 돈이 듭니다.

2. 이 논문의 아이디어: "레시피 책의 특정 페이지만 수정하기"

이 연구팀은 AI 의 뇌 구조를 분석한 결과, 특정 시각적 특징 (예: 나체, 화풍) 은 '레시피 책'의 아주 앞쪽 페이지에 집중되어 있다는 것을 발견했습니다.

그래서 그들은 요리사 전체를 가르치는 대신, 레시피 책의 앞쪽 페이지만 살짝 수정하는 방법을 고안했습니다.


🚀 HiRM 의 핵심 원리: "오도 (Misdirection)"

이 방법의 핵심은 **"무엇을 지울지 (목표)"**와 **"어디를 수정할지 (위치)"**를 분리하는 것입니다.

  1. 목표는 '최종 결과물' (고수준 의미):

    • AI 가 최종적으로 그리는 그림의 의미 (예: "나체"라는 개념) 는 레시피 책의 마지막 페이지에 모여 있습니다.
    • HiRM 은 이 마지막 페이지의 의미를 **"무작위 방향"**이나 **"안전한 상위 개념 (예: '나체' → '인물')"**으로 바꾸어 주라고 명령합니다.
    • 비유: "이 레시피는 '나체'가 아니라 '안전한 인물'로 해석해!"라고 마지막 지시사항을 바꾼 것입니다.
  2. 수정은 '초기 페이지' (저수준 특징) 만:

    • 하지만 실제로 펜을 들고 수정하는 곳은 레시피 책의 첫 번째 페이지뿐입니다.
    • 비유: 마지막 지시사항은 '나체'를 막으라고 했지만, 실제로 수정하는 건 첫 페이지의 '붓터치'나 '색감' 관련 글자뿐입니다.
    • 이렇게 하면 원치 않는 개념 (나체) 은 사라지지만, 다른 개념 (사과, 고양이 등) 을 그리는 데 필요한 기본 재료들은 그대로 살아남습니다.

✨ 왜 이 방법이 특별한가요?

  • 🎯 정확도: 원치 않는 것만 딱 잘라냅니다. (나체는 지워지지만, 사과 그림은 여전히 예쁘게 나옴)
  • ⚡ 속도: 요리사 전체를 다시 교육할 필요 없이, 레시피 책의 첫 장만 고치면 되므로 시간이 매우 짧습니다.
  • 🔄 호환성: 이 수정된 레시피 책은 다른 최신 AI 모델 (Flux 등) 이나, 이미 학습된 다른 모델에도 바로 붙여 쓸 수 있습니다. (별도 학습 불필요)
  • 🛡️ 방어력: 해커들이 "나체"라고 직접 말하지 않고 은밀하게 유도하는 공격 (Adversarial Attack) 이 와도 막아냅니다.

📝 요약

이 논문은 **"AI 가 나쁜 그림을 그리는 것을 막으려다 좋은 그림까지 망치지 않게 하는, 아주 정교한 '레시피 수정' 기술"**을 소개합니다.

기존에는 AI 전체를 다시 가르쳐야 했지만, 이제는 레시피 책의 특정 부분만 살짝 비틀어서 (오도 시켜서) 원치 않는 개념만 제거하고, AI 의 창의성은 그대로 살리는 가볍고 똑똑한 방법을 제안한 것입니다. 마치 "나쁜 손님만 쫓아내되, 가게의 분위기는 그대로 유지하는" 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →