Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

이 논문은 텍스트 프롬프트로 지정하기 어려운 특정 인스턴스 (예: 개인 얼굴) 를 선택적으로 잊게 하되 모델의 나머지 기능은 유지하기 위해 이미지 편집, 시간 단계 인식 가중치, 기울기 수술을 활용한 프롬프트 없는 확산 모델 인스턴스 언러닝 방법을 제안합니다.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"생성형 AI(이미지 만드는 인공지능) 가 실수하거나, 우리가 원하지 않는 특정 얼굴이나 이미지를 더 이상 만들지 못하게 하는 새로운 방법"**을 소개합니다.

기존의 방법들은 "이런 말 (프롬프트) 을 하지 마세요"라고 AI 에게 지시하는 방식이었는데, 이 논문은 "말이 통하지 않는 구체적인 실수 하나하나를 AI 의 기억에서 지우는" 기술을 제안합니다.

이해하기 쉽게 세 가지 비유로 설명해 드릴게요.


1. 문제 상황: "말이 통하지 않는 실수"

생성형 AI 는 보통 우리가 "고양이"라고 말하면 고양이를 그려줍니다. 하지만 AI 가 실수를 해서, 역사적 인물을 엉뚱한 인종으로 그리거나, 국기를 잘못 그리는 경우가 있습니다.

  • 기존 방법의 한계: "역사적 인물을 잘못 그리는 것"을 막으려면 AI 에게 "역사적 인물을 그릴 때 조심해"라고 말해야 합니다. 하지만 문제는 AI 가 왜 실수를 했는지, 어떤 '말'이 그 실수를 유발하는지 정확히 알 수 없다는 점입니다. 마치 "어떤 단어를 입력하면 AI 가 엉뚱한 얼굴을 그릴까?"를 찾는 것이 불가능에 가깝습니다.
  • 이 논문의 목표: 특정 단어를 금지하는 게 아니라, **"그 잘못된 그림 하나하나 (예: 특정 배우의 얼굴, 잘못된 국기) 를 AI 의 기억에서 지우자"**는 것입니다.

2. 해결책: "기억을 수정하는 마법 지우개"

이 논문은 AI 의 기억을 지울 때, 단순히 그 이미지를 '삭제'하는 게 아니라 **비유적인 '대리 이미지 (Surrogate)'**를 만들어 사용합니다.

  • 비유: 사진관과 편집기
    • AI 가 특정 배우의 얼굴을 그릴 때, 그 배우의 얼굴을 지우고 싶다고 가정해 봅시다.
    • 기존 방식 (완전 삭제): 그 배우의 사진이 있는 책장을 통째로 찢어버리는 겁니다. 하지만 책장을 찢으면 다른 중요한 내용 (책의 다른 페이지) 도 함께 망가질 수 있습니다.
    • 이 논문의 방식 (대리 이미지): 그 배우의 얼굴을 비슷하지만 다른 사람 (예: 코를 살짝 변형하거나, 모자를 쓴 모습) 으로 편집해서 AI 에게 보여줍니다.
    • AI 에게 "이 얼굴은 원래 배우가 아니야, 이 편집된 얼굴이 맞아"라고 가르칩니다.
    • 결과적으로 AI 는 원래 배우의 얼굴을 그리는 능력을 잃게 되지만, 다른 얼굴을 그리는 능력이나 그림의 질은 그대로 유지됩니다.

3. 핵심 기술: "시간에 따른 교정"과 "갈등 해결"

AI 를 가르칠 때 두 가지 목표가 충돌합니다.

  1. 잊게 하기: 특정 얼굴을 잊게 하라.
  2. 기억하게 하기: 다른 모든 것은 잘 그려라.

이 두 가지가 서로 싸우면 AI 가 혼란스러워집니다. 이 논문은 이를 해결하기 위해 두 가지 기술을 썼습니다.

  • 시간을 아는 교정 (Timestep-aware weighting):
    • 그림을 그릴 때, 처음에는 전체적인 윤곽 (몸통, 배경) 을 중요하게 여기고, 나중에는 세부적인 얼굴 특징 (눈, 코) 을 중요하게 여깁니다.
    • 이 논리는 "세부적인 얼굴 특징을 잊게 하는 건 나중에, 전체적인 그림의 질을 지키는 건 처음에 집중하자"는 식으로, AI 가 혼란스러워하지 않게 순서를 조절합니다.
  • 갈등 해결 수술 (Gradient Surgery):
    • "잊게 하라"는 명령과 "기억하게 하라"는 명령이 서로 반대 방향으로 AI 를 당길 때, AI 가 찢어지지 않도록 두 명령을 부드럽게 섞어서 한 방향으로만 가게 만듭니다.

4. 왜 이 기술이 중요한가요? (실생활 예시)

  • 개인정보 보호: 어떤 사람의 얼굴이 AI 에 의해 유출되어 실수로 생성될 때, 그 사람의 얼굴을 지우려면 그 사람의 이름이나 특징을 모두 찾아서 금지해야 합니다. 하지만 이 기술은 그 사람의 얼굴 사진 하나만 있으면, 그 얼굴이 나오는 모든 경우를 막을 수 있습니다.
  • 문화적 오해 방지: AI 가 특정 국가의 국기를 잘못 그리거나, 특정 인물을 인종적으로 편향되게 그릴 때, 그 특정 실수 패턴 하나를 정확히 지워 다른 정상적인 그림은 그대로 유지할 수 있습니다.

요약

이 논문은 **"AI 가 실수한 그림 하나를 지우려면, 그 그림을 '비슷하지만 다른 그림'으로 바꿔서 AI 에게 다시 가르쳐주자"**는 아이디어입니다.

기존에는 "무슨 말을 하지 마라"고 지시하는 방식이었다면, 이제는 **"이 그림은 안 돼, 대신 이 그림으로 그려"**라고 구체적으로 가르쳐서, AI 가 원하는 것은 잘 그리되, 원치 않는 실수는 잊어버리게 만드는 **'정밀한 기억 수정 기술'**입니다.