Unlearning for One-Step Generative Models via Unbalanced Optimal Transport

이 논문은 기존 확산 모델 기반의 제거 기법과 호환되지 않는 한 단계 생성 모델의 안전성을 확보하기 위해, 불균형 최적 수송 (UOT) 을 활용하여 특정 클래스의 생성을 억제하면서도 전체 생성 품질을 유지하는 'UOT-Unlearn' 프레임워크를 제안합니다.

Hyundo Choi, Junhyeong An, Jinseong Park, Jaewoong Choi

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: "빠른 화가"와 "나쁜 그림"의 문제

🎨 상황 설정:
예전에는 AI 가 그림을 그릴 때, "노이즈 (잡음) 에서 시작해서 천천히, 한 번에 한 번씩 선을 지우며 (반복 과정) 그림을 완성"하는 방식이었습니다. 이 방식은 그림이 잘 나왔지만, 시간이 너무 오래 걸렸습니다.

하지만 최근에는 **"한 번에 뿅! 하고 그림을 완성하는 화가 (One-step Generative Models)"**가 등장했습니다. 이 화가는 그림을 그리는 속도가 매우 빨라 인기가 많지만, 문제는 이 화가가 실수로 '금지된 그림 (예: 폭력적이거나 저작권이 있는 그림)'을 그릴 수도 있다는 점입니다.

🚫 문제:
만약 이 '빠른 화가'가 나쁜 그림을 그리기 시작하면, 기존 방식처럼 "그림을 다시 그리는 과정 (반복 denoising)"을 거치면서 나쁜 부분을 지우려 하면, 화가가 이미 한 번에 그리는 방식을 깨뜨리게 되어 오히려 그림이 망가질 수 있습니다. 즉, 기존에 개발된 '잊기 기술'들은 이 '빠른 화가'에게는 통하지 않습니다.


2. 해결책: "균형 잡힌 이동 (UOT)"을 이용한 잊기

이 논문은 이 문제를 해결하기 위해 **'불균형 최적 수송 (Unbalanced Optimal Transport, UOT)'**이라는 수학적 개념을 차용했습니다. 이를 쉽게 비유해 보겠습니다.

📦 비유: 물자 재분배 창고

  • 상황: 가상의 거대한 창고에 '사과', '배', '오렌지'가 섞여 있습니다. 하지만 '사과'는 더 이상 팔고 싶지 않아서 (잊고 싶어서) 창고에서 완전히 없애야 합니다.
  • 기존 방식 (기존 기술들): 사과를 없애려고 하면, 창고 전체를 뒤집어엎거나, 사과가 있던 자리에 빈 공간만 남기거나, 엉뚱한 곳에 사과를 던져버립니다. 결과적으로 배와 오렌지도 엉망이 되거나 (화질 저하), 사과가 완전히 사라지지 않거나 (잊기 실패) 합니다.
  • 이 논문의 방식 (UOT-Unlearn):
    1. 사과 (잊을 대상) 에는 '엄청난 벌금'을 매깁니다. 사과를 창고에 두는 것 자체가 매우 비싸게 책정됩니다.
    2. 하지만, 사과를 버리는 대신 다른 과일 (배, 오렌지) 로 자연스럽게 대체할 수 있는 길을 열어줍니다.
    3. 핵심: 사과를 없애는 비용과, 다른 과일의 모양을 유지하는 비용 사이의 최적의 균형을 찾습니다.

이 방법을 쓰면, 사과 (나쁜 그림) 는 자연스럽게 사라지고, 그 자리는 배나 오렌지 (나쁜 그림이 아닌 다른 좋은 그림) 가 자연스럽게 채워집니다. 결과적으로 창고 전체의 질서는 유지되면서, 사과만 깔끔하게 사라지는 것입니다.


3. 이 방법의 핵심 장점

이 논문에서 제안한 **'UOT-Unlearn'**이라는 도구의 특징은 다음과 같습니다.

  1. 실제 데이터가 필요 없습니다 (Data-Free):

    • 보통 AI 가 "이것은 잊어라"라고 가르치려면, 잊어야 할 그림 (사과) 과 남겨야 할 그림 (배) 을 모두 보여줘야 합니다.
    • 하지만 이 방법은 오직 '사과가 어떤 모양인지'에 대한 정보 (중심점) 만 있으면 됩니다. 실제 '배' 그림을 보여주지 않아도, AI 가 스스로 "사과를 없애고 남은 공간은 자연스럽게 채워야겠다"라고 판단하도록 유도합니다. 이는 개인정보나 저작권이 있는 데이터를 건드리지 않고도 잊기를 가능하게 합니다.
  2. 화질은 그대로, 내용만 바뀝니다:

    • 기존 방법들은 나쁜 그림을 지우려다 보니, 나머지 좋은 그림들도 흐릿해지거나 뭉개지는 경우가 많았습니다.
    • 이 방법은 나쁜 그림을 지우는 대신, 그 자리에 다른 좋은 그림을 자연스럽게 채워 넣기 때문에 전체적인 그림의 선명도와 질감 (화질) 이 거의 떨어지지 않습니다.
  3. 한 번에 그리는 AI 에 특화되었습니다:

    • 복잡한 반복 과정 없이, AI 가 그림을 그리는 마지막 한 번의 결정 단계에서 이 기술을 적용합니다. 그래서 어떤 '빠른 화가' 모델에도 쉽게 끼워 넣을 수 있습니다 (Plug-and-play).

4. 실험 결과: 얼마나 잘 될까요?

연구진은 **CIFAR-10(작은 그림 10 가지)**과 **ImageNet(고화질 그림)**으로 실험을 해보았습니다.

  • 결과: 다른 방법들 (기존 기술들을 변형한 것들) 은 나쁜 그림을 지우려다 보니 나머지 그림들이 엉망이 되거나, 반대로 나쁜 그림이 여전히 나오거나 했습니다.
  • 이 방법: 나쁜 그림은 90% 이상 완벽하게 지워졌고 (PUL 점수 높음), 동시에 나머지 그림들의 질은 **거의 그대로 유지 (FID 점수 낮음)**되었습니다.

5. 한 줄 요약

**"AI 화가가 실수로 나쁜 그림을 그리지 않도록, 나쁜 그림을 지우는 대신 다른 좋은 그림으로 자연스럽게 대체하게 만들어, 화질은 그대로 유지하면서 나쁜 내용만 깔끔하게 지우는 새로운 기술"**입니다.

이 기술은 AI 가 더 빠르고 안전하게 그림을 그릴 수 있도록 도와주는, 마치 **'AI 의 양심'**을 심어주는 것과 같은 역할을 합니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →