REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models

이 논문은 이미지 생성 모델의 개념 제거 (Unlearning) 기법이 블랙박스 환경에서 이미지 기반 적대적 공격에 취약함을 드러내기 위해, 교차 주의를 활용한 마스킹 전략을 통해 개념 관련 영역에 노이즈를 집중시키는 'REFORGE'라는 새로운 적대적 평가 프레임워크를 제안합니다.

Yong Zou, Haoran Li, Fanxiao Li, Shenyang Wei, Yunyun Dong, Li Tang, Wei Zhou, Renyang Liu

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 그림 그리기 프로그램이 '잊으라고' 배운 것을, 어떻게 다시 불러올 수 있는지"**를 보여주는 흥미로운 연구입니다.

한마디로 요약하면: **"AI 가 기억을 지우려고 노력해도, 우리가 '특수한 그림'을 보여주기만 하면 그 기억이 다시 튀어나온다"**는 사실을 발견한 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 배경: AI 의 '망각' 시술 (Unlearning)

최근 AI(예: 스테이블 디퓨전) 는 아주 멋진 그림을 그려주지만, 저작권 문제나 선정적인 내용 같은 '나쁜 기억'을 가지고 태어납니다.
그래서 개발자들은 AI 의 뇌를 수정해서 **"이건 절대 그리지 마!"**라고 가르칩니다. 이를 **'기억 지우기 (Unlearning)'**라고 부릅니다. 마치 아이가 "나쁜 말은 하지 마"라고 훈육받는 것과 비슷하죠.

2. 문제: 기억 지우기는 완벽하지 않다

연구자들은 "AI 가 정말로 그 기억을 완전히 지웠을까?"라고 의심을 품었습니다. 기존에는 텍스트 명령만 바꿔가며 테스트했지만, 이번 연구는 "그림"이라는 새로운 열쇠를 사용했습니다.

3. 해결책: 'REFORGE'라는 새로운 열쇠

이 논문에서 제안한 **'REFORGE(재주조)'**라는 방법은 다음과 같은 원리로 작동합니다.

  • 비유: '초록색 점토'와 '스케치'

    • 보통 AI 는 텍스트만 보고 그림을 그립니다. 하지만 REFORGE 는 AI 에게 "이런 느낌의 그림을 그려줘"라고 말하면서, 동시에 '초록색 점토로 대충 만든 스케치'를 보여줍니다.
    • 이 스케치는 아주 단순해서 (예: 반죽처럼 흐릿한 형태) 구체적인 내용은 없지만, 전체적인 구도와 색감은 원래 기억하고 싶었던 대상 (예: 반고흐의 그림 스타일) 과 비슷합니다.
  • 핵심 기술: '눈썹'을 노리는 공격

    • REFORGE 는 AI 가 그림을 그릴 때, **"어떤 부분에서 가장 집중하는지"**를 분석합니다. (이를 '크로스 어텐션'이라고 하는데, 쉽게 말해 AI 의 '시선'이 머무는 곳입니다.)
    • AI 가 "반고흐 스타일"을 생각할 때 눈이 가는 부분을 찾아낸 뒤, **그 부분에만 아주 미세한 노이즈 (소음)**를 섞어줍니다. 마치 그림의 특정 구석에 아주 작은 점들을 찍어서 AI 의 뇌를 혼란스럽게 만드는 거죠.
    • 이렇게 하면 AI 는 "아, 이 그림은 반고흐 스타일이야!"라고 착각하게 되어, 지우려고 했던 기억을 다시 그려냅니다.

4. 실험 결과: 기억은 쉽게 돌아온다

연구진은 다양한 AI 모델과 다양한 '지우기' 기술을 테스트했습니다.

  • 결과: 대부분의 AI 는 텍스트만으로는 기억을 지우려고 했지만, REFORGE 가 보여준 '특수한 그림'을 받자마자 지웠던 기억 (예: 반고흐 스타일, 낙하산, 혹은 금지된 내용) 을 다시 그려냈습니다.
  • 비교: 기존에 시도했던 방법들보다 훨씬 빠르고, AI 가 그리는 그림의 의미도 더 잘 유지하면서 공격에 성공했습니다.

5. 결론: 무엇을 의미할까?

이 연구는 **"AI 의 안전 장치는 아직 완벽하지 않다"**는 경고를 줍니다.

  • 개발자들이 "이건 지웠다"라고 안심하고 있을지라도, 텍스트뿐만 아니라 '그림'이라는 새로운 방식으로 접근하면 그 안전 장치는 뚫릴 수 있습니다.
  • 앞으로는 AI 를 더 안전하게 만들기 위해, 텍스트뿐만 아니라 '이미지 입력'에 대해서도 더 튼튼하게 방어하는 기술이 필요하다는 것을 보여줍니다.

🎨 한 줄 요약

"AI 가 '잊으라고' 배운 나쁜 기억을, 우리가 '초록색 점토 스케치'를 보여주며 속여 다시 떠올리게 만드는 새로운 공격법을 발견했다. 따라서 AI 의 안전 장치는 아직 더 튼튼하게 만들어져야 한다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →