PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

이 논문은 텍스트-이미지 모델의 NSFW 콘텐츠 생성 위험을 해결하기 위해 대규모 언어 모델의 시스템 프롬프트 개념을 차용하여 안전성을 위한 소프트 프롬프트를 최적화하고, 이를 통해 기존 방어 기법보다 3.8 배 빠른 속도로 유해한 콘텐츠를 효과적으로 차단하면서도 고품질의 정상적인 이미지 생성을 유지하는 'PromptGuard'를 제안합니다.

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Xiaofeng Wang, Bo Li

게시일 2026-02-19
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 그림을 그리는 AI 를 위한 '안전한 붓': PromptGuard 소개

안녕하세요! 최근 "이런 그림 그려줘"라고 말만 하면 AI 가 멋진 그림을 그려주는 기술이 정말 발전했죠. 하지만 문제는, 누군가 "나체"나 "폭력" 같은 위험한 말을 입력하면 AI 가 그걸 그대로 그려서 큰 문제가 생길 수 있다는 거예요.

이 논문은 바로 그 문제를 해결하기 위해 개발된 **'PromptGuard(프롬프트가드)'**라는 새로운 기술을 소개합니다. 아주 쉽게 비유를 들어 설명해 드릴게요.


1. 문제: AI 화가가 너무 순진해서 생기는 일

지금까지의 AI 그림 그리기 모델 (Stable Diffusion 같은 것들) 은 마치 순진한 신인 화가와 같아요.

  • 사용자가 "피 묻은 시체"라고 말하면, 그 화가는 "네, 알겠습니다!" 하고 정말로 피 묻은 시체를 그려버려요.
  • 기존에 이 문제를 해결하려던 방법들은 두 가지였어요:
    1. 화가를 다시 교육하기 (모델 재학습): 화가에게 "그런 건 절대 그리지 마!"라고 가르쳐서 기억을 지우는 거예요. 하지만 이렇게 하면 화가가 좋은 그림 (예쁜 꽃, 풍경) 을 그리는 능력까지 떨어질 수 있어요.
    2. 심사위원을 고용하기 (외부 필터): 그림이 완성된 후, 별도의 심사위원이 "이건 위험하니까 지우세요"라고 말해서 검열하거나 검은색으로 덮어버리는 거예요. 이 방법은 시간이 오래 걸리고, 그림이 망가질 수도 있어요.

2. 해결책: PromptGuard 는 '마법의 주문'을 가르쳐요

PromptGuard 는 화가 자체를 바꾸거나, 별도의 심사위원을 두는 대신, **화가가 그림을 그릴 때 따라야 할 '숨겨진 규칙 (시스템 프롬프트)'**을 입력하는 방식이에요.

  • 비유: 마치 AI 화가에게 **"그림을 그릴 때, 항상 이 '안전한 마법 주문'을 입에 달고 있어야 해"**라고 알려주는 거예요.
  • 이 '마법 주문'은 눈에 보이지 않는 **소프트 프롬프트 (Soft Prompt)**라는 디지털 신호예요. 사용자가 입력한 말 뒤에 이 주문이 자동으로 붙어서, AI 가 위험한 그림을 그리지 않도록 방향을 잡아줍니다.

3. 어떻게 작동할까요? (세 가지 핵심 전략)

① 보이지 않는 나침반 (소프트 프롬프트)

AI 는 우리가 입력한 글자를 숫자 (벡터) 로 변환해서 이해해요. PromptGuard 는 이 숫자 공간에 **위험한 그림을 그리지 않도록 유도하는 새로운 숫자 (소프트 토큰)**를 추가해요.

  • 예시: 사용자가 "나체 여성"이라고 입력하면, PromptGuard 는 그 뒤에 보이지 않는 "안전한 옷을 입힌 사람"이라는 신호를悄悄 (조용히) 추가해요. AI 는 "나체"라는 말만 듣고 그리는 게 아니라, "안전한 옷을 입힌 사람"이라는 신호를 받아서 의상 입은 여성을 그리는 거죠.

② 분업 시스템 (나눠서 다스리기)

위험한 내용은 성적인 것, 폭력적인 것, 정치적인 것, 불쾌한 것 등 종류가 다양해요. 하나의 규칙으로 모두 막으려면 너무 복잡하죠.

  • 비유: 마치 4 명의 전문 경비원을 둔 거예요.
    • 경비원 A: 성적인 내용만 막음
    • 경비원 B: 폭력적인 내용만 막음
    • 경비원 C: 정치적인 내용만 막음
    • 경비원 D: 불쾌한 내용만 막음
  • 이렇게 각자 전문 분야를 맡게 해서 훈련시킨 뒤, 이들을 합쳐서 하나의 '안전 시스템'으로 만듭니다. 그래서 어떤 위험한 말도 빠짐없이 막을 수 있어요.

③ 실수하지 않는 훈련 (SDEdit 활용)

이 기술은 어떻게 훈련될까요?

  • AI 가 위험한 그림을 그릴 때, 그림의 위험한 부분만 지우고 안전한 부분으로 바꾼 뒤 다시 그리는 과정을 반복해요.
  • 마치 사진 편집 프로그램을 쓰듯이, 위험한 부분을 지우고 옷을 입히거나 피를 닦아낸 뒤, "이렇게 고쳐서 그려줘"라고 가르치는 거예요. 이렇게 하면 AI 는 위험한 내용을 제거하면서도 그림의 질은 그대로 유지하는 법을 배우게 됩니다.

4. 왜 이 기술이 특별한가요?

  1. 빠르고 가볍습니다: 별도의 무거운 심사위원 (다른 AI) 을 부르지 않아도 되어서, 그림을 그리는 속도가 기존 방법보다 3.8 배나 빠릅니다.
  2. 화질은 그대로입니다: 그림을 검열해서 검은색으로 덮거나 흐리게 하지 않아요. 대신 안전하지만 똑같이 멋진 그림을 그려줍니다.
  3. 해킹에도 강합니다: "나체"라는 말을 "나체"가 아닌 다른 말로 바꿔서 속이려는 해커 (적대적 공격) 들에게도 잘 막아냅니다.
  4. 새로운 위험도 쉽게 추가 가능: 만약 새로운 위험한 내용 (예: 자해 등) 이 생기면, 새로운 경비원 하나만 더 훈련시켜서 합치면 되니까 매우 유연합니다.

5. 결론: AI 가 더 안전하고 멋진 세상을 만들어요

PromptGuard 는 AI 그림 기술이 발전하면서 생기는 '악용' 문제를, 화가를 바꾸지 않고 '가이드라인'을 잘 설정하는 지혜로운 방법으로 해결했습니다.

이제 AI 는 우리가 원하는 아름다운 그림은 잘 그려주면서, 위험하고 불쾌한 그림은 자연스럽게 막아주는 책임감 있는 예술가가 될 수 있게 되었어요. 이 기술이 앞으로 AI 윤리와 안전을 지키는 중요한 열쇠가 되길 바랍니다!

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →