arXiv👁️ cs.CV 🤖 cs.AI 🔒 cs.CR

PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

이 논문은 텍스트-이미지 모델의 NSFW 콘텐츠 생성 위험을 해결하기 위해 대규모 언어 모델의 시스템 프롬프트 개념을 차용하여 안전성을 위한 소프트 프롬프트를 최적화하고, 이를 통해 기존 방어 기법보다 3.8 배 빠른 속도로 유해한 콘텐츠를 효과적으로 차단하면서도 고품질의 정상적인 이미지 생성을 유지하는 'PromptGuard'를 제안합니다.

Each language version is independently generated for its own context, not a direct translation.

🎨 그림을 그리는 AI 를 위한 '안전한 붓': PromptGuard 소개

안녕하세요! 최근 "이런 그림 그려줘"라고 말만 하면 AI 가 멋진 그림을 그려주는 기술이 정말 발전했죠. 하지만 문제는, 누군가 "나체"나 "폭력" 같은 위험한 말을 입력하면 AI 가 그걸 그대로 그려서 큰 문제가 생길 수 있다는 거예요.

이 논문은 바로 그 문제를 해결하기 위해 개발된 **'PromptGuard(프롬프트가드)'**라는 새로운 기술을 소개합니다. 아주 쉽게 비유를 들어 설명해 드릴게요.

1. 문제: AI 화가가 너무 순진해서 생기는 일

지금까지의 AI 그림 그리기 모델 (Stable Diffusion 같은 것들) 은 마치 순진한 신인 화가와 같아요.

사용자가 "피 묻은 시체"라고 말하면, 그 화가는 "네, 알겠습니다!" 하고 정말로 피 묻은 시체를 그려버려요.
기존에 이 문제를 해결하려던 방법들은 두 가지였어요:
1. 화가를 다시 교육하기 (모델 재학습): 화가에게 "그런 건 절대 그리지 마!"라고 가르쳐서 기억을 지우는 거예요. 하지만 이렇게 하면 화가가 좋은 그림 (예쁜 꽃, 풍경) 을 그리는 능력까지 떨어질 수 있어요.
2. 심사위원을 고용하기 (외부 필터): 그림이 완성된 후, 별도의 심사위원이 "이건 위험하니까 지우세요"라고 말해서 검열하거나 검은색으로 덮어버리는 거예요. 이 방법은 시간이 오래 걸리고, 그림이 망가질 수도 있어요.

2. 해결책: PromptGuard 는 '마법의 주문'을 가르쳐요

PromptGuard 는 화가 자체를 바꾸거나, 별도의 심사위원을 두는 대신, **화가가 그림을 그릴 때 따라야 할 '숨겨진 규칙 (시스템 프롬프트)'**을 입력하는 방식이에요.

비유: 마치 AI 화가에게 **"그림을 그릴 때, 항상 이 '안전한 마법 주문'을 입에 달고 있어야 해"**라고 알려주는 거예요.
이 '마법 주문'은 눈에 보이지 않는 **소프트 프롬프트 (Soft Prompt)**라는 디지털 신호예요. 사용자가 입력한 말 뒤에 이 주문이 자동으로 붙어서, AI 가 위험한 그림을 그리지 않도록 방향을 잡아줍니다.

3. 어떻게 작동할까요? (세 가지 핵심 전략)

① 보이지 않는 나침반 (소프트 프롬프트)

AI 는 우리가 입력한 글자를 숫자 (벡터) 로 변환해서 이해해요. PromptGuard 는 이 숫자 공간에 **위험한 그림을 그리지 않도록 유도하는 새로운 숫자 (소프트 토큰)**를 추가해요.

예시: 사용자가 "나체 여성"이라고 입력하면, PromptGuard 는 그 뒤에 보이지 않는 "안전한 옷을 입힌 사람"이라는 신호를悄悄 (조용히) 추가해요. AI 는 "나체"라는 말만 듣고 그리는 게 아니라, "안전한 옷을 입힌 사람"이라는 신호를 받아서 의상 입은 여성을 그리는 거죠.

② 분업 시스템 (나눠서 다스리기)

위험한 내용은 성적인 것, 폭력적인 것, 정치적인 것, 불쾌한 것 등 종류가 다양해요. 하나의 규칙으로 모두 막으려면 너무 복잡하죠.

비유: 마치 4 명의 전문 경비원을 둔 거예요.
- 경비원 A: 성적인 내용만 막음
- 경비원 B: 폭력적인 내용만 막음
- 경비원 C: 정치적인 내용만 막음
- 경비원 D: 불쾌한 내용만 막음
이렇게 각자 전문 분야를 맡게 해서 훈련시킨 뒤, 이들을 합쳐서 하나의 '안전 시스템'으로 만듭니다. 그래서 어떤 위험한 말도 빠짐없이 막을 수 있어요.

③ 실수하지 않는 훈련 (SDEdit 활용)

이 기술은 어떻게 훈련될까요?

AI 가 위험한 그림을 그릴 때, 그림의 위험한 부분만 지우고 안전한 부분으로 바꾼 뒤 다시 그리는 과정을 반복해요.
마치 사진 편집 프로그램을 쓰듯이, 위험한 부분을 지우고 옷을 입히거나 피를 닦아낸 뒤, "이렇게 고쳐서 그려줘"라고 가르치는 거예요. 이렇게 하면 AI 는 위험한 내용을 제거하면서도 그림의 질은 그대로 유지하는 법을 배우게 됩니다.

4. 왜 이 기술이 특별한가요?

빠르고 가볍습니다: 별도의 무거운 심사위원 (다른 AI) 을 부르지 않아도 되어서, 그림을 그리는 속도가 기존 방법보다 3.8 배나 빠릅니다.
화질은 그대로입니다: 그림을 검열해서 검은색으로 덮거나 흐리게 하지 않아요. 대신 안전하지만 똑같이 멋진 그림을 그려줍니다.
해킹에도 강합니다: "나체"라는 말을 "나체"가 아닌 다른 말로 바꿔서 속이려는 해커 (적대적 공격) 들에게도 잘 막아냅니다.
새로운 위험도 쉽게 추가 가능: 만약 새로운 위험한 내용 (예: 자해 등) 이 생기면, 새로운 경비원 하나만 더 훈련시켜서 합치면 되니까 매우 유연합니다.

5. 결론: AI 가 더 안전하고 멋진 세상을 만들어요

PromptGuard 는 AI 그림 기술이 발전하면서 생기는 '악용' 문제를, 화가를 바꾸지 않고 '가이드라인'을 잘 설정하는 지혜로운 방법으로 해결했습니다.

이제 AI 는 우리가 원하는 아름다운 그림은 잘 그려주면서, 위험하고 불쾌한 그림은 자연스럽게 막아주는 책임감 있는 예술가가 될 수 있게 되었어요. 이 기술이 앞으로 AI 윤리와 안전을 지키는 중요한 열쇠가 되길 바랍니다!

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 텍스트 - 이미지 (T2I) 생성 모델 (예: Stable Diffusion) 은 고품질 이미지 생성 능력에서 획기적인 발전을 이루었지만, 성적이 노골적이거나 폭력적, 정치적, 불쾌한 콘텐츠 (NSFW) 와 같은 유해한 이미지를 생성하는 데 악용될 수 있다는 심각한 윤리적 문제가 대두되었습니다.
기존의 방어 메커니즘은 크게 두 가지로 나뉩니다:

모델 정렬 (Model Alignment): 모델을 미세 조정 (fine-tuning) 하거나 재학습시켜 유해 개념을 제거하는 방식. 하지만 이는 모델의 성능을 저하시키거나 계산 비용이 많이 듭니다.
콘텐츠 중재 (Content Moderation): 외부 모델을 사용하여 입력 텍스트나 출력 이미지를 필터링하거나 프롬프트를 수정하는 방식. 이는 추가적인 계산 오버헤드를 발생시키고, 때로는 유해한 내용을 완전히 차단하지 못하거나 정상적인 (Benign) 이미지의 품질을 떨어뜨립니다.

따라서 추가적인 모델 없이, 효율적으로 유해 콘텐츠를 중재하면서도 정상적인 이미지 생성 품질을 유지하는 경량화된 솔루션이 절실히 필요했습니다.

2. 방법론 (Methodology)

저자들은 대규모 언어 모델 (LLM) 의 '시스템 프롬프트 (System Prompt)' 메커니즘에서 영감을 받아 PromptGuard를 제안했습니다. T2I 모델은 LLM 과 달리 명시적인 시스템 프롬프트 인터페이스가 없으므로, 이를 텍스트 임베딩 공간 내에서 작동하는 **소프트 프롬프트 (Soft Prompt)**로 구현했습니다.

핵심 기술 요소:

소프트 프롬프트 최적화 (Soft Prompt Optimization):
- 입력 텍스트의 임베딩 벡터 공간에서 학습 가능한 가상의 토큰 (pseudo-word) 인 P*를 최적화합니다.
- 이 P*는 사용자의 입력 프롬프트 뒤에 자동으로 추가되어, 모델이 유해한 잠재 공간 (latent space) 으로 이동하는 것을 방지하고 안전한 영역으로 유도하는 '암시적 시스템 프롬프트' 역할을 합니다.
분할 정복 전략 (Divide-and-Conquer Strategy):
- NSFW 콘텐츠는 성 (Sexual), 폭력 (Violent), 정치 (Political), 불쾌 (Disturbing) 의 4 가지 카테고리로 분류됩니다.
- 단일 프롬프트로 모든 유형을 처리하는 대신, 각 카테고리별로 별도의 소프트 프롬프트 임베딩을 학습한 후 이를 결합하여 통합된 안전 가이드를 제공합니다.
학습 데이터 및 손실 함수 (Training & Loss Functions):
- 데이터 준비: 유해 프롬프트에 대해 SDEdit 등을 이용해 유해 부분만 수정한 '안전한 버전'의 이미지 쌍을 생성합니다.
- 대조 학습 (Contrastive Learning):
  - 유해 입력 시: 모델이 원본 유해 이미지의 노이즈를 예측하는 것을 억제하고, 안전한 이미지 노이즈를 예측하도록 유도하는 손실 함수 ( $L_m$ ) 를 사용합니다.
  - 정상 입력 시: 프롬프트가 추가되어도 정상 이미지의 품질이 유지되도록 하는 손실 함수 ( $L_b$ ) 를 사용합니다.
- 하이퍼파라미터 $\lambda$ 를 통해 유해 콘텐츠 억제와 정상 콘텐츠 보존 사이의 균형을 조절합니다.
추론 (Inference):
- 학습된 각 카테고리별 임베딩을 연결하여 하나의 통합 프롬프트로 만든 후, 모든 사용자 입력에 접미사 (suffix) 로 추가합니다. 이 과정은 추론 효율성을 떨어뜨리지 않으며 추가 모델이 필요 없습니다.

3. 주요 기여 (Key Contributions)

새로운 기법: T2I 모델에 LLM 의 시스템 프롬프트 개념을 적용하여, 모델 파라미터 수정 없이 경량화된 소프트 프롬프트 최적화를 통해 콘텐츠 중재를 수행하는 새로운 방식을 제시했습니다.
종합적인 실험 검증: 5 개의 벤치마크 데이터셋과 8 가지 최신 방어 기법 (Baseline) 을 비교하여 PromptGuard 의 효과성, 범용성, 적대적 견고성, 효율성, 유용성, 확장성을 입증했습니다.
확장성: 새로운 NSFW 카테고리 (예: 자해) 가 등장할 경우, 전체 모델을 재학습하지 않고 해당 카테고리만의 소프트 프롬프트 임베딩을 학습하여 기존 프롬프트에 추가하는 모듈식 확장이 가능합니다.

4. 실험 결과 (Results)

NSFW 제거율 (Effectiveness):
- 4 가지 유해 카테고리 (성, 폭력, 정치, 불쾌) 에서 평균 5.84% 의 Unsafe Ratio를 기록하여, 기존 8 가지 최첨단 방어 기법 중 가장 낮은 수치를 달성했습니다.
- 특히 기존 방법들이 취약했던 '정치적' 콘텐츠 중재에서도 탁월한 성능을 보였습니다.
정상 콘텐츠 보존 (Benign Preservation):
- CLIP Score 와 LPIPS Score 를 통해 정상적인 이미지 생성 품질이 유지됨을 확인했습니다. PromptGuard 는 다른 중재 방법들보다 정상 프롬프트에 대한 정합성을 더 잘 유지했습니다.
효율성 (Efficiency):
- 기존 중재 방법들 (예: POSI, SLD) 보다 약 3.8 배 빠른 추론 속도를 보였습니다. 외부 모델 호출이나 복잡한 확산 과정 수정이 필요 없기 때문입니다.
적대적 견고성 (Adversarial Robustness):
- SneakyPrompt (자연어 및 가짜 단어 변형) 와 MMA-Diffusion 등 3 가지 적대적 공격 시나리오에서 모든 Baseline 을 압도하는 방어 성능을 보여주었습니다.
확장성 (Scalability):
- 새로운 '자해 (Self-harm)' 카테고리를 추가했을 때, 기존 성능을 저하시키지 않고 통합된 방어 성능을 향상시켰습니다.

5. 의의 및 결론 (Significance)

PromptGuard 는 T2I 모델의 안전성을 확보하기 위한 가볍고 효율적이며 확장 가능한 솔루션을 제공합니다.

모델 무결성 유지: 모델 자체를 재학습하거나 파라미터를 수정하지 않으므로, 기존 모델의 성능 저하를 방지합니다.
실용성: 추가적인 계산 오버헤드 없이 실시간 추론에 적용 가능하여 상용 T2I 서비스에 즉시 도입하기 용이합니다.
미래 지향성: 새로운 유해 콘텐츠 유형이 등장하더라도 유연하게 대응할 수 있는 모듈식 구조를 통해, 진화하는 AI 윤리 기준에 부합하는 지속적인 안전 장치를 마련했습니다.

이 연구는 생성형 AI 의 안전성을 높이는 동시에, 사용자의 창의적 표현과 이미지 품질을 해치지 않는 균형 잡힌 접근법의 중요성을 강조합니다.