When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

이 논문은 여러 유해 카테고리 간의 충돌로 인해 기존 안전 가이드 방식이 오히려 유해 생성률을 높이는 문제를 해결하기 위해, 생성 단계에서 유해 카테고리를 동적으로 식별하고 해당 카테고리에만 정밀하게 안전 조향을 적용하는 'CASG'라는 훈련 없는 프레임워크를 제안합니다.

Yongli Xiang, Ziming Hong, Zhaoqing Wang, Xiangyu Zhao, Bo Han, Tongliang Liu

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"안전한 그림을 그리려다, 오히려 더 위험한 그림이 나오는 아이러니"**를 해결한 새로운 기술을 소개합니다.

한마디로 요약하면: **"AI 가 그림을 그릴 때, '나쁜 것'을 막아주는 안전장치가 여러 개 붙어 있으면 서로 싸워서 오히려 안전장치가 무너지는 경우가 있는데, 이걸 똑똑하게 하나만 골라 쓰는 방법을 개발했다"**는 내용입니다.

이해하기 쉽게 **요리사 (AI)**와 **식중독 방지 요원 (안전 가이드)**의 비유로 설명해 드릴게요.


1. 문제 상황: "모든 나쁜 음식을 막으려다, 정작 맛있는 음식까지 망친다"

배경:
최근 AI(텍스트-to-이미지 모델) 는 입력된 문장을 보고 아주 멋진 그림을 그려줍니다. 하지만 가끔은 폭력적이거나 선정적인 그림을 그릴 수도 있어서, 우리는 AI 에게 **"나쁜 그림은 절대 그리지 마!"**라고 안전장치를 달아줍니다.

기존 방식의 실수 (혼란스러운 주방):
기존의 안전장치는 **"나쁜 음식 목록 (혐오, 폭력, 성, 불법 등)"**을 모두 한데 모아놓고, "이 목록에 있는 것들은 다 금지해!"라고 AI 에게 지시했습니다.

하지만 여기서 문제가 생깁니다.

  • 상황: AI 가 "선정적인 그림"을 그리려 할 때, 안전장치는 "성 (Sex)"을 막으려 합니다.
  • 혼란: 그런데 동시에 "혐오 (Hate)"를 막으려는 안전장치가 끼어들면, 두 가지 금지 명령이 서로 충돌합니다.
    • "성"을 막으려면 오른쪽으로 가라.
    • "혐오"를 막으려면 왼쪽으로 가라.
    • 결과: AI 는 "어디로 가야 하지?"라며 당황하다가, 두 명령이 서로를 상쇄시켜버려 결국 "성" 그림도 막지 못하고, "혐오" 그림도 막지 못하는 최악의 상황이 발생합니다.

이를 논문에서는 **"안전 충돌 (Harmful Conflict)"**이라고 부릅니다. 마치 주방에 식중독 방지 요원이 너무 많아서 서로 "이게 독이야!", "아니 그건 아니야!"라고 싸우는 바람에, 정작 독이 든 음식을 건드리지 못하고 넘어가는 상황과 같습니다.

2. 해결책: CASG (똑똑한 안전 요원)

저자들은 이 문제를 해결하기 위해 **CASG(Conflict-aware Adaptive Safety Guidance)**라는 새로운 시스템을 만들었습니다.

핵심 아이디어:
"모든 나쁜 것을 동시에 막으려 하지 말고, 지금 AI 가 그리는 그림에 가장 관련 있는 '나쁜 것' 하나만 골라 정확히 막아라!"

어떻게 작동할까요? (비유: 현명한 주방장)

  1. CaCI (상황 파악): AI 가 그림을 그리는 순간순간을 지켜봅니다. "아, 지금 AI 가 '선정성' 쪽으로 치우치고 있네? 아니면 '폭력' 쪽으로 가고 있나?"라고 실시간으로 감지합니다.
  2. CrGA (정확한 조치):
    • 만약 AI 가 '선정성' 쪽으로 가고 있다면, "성" 관련 안전장치만 딱 작동시킵니다.
    • 이때 다른 "폭력"이나 "혐오" 관련 안전장치는 잠시 쉬게 합니다.
    • 효과: 서로 싸우지 않고, 가장 필요한 안전장치가 혼자서 강력하게 작동합니다.

이 방법은 AI 의 모델을 다시 훈련시킬 필요도 없고, 기존 시스템에 바로 끼워 넣을 수 있는 (Plug-and-play) 방식이라 매우 효율적입니다.

3. 결과: "안전도 지키고, 그림도 잘 그린다"

실험 결과, 이 새로운 방법 (CASG) 을 쓰면:

  • 위험한 그림이 15.4% 더 줄었습니다. (기존 방법보다 훨씬 안전해짐)
  • 안전한 그림 (예: 개, 고양이, 풍경) 은 예전과 똑같이 잘 그려졌습니다. (안전장치가 너무 강해서 그림이 뭉개지는 현상이 사라짐)

4. 결론: 왜 이 논문이 중요할까?

이 논문은 **"안전하다고 해서 무조건 많은 안전장치를 다 달면 좋은 게 아니다"**라는 교훈을 줍니다. 오히려 서로 충돌하는 안전장치가 AI 를 혼란스럽게 만들어, 더 위험한 결과를 낳을 수 있습니다.

한 줄 요약:

"AI 가 그림을 그릴 때, 모든 나쁜 것을 막으려다 서로 부딪히는 안전장치를 정리하고, 지금 필요한 안전장치 하나만 똑똑하게 골라 쓰는 기술을 개발해서, AI 가 더 안전하고 깔끔하게 그림을 그릴 수 있게 만들었습니다."

이 기술은 앞으로 우리가 AI 를 사용할 때, 원하지 않는 나쁜 콘텐츠가 섞여 나오는 일을 크게 줄여줄 것으로 기대됩니다.