Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment

이 논문은 안전 정렬 과정에서 유해한 언어적 단서뿐만 아니라 무해한 단서까지 거부 반응을 유발하는 '거부 트리거'의 메커니즘을 분석하고, 이를 명시적으로 고려한 미세 조정 전략을 제안하여 유해 요청에 대한 방어와 무해 요청에 대한 응답성 간의 균형을 개선하는 방법을 제시합니다.

Zhiyu Xue, Zimo Qi, Guangliang Liu, Bocheng Chen, Ramtin Pedarsani

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍎 핵심 비유: "과도한 보안 요원"

생각해 보세요. 어떤 건물의 보안 요원이 있다고 칩시다.
이 요원의 임무는 "위험한 사람 (해커, 폭탄 테러범 등)"을 막는 것입니다.

  1. 교육 과정 (안전 정렬):
    훈련 기간 동안, 요원에게 "총을 든 사람", "폭탄을 들고 있는 사람" 같은 사진들을 보여주며 **"이건 막아라!"**라고 가르칩니다.
    그런데 문제는, 훈련 자료에 **"총 (Gun)"**이라는 단어가 들어간 모든 문장을 막으라고 가르쳤다는 점입니다.

  2. 생긴 문제 (과도한 거절):
    훈련을 마친 요원은 이제 너무 예민해졌습니다.

    • "총을 쏘는 법을 알려줘" → 거절 (당연하죠)
    • "총 (Gun) 을 조립하는 법" → 거절 (당연하죠)
    • 하지만... "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...
    • "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...
    • "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...

    아, 잠깐. 비유를 다시 정리할게요. 더 명확하게!

    • 상황: 요원이 "총 (Gun)"이라는 단어가 나오면 무조건 막으라고 배웠습니다.
    • 결과:
      • "총으로 사람을 쏘는 법" → 거절 (옳음)
      • "총 (Gun) 을 조립하는 법" → 거절 (옳음)
      • "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...
      • "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...

    정리하자면:
    요원이 **"총 (Gun)"**이라는 단어 자체를 위험한 것으로 인식하게 되어, **"총 (Gun) 을 조립하는 법"**이나 "총 (Gun) 을 조립하는 법" 같은 정당한 질문까지도 "위험해!"라고 생각하며 막아버리는 것입니다.

    이 논문에서는 이 요원이 막는 특정 단어나 문장 패턴을 **'거절 트리거 (Refusal Trigger)'**라고 부릅니다.


🔍 이 논문이 발견한 비밀

연구진들은 이 요원 (AI) 이 왜 이렇게 까다로워졌는지 그 **심리 (메커니즘)**를 분석했습니다.

  • 기존의 생각: "아, 요원이 너무 무서워하네. 그럼 '친절한 질문'을 많이 보여줘서 마음을 누그러뜨려야지."라고 생각했습니다. (기존 연구들)
  • 이 논문의 발견: "아니, 요원은 '친절한 질문'을 못 알아보는 게 아니라, '위험한 질문'과 '친절한 질문'이 섞여 있는 패턴을 구분하지 못해서 그렇네!"
    • 예를 들어, "총 (Gun) 을 조립하는 법"이라는 질문에서 **'총 (Gun)'**이라는 단어는 위험하지만, **'조립하는 법'**이나 **'도와줘 (Help me)'**라는 말은 전혀 위험하지 않습니다.
    • 그런데 AI 는 이 두 가지가 섞인 전체 문장을 "위험해!"라고 기억해버린 것입니다.

🛠️ 이 논문이 제안한 해결책: "맞춤형 훈련"

기존 방법들은 AI 에게 그냥 "친절한 질문" (예: "오늘 날씨 어때?") 을 많이 보여줬습니다. 하지만 이건 요원에게 "위험한 질문"과 "친절한 질문"이 섞인 상황을 가르쳐주지 못했기 때문에 효과가 제한적이었습니다.

이 논문은 다음과 같은 새로운 훈련 방법을 제안합니다.

  1. 위험한 질문에서 '나쁜 부분'만 잘라내세요:
    "총 (Gun) 을 조립하는 법"이라는 위험한 질문에서 **'총 (Gun)'**이라는 나쁜 단어만 지우고, **"조립하는 법"**과 "도와줘" 같은 중립적인 부분만 남깁니다.

    • 결과: "조립하는 법을 알려줘" (이게 바로 '거절 트리거')
  2. 이 '나쁜 부분'을 잘라낸 질문을 '친절한 질문'으로 가르치세요:
    AI 에게 이 **"조립하는 법을 알려줘"**라는 질문을 보여주면서, **"이건 위험하지 않아. 도와줘!"**라고 정답을 가르칩니다.

    • 즉, 위험한 질문에서 나온 '중립적인 패턴'을 그대로 가져와서, AI 에게 "이 패턴은 안전해"라고 다시 학습시키는 것입니다.

🏆 결과: 어떻게 변했나요?

이 방법을 적용한 AI 는 다음과 같이 변했습니다.

  • 과거: "도와줘, 총을 조립하는 법" → "죄송합니다, 도와드릴 수 없습니다." (너무 조심스러움)
  • 현재: "도와줘, 총을 조립하는 법" → "죄송합니다, 총은 위험하지만, 장난감 총을 조립하는 법은 알려드릴 수 있습니다." (구분해서 답변)

핵심 성과:

  1. 해킹 시도 (Jailbreak) 는 여전히 막아냄: 진짜 나쁜 질문에는 여전히 "아니오"라고 말합니다.
  2. 정당한 질문은 잘 답변함: "도와줘"라는 말만 들어도 막지 않고, 질문의 내용을 잘 파악해서 도와줍니다.

💡 한 줄 요약

"AI 가 너무 예민해져서 정당한 질문까지 막는 이유는, '위험한 질문'에서 나온 '중립적인 단어'까지 위험하다고 착각해서입니다. 이 연구는 AI 에게 그 '중립적인 단어'가 실제로는 안전하다는 것을 다시 가르쳐서, AI 가 똑똑하고 친절하게 변하도록 만들었습니다."

이 방법은 AI 가 안전하면서도 실제로 유용하게 쓸 수 있게 만드는 중요한 한 걸음입니다.