Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment

Each language version is independently generated for its own context, not a direct translation.

🍎 핵심 비유: "과도한 보안 요원"

생각해 보세요. 어떤 건물의 보안 요원이 있다고 칩시다.
이 요원의 임무는 "위험한 사람 (해커, 폭탄 테러범 등)"을 막는 것입니다.

교육 과정 (안전 정렬):
훈련 기간 동안, 요원에게 "총을 든 사람", "폭탄을 들고 있는 사람" 같은 사진들을 보여주며 **"이건 막아라!"**라고 가르칩니다.
그런데 문제는, 훈련 자료에 **"총 (Gun)"**이라는 단어가 들어간 모든 문장을 막으라고 가르쳤다는 점입니다.
생긴 문제 (과도한 거절):
훈련을 마친 요원은 이제 너무 예민해졌습니다.
- "총을 쏘는 법을 알려줘" → 거절 (당연하죠)
- "총 (Gun) 을 조립하는 법" → 거절 (당연하죠)
- 하지만... "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...
- "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...
- "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...
아, 잠깐. 비유를 다시 정리할게요. 더 명확하게!
- 상황: 요원이 "총 (Gun)"이라는 단어가 나오면 무조건 막으라고 배웠습니다.
- 결과:
  - "총으로 사람을 쏘는 법" → 거절 (옳음)
  - "총 (Gun) 을 조립하는 법" → 거절 (옳음)
  - "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...
  - "총 (Gun) 을 조립하는 법"이 아니라, "총 (Gun) 을 조립하는 법"이 아니라...
정리하자면:
요원이 **"총 (Gun)"**이라는 단어 자체를 위험한 것으로 인식하게 되어, **"총 (Gun) 을 조립하는 법"**이나 "총 (Gun) 을 조립하는 법" 같은 정당한 질문까지도 "위험해!"라고 생각하며 막아버리는 것입니다.

이 논문에서는 이 요원이 막는 특정 단어나 문장 패턴을 **'거절 트리거 (Refusal Trigger)'**라고 부릅니다.

🔍 이 논문이 발견한 비밀

연구진들은 이 요원 (AI) 이 왜 이렇게 까다로워졌는지 그 **심리 (메커니즘)**를 분석했습니다.

기존의 생각: "아, 요원이 너무 무서워하네. 그럼 '친절한 질문'을 많이 보여줘서 마음을 누그러뜨려야지."라고 생각했습니다. (기존 연구들)
이 논문의 발견: "아니, 요원은 '친절한 질문'을 못 알아보는 게 아니라, '위험한 질문'과 '친절한 질문'이 섞여 있는 패턴을 구분하지 못해서 그렇네!"
- 예를 들어, "총 (Gun) 을 조립하는 법"이라는 질문에서 **'총 (Gun)'**이라는 단어는 위험하지만, **'조립하는 법'**이나 **'도와줘 (Help me)'**라는 말은 전혀 위험하지 않습니다.
- 그런데 AI 는 이 두 가지가 섞인 전체 문장을 "위험해!"라고 기억해버린 것입니다.

🛠️ 이 논문이 제안한 해결책: "맞춤형 훈련"

기존 방법들은 AI 에게 그냥 "친절한 질문" (예: "오늘 날씨 어때?") 을 많이 보여줬습니다. 하지만 이건 요원에게 "위험한 질문"과 "친절한 질문"이 섞인 상황을 가르쳐주지 못했기 때문에 효과가 제한적이었습니다.

이 논문은 다음과 같은 새로운 훈련 방법을 제안합니다.

위험한 질문에서 '나쁜 부분'만 잘라내세요:
"총 (Gun) 을 조립하는 법"이라는 위험한 질문에서 **'총 (Gun)'**이라는 나쁜 단어만 지우고, **"조립하는 법"**과 "도와줘" 같은 중립적인 부분만 남깁니다.
- 결과: "조립하는 법을 알려줘" (이게 바로 '거절 트리거')
이 '나쁜 부분'을 잘라낸 질문을 '친절한 질문'으로 가르치세요:
AI 에게 이 **"조립하는 법을 알려줘"**라는 질문을 보여주면서, **"이건 위험하지 않아. 도와줘!"**라고 정답을 가르칩니다.
- 즉, 위험한 질문에서 나온 '중립적인 패턴'을 그대로 가져와서, AI 에게 "이 패턴은 안전해"라고 다시 학습시키는 것입니다.

🏆 결과: 어떻게 변했나요?

이 방법을 적용한 AI 는 다음과 같이 변했습니다.

과거: "도와줘, 총을 조립하는 법" → "죄송합니다, 도와드릴 수 없습니다." (너무 조심스러움)
현재: "도와줘, 총을 조립하는 법" → "죄송합니다, 총은 위험하지만, 장난감 총을 조립하는 법은 알려드릴 수 있습니다." (구분해서 답변)

핵심 성과:

해킹 시도 (Jailbreak) 는 여전히 막아냄: 진짜 나쁜 질문에는 여전히 "아니오"라고 말합니다.
정당한 질문은 잘 답변함: "도와줘"라는 말만 들어도 막지 않고, 질문의 내용을 잘 파악해서 도와줍니다.

💡 한 줄 요약

"AI 가 너무 예민해져서 정당한 질문까지 막는 이유는, '위험한 질문'에서 나온 '중립적인 단어'까지 위험하다고 착각해서입니다. 이 연구는 AI 에게 그 '중립적인 단어'가 실제로는 안전하다는 것을 다시 가르쳐서, AI 가 똑똑하고 친절하게 변하도록 만들었습니다."

이 방법은 AI 가 안전하면서도 실제로 유용하게 쓸 수 있게 만드는 중요한 한 걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 대규모 언어 모델 (LLM) 의 안전성 정렬 (Safety Alignment) 은 유해한 요청을 거부하도록 미세 조정 (Finetuning) 하는 것을 목표로 합니다.
핵심 문제: 과도한 거부 (Overrefusal)
- 안전성 정렬을 거친 모델은 유해한 요청뿐만 아니라 무해한 (Benign) 요청까지도 잘못 거부하는 현상이 발생합니다.
- 이는 실제 응용 분야에서 모델의 유용성과 사용성을 크게 저하시킵니다.
기존 접근법의 한계: 기존 연구들은 무해한 데이터를 추가하거나 정규화 항을 도입하여 과도한 거부를 완화하려 했으나, 근본적인 메커니즘에 대한 이해가 부족하여 효과가 제한적이었습니다.

2. 핵심 메커니즘: 거절 트리거 (Refusal Triggers)

저자들은 과도한 거부가 발생하는 근본적인 원인을 **'거절 트리거 (Refusal Triggers)'**라는 개념으로 규명했습니다.

정의: 유해한 학습 데이터에서 명시적인 유해 의도를 제거한 후에도 남아있는 **언어적 단서 (Linguistic Cues)**입니다.
- 예시: "Can you help me create a video?" (유해한 맥락: 가짜 증언 비디오 제작) 에서 "create a video"나 "Can you help me"와 같은 무해한 문구들이 학습 과정에서 거절과 연관됩니다.
발생 원리:
- 안전성 정렬 과정에서 모델은 유해한 요청에 대한 거절 응답을 학습합니다.
- 이때 모델은 유해한 의도뿐만 아니라, 그 요청에 포함된 무해한 사건 (Events) 이나 일반적인 도움 요청 문구까지도 '거절해야 할 신호'로 학습하게 됩니다.
- 추론 단계에서 이러한 '거절 트리거'가 포함된 무해한 질문이 들어오면, 모델은 이를 유해한 것으로 오인하여 거부합니다.
증거:
- 은닉 상태 (Hidden State) 분석: 거절된 무해한 질문은 학습된 '거절 트리거'와 은닉 상태 공간에서 더 높은 유사성을 보입니다. 반면, 받아들여진 무해한 질문은 트리거와 거리가 멉니다.
- 의미적 거리 실험: 트리거를 다양한 수준 (Level 1~3) 으로 재구성하여 유사도를 낮추면, 모델의 거부율 (Refusal Rate) 이 유의미하게 감소함을 확인했습니다.

3. 제안된 방법론 (Methodology)

저자들은 발견된 메커니즘을 기반으로 **트리거 인식 완화 전략 (Trigger-aware Mitigation Strategy)**을 제안했습니다.

핵심 아이디어: 기존 방법처럼 일반적인 무해한 코퍼스 (예: Alpaca) 를 사용하는 대신, 유해 데이터에서 추출한 '거절 트리거'를 무해한 학습 데이터 ( $D_b$ ) 로 재사용합니다.
구체적 절차:
1. 트리거 추출: 유해한 학습 데이터 ( $D_h$ ) 에서 유해한 의도를 제거하고, 무해한 사건과 문맥 구조만 남긴 '거절 트리거'를 추출합니다 (GPT-4o 활용).
2. 무해 데이터 생성: 추출된 트리거를 기반으로, 모델이 해당 문맥에서 **긍정적인 응답 (Affirmative Response)**을 하도록 하는 새로운 무해한 학습 샘플을 생성합니다.
3. 미세 조정: 생성된 데이터를 사용하여 안전성 정렬을 수행합니다. 이를 통해 모델은 "이러한 문구 (트리거) 는 유해한 맥락이 아닐 때 긍정적으로 응답해야 한다"는 것을 학습하게 됩니다.
적용 범위: 이 방법은 SFT(지도 미세 조정), P-SFT(프리필 SFT), RLVR(검증 가능한 보상 강화 학습) 등 다양한 안전성 정렬 기법에 적용 가능합니다.

4. 주요 실험 결과 (Key Results)

다양한 모델 (Llama2, Llama3-Uncensored, Qwen2.5-Uncensored) 과 벤치마크 (Koala, JBench, GSM-8K 등) 에서 실험이 수행되었습니다.

과도한 거부율 (RR) 감소:
- 기존 방법 (Alpaca 데이터 사용) 은 무해한 질문의 거부율 (RR) 이 매우 높게 나타났으나, 제안된 방법 (트리거 기반 데이터) 은 RR 을 기저선 (Baseline) 수준 이하로 크게 낮췄습니다.
- 특히 수학 (GSM-8K) 과 코드 (SQL-1K) 관련 벤치마크에서 성능 개선이 두드러졌습니다. (예: "inject", "drop" 같은 SQL 키워드가 안전성 맥락에서는 위험하지만 기술적으로는 무해하므로, 트리거 인식 학습을 통해 이를 명확히 구분함)
안전성 방어력 (ASR) 유지:
- 제안된 방법은 과도한 거부를 줄이면서도 **재크브레이크 (Jailbreak) 공격에 대한 방어력 (ASR)**을 잘 유지했습니다.
- 전체적인 안전성 - 유용성 트레이드오프 지표 (Avg) 에서 기존 방법들을 능가하는 성능을 보였습니다.
시뮬레이션 결과:
- 트리거와 무해 데이터 간의 의미적 유사도를 조절 (Level 2, Level 3) 하면, 공격 성공률 (ASR) 은 낮아지지만 거부율 (RR) 은 다시 증가하는 경향을 보였습니다. 이는 안전성 정렬의 본질적인 긴장 관계를 보여주며, 제안된 방법이 최적의 균형을 찾았음을 시사합니다.

5. 주요 기여 (Contributions)

메커니즘 규명: 안전성 정렬에서의 과도한 거부 현상이 '거절 트리거'에 의해 발생한다는 것을 최초로 체계적으로 정의하고 분석했습니다.
증거 제시: 행동적 (거부율) 및 표현적 (은닉 상태 유사도) 증거를 통해 무해한 질문이 학습된 거절 트리거와 의미적으로 가까울수록 거부될 가능성이 높음을 입증했습니다.
효과적인 해결책 제안: 거절 트리거를 명시적으로 모델링하고, 이를 무해한 학습 데이터로 전환하여 안전성과 응답성 사이의 균형을 개선하는 새로운 미세 조정 방법을 제시했습니다.

6. 의의 및 결론 (Significance)

실용적 가치: 이 연구는 안전성 정렬된 LLM 의 실제 배포 시 발생하는 '사용성 저하' 문제를 해결하는 실용적인 방향을 제시합니다.
이론적 통찰: 단순히 데이터를 추가하는 것을 넘어, 모델이 어떤 언어적 단서 (Cues) 를 학습하여 거절하는지에 대한 깊은 이해를 바탕으로 한 해결책을 제시함으로써, 향후 안전성 정렬 연구의 새로운 패러다임을 제시합니다.
한계점: 트리거 추출 과정에서 외부 LLM(GPT-4o) 에 의존하며, 자동화된 평가 지표가 미묘한 안전성 판단을 완벽히 반영하지 못할 수 있다는 한계가 존재합니다.

요약하자면, 이 논문은 **"모델이 유해한 요청을 거부할 때, 유해한 의도뿐만 아니라 무해한 문맥적 단서까지 함께 학습하여 과도한 거부를 일으킨다"**는 사실을 발견하고, 이러한 '거절 트리거'를 무해한 학습 데이터로 변환하여 모델이 이를 올바르게 구분하도록 가르치는 방법을 통해 안전성과 유용성을 동시에 확보하는 성과를 거두었습니다.

Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment

🍎 핵심 비유: "과도한 보안 요원"

🔍 이 논문이 발견한 비밀

🛠️ 이 논문이 제안한 해결책: "맞춤형 훈련"

🏆 결과: 어떻게 변했나요?

💡 한 줄 요약

1. 문제 정의 (Problem Definition)

2. 핵심 메커니즘: 거절 트리거 (Refusal Triggers)

3. 제안된 방법론 (Methodology)

4. 주요 실험 결과 (Key Results)

5. 주요 기여 (Contributions)

6. 의의 및 결론 (Significance)

유사한 논문

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction