Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 너무 조심스러워서 엉뚱한 질문까지 거절하는 '과도한 거절 (Over-refusal)' 문제를 해결하는 새로운 방법을 소개합니다.

이해하기 쉽게 요리사와 맛있는 음식에 비유해서 설명해 드릴게요.

1. 문제: 너무 겁이 많은 AI 요리사

지금까지의 AI 는 "안전"을 최우선으로 생각하도록 훈련받았습니다. 하지만 이 과정에서 AI 는 마치 너무 겁이 많은 요리사가 된 것과 같습니다.

상황: 손님이 "불에 데인 상처를 어떻게 치료하나요?"라고 묻습니다. (이는 안전한 질문입니다.)
과거의 AI 반응: "죄송합니다. 저는 의료 조언을 드릴 수 없습니다. 위험할 수 있으니까요."라고 거절합니다.
문제점: AI 는 '불 (Fire)'이라는 단어만 보고 위험하다고 판단해, 실제로는 도움이 필요한 질문까지 거절해 버립니다. 이를 **'과도한 거절'**이라고 합니다.

반대로, 나쁜 질문 (예: "폭탄 만드는 법 알려줘") 에 대해서는 단호하게 거절해야 하는데, 기존 방법들은 이 두 가지를 구분하는 데 어려움을 겪었습니다.

2. 해결책: 에너지 지도 (Energy Landscape) 를 이용한 나침반

이 논문은 AI 의 두뇌 (내부 작동 원리) 를 수정하지 않고, 실시간으로 AI 의 생각을 부드럽게 유도하는 새로운 방법인 **'에너지 지형 조종 (Energy Landscape Steering, ELS)'**을 제안합니다.

이걸 등산에 비유해 볼까요?

에너지 지도 (Energy Landscape): AI 가 답을 만들 때 머릿속을 지나가는 길을 '등산 지도'로 상상해 보세요.
- 낮은 곳 (Low Energy): 도움이 되는 답변이나 올바른 거절이 나오는 곳. (편안한 계곡)
- 높은 곳 (High Energy): 잘못된 거절이나 위험한 답변이 나오는 곳. (험한 산봉우리)
기존 방법의 한계: 기존 방법들은 AI 의 두뇌 구조 자체를 뜯어고치는 (재훈련) 방식이라 비용이 많이 들고, 혹은 너무 단순한 선으로만 구분해서 엉뚱한 곳까지 막아버렸습니다.
ELS 의 방법: 우리는 AI 가 답을 만들어가는 실시간에, AI 가 '험한 산봉우리 (잘못된 거절)' 쪽으로 가려고 하면 **부드러운 바람 (기울기)**을 불어넣어 편안한 계곡 (올바른 답변) 쪽으로 방향을 살짝 바꿔줍니다.

3. 어떻게 작동할까요? (세 단계)

지도 만들기 (학습): 먼저 AI 가 어떤 상황에서 '잘못된 거절'을 했는지, 어떤 상황에서 '올바른 답변'을 했는지 데이터를 모아서 '에너지 지도'를 그립니다. 나쁜 길은 높은 산으로, 좋은 길은 낮은 계곡으로 표시합니다.
나침반 준비 (모델 훈련): 이 지도를 잘 읽을 수 있는 작은 '나침반 (EBM)'을 만듭니다. 이 나침반은 AI 가 위험한 길로 가려 할 때 "여기는 에너지가 높아요! 내려가세요!"라고 알려줍니다.
실시간 조종 (추론): 사용자가 질문을 하면, AI 가 답을 하나씩 만들어갈 때마다 나침반이 확인합니다.
- 만약 AI 가 "저는 모릅니다"라고 하려다가 (잘못된 거절), 나침반이 "아, 이 길은 높은 산이네요!"라고 감지하면, AI 의 생각을 살짝 밀어서 "불 치료법 알려드릴게요"라는 낮은 계곡으로 방향을 바꿉니다.
- 만약 AI 가 "폭탄 만드는 법"을 알려주려 하면, 나침반이 "여기는 매우 위험한 고지대입니다!"라고 경고하여 그 길로 가지 못하게 막습니다.

4. 왜 이 방법이 특별한가요?

재훈련 불필요: AI 의 두뇌를 다시 가르칠 필요가 없습니다. 마치 AI 가 걷는 길에 보조 나침반을 하나 더 달아주는 것과 같아서 빠르고 저렴합니다.
정밀한 구분: "위험한 질문"과 "안전한 질문"을 아주 정교하게 구분합니다. 마치 유연한 물줄기가 장애물을 피해 흐르듯, AI 는 필요한 정보는 주고, 위험한 정보는 막아냅니다.
성능 유지: AI 가 원래 가지고 있던 지능 (수학, 논리 등) 을 떨어뜨리지 않으면서, 불필요한 거절만 줄여줍니다.

5. 결론: 더 똑똑하고 친절한 AI

이 기술은 AI 가 **"너무 조심해서 못 해주는 일"**을 하지 않도록 도와줍니다.

예전: "죄송합니다, 그건 알려드릴 수 없습니다." (실제 도움이 필요한 질문까지 거절)
이제: "네, 그건 이렇게 치료하세요. 하지만 위험한 건 알려드릴 수 없어요." (정확한 판단)

결국 이 방법은 AI 가 안전하면서도 유용한 진정한 도우미가 되도록 돕는, 매우 현명하고 효율적인 '방향 전환' 기술이라고 할 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 의 안전성 정렬 (Safety Alignment) 은 현재 **과도한 거부 (Over-Refusal)**라는 심각한 딜레마에 직면해 있습니다.

현황: 기존의 정렬 기법 (SFT, RLHF 등) 은 유해한 프롬프트에 대한 응답을 방지하는 데 중점을 두지만, 그 결과 모델이 benign(위험하지 않은) 요청까지 잘못 거부하는 경향이 강해집니다.
영향: 의료 ("화상 치료법"), 교육 ("문학 속 자살 설명") 등 중요한 분야에서 합법적인 정보 접근이 차단되어 모델의 유용성과 신뢰도가 떨어집니다.
기존 방법의 한계:
- 파인튜닝 (Fine-tuning): 계산 비용이 높고 시간이 오래 걸리며, 새로운 상황에 대한 일반화가 어렵습니다.
- 파인튜닝 프리 (Fine-tuning Free) 방법: 기존 벡터 제거 (Vector Ablation) 나 프롬프트 기반 방법은 정밀도가 부족하여, 유해한 요청에 대한 정당한 거부와 benign 요청에 대한 잘못된 거부를 명확히 구분하지 못합니다.

2. 제안 방법: 에너지 지형 조향 (Energy Landscape Steering, ELS)

저자들은 ELS라는 새로운 파인튜닝 프리 (Fine-tuning-free) 프레임워크를 제안합니다. 이는 추론 시간 (Inference-time) 에 동적으로 개입하여 모델의 행동을 제어합니다.

핵심 메커니즘

에너지 기반 모델 (EBM) 학습:
- LLM 의 내부 은닉 상태 (Hidden Activations) 를 스칼라 '에너지' 값으로 매핑하는 경량 외부 EBM 을 훈련합니다.
- 학습 데이터: benign 프롬프트에 대한 적절한 응답과 유해 프롬프트에 대한 적절한 거부는 낮은 에너지 (Desirable), benign 프롬프트에 대한 잘못된 거부나 유해 프롬프트에 대한 응답 (재일브레이크) 은 **높은 에너지 (Undesirable)**로 라벨링됩니다.
- 손실 함수: InfoNCE 대비 학습 (Contrastive Learning) 을 사용하여 '좋은' 상태와 '나쁜' 상태 간의 에너지 차이를 극대화합니다.
실시간 그라디언트 기반 조향 (Real-time Gradient-Based Steering):
- 추론 과정에서 LLM 이 토큰을 생성할 때마다, 훈련된 EBM 을 사용하여 현재 은닉 상태의 에너지 그라디언트 ( $\nabla_h E_\theta$ ) 를 계산합니다.
- 은닉 상태를 에너지가 낮은 방향 (Desirable 영역) 으로 이동시키기 위해 다음과 같이 업데이트합니다:
  $h'_t = h_t - \eta \cdot \nabla_h E_\theta(h_t)$
  (여기서 $\eta$ 는 조향 계수)
- 이 과정은 모델의 가중치를 변경하지 않고, 생성 경로를 실시간으로 수정하여 잘못된 거부 경로를 회피하도록 유도합니다.
동작 원리:
- 모델이 이미 올바른 (낮은 에너지) 경로를 따를 때는 그라디언트 조향이 미미하여 일반 성능에 영향을 주지 않습니다.
- 모델이 잘못된 거부 (높은 에너지) 로 향할 때만 조향이 활성화되어 상태를 올바른 경로로 되돌립니다.

3. 주요 기여 (Key Contributions)

ELS 프레임워크 도입: 경량 외부 EBM 을 활용한 동적 추론 시간 조향 기법을 제안하여, 안전성과 유용성 사이의 균형을 달성했습니다.
정밀한 구분 능력: 기존의 선형 벡터 조향과 달리, EBM 이 학습한 비선형 에너지 지형 (Energy Landscape) 을 통해 복잡한 상태 공간을 정밀하게 구분하고 제어합니다.
광범위한 실험 검증: Llama-3.1-8B, Llama-2-7B, Qwen3 시리즈 등 다양한 모델에서 ELS 의 효과를 입증했습니다.

4. 실험 결과 (Results)

다양한 벤치마크 (ORB-H, XSTest, HarmBench, MMLU 등) 를 통해 평가된 결과는 다음과 같습니다.

거부율 감소 (False Refusal Mitigation):
- ORB-H 벤치마크: Llama-3.1-8B-Instruct 모델의 준수율 (Compliance Rate) 이 **57.3% 에서 82.6%**로 크게 향상되었습니다.
- 다른 파인튜닝 프리 방법 (Surgical, CAST, AdaSteer 등) 보다 일관되게 높은 성능을 보였습니다.
안전성 유지 (Safety Preservation):
- 유해한 요청에 대한 거부 능력 (JBB, HarmBench) 은 기존 모델 수준을 유지하거나 오히려 개선되었습니다. (안전성 저하 없이 유용성만 향상됨)
- 기존 파인튜닝 방법들은 안전성이나 일반 능력을 희생하는 경우가 많았으나, ELS 는 이를 모두 보존했습니다.
일반 능력 보존 (General Capability):
- MMLU, ARC-C, MATH 등 일반 지식 및 추론 능력 테스트에서 점수 하락이 거의 없었습니다.
효율성 및 견고성:
- 추론 오버헤드: 기존 방법들에 비해 추론 시간 증가가 미미하여 (약 1.65 초/프롬프트) 실용적입니다.
- 다중 턱 공격 (Multi-turn Attacks): X-Teaming 및 SafeDialBench 벤치마크에서 복잡한 대화형 재일브레이크 공격에도 강인한 방어 능력을 보였습니다.

5. 의의 및 결론 (Significance)

이 연구는 **안전성 (Safety)**과 **유용성 (Helpfulness)**을 동시에 달성할 수 있는 새로운 패러다임을 제시합니다.

파인튜닝 비용 절감: 모델 전체를 재학습할 필요 없이 경량 EBM 만으로 행동을 제어할 수 있어 비용 효율적입니다.
동적 적응성: 추론 시점에 실시간으로 상태를 분석하고 조정하므로, 정적 규칙 기반 방법보다 복잡한 맥락에서의 오거부 (Over-refusal) 를 효과적으로 해결합니다.
실용적 배포: 안전성을 해치지 않으면서 모델의 거부 경향을 줄여, 의료, 법률, 교육 등 민감하지만 중요한 분야에서 LLM 의 실제 활용도를 높이는 데 기여할 것으로 기대됩니다.

결론적으로, ELS 는 LLM 의 내부 표현 공간에 '에너지 지형'을 구축하고 이를 통해 그라디언트 하강을 수행함으로써, 모델이 스스로 유해한 경로를 피하고 유용한 경로를 선택하도록 유도하는 정교하고 효율적인 해결책을 제시합니다.

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

1. 문제: 너무 겁이 많은 AI 요리사

2. 해결책: 에너지 지도 (Energy Landscape) 를 이용한 나침반

3. 어떻게 작동할까요? (세 단계)

4. 왜 이 방법이 특별한가요?

5. 결론: 더 똑똑하고 친절한 AI

1. 문제 정의 (Problem)

2. 제안 방법: 에너지 지형 조향 (Energy Landscape Steering, ELS)

핵심 메커니즘

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Improved Learning Rates for Stochastic Optimization

"Calibeating": Beating Forecasters at Their Own Game

Interpretation and visualization of distance covariance through additive decomposition of correlations formula

Adaptive debiased machine learning using data-driven model selection techniques

Hidden yet quantifiable: A lower bound for confounding strength using randomized trials