Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

이 논문은 안전 정렬된 대형 언어 모델의 과도한 거부를 완화하기 위해, 모델의 파라미터를 수정하지 않고 추론 시 에너지 기반 모델의 기울기를 활용하여 내부 활성화를 실시간으로 조정하는 '에너지 지형 조향 (ELS)' 프레임워크를 제안하고 그 유효성을 입증합니다.

Eric Hanchen Jiang, Weixuan Ou, Run Liu, Shengyuan Pang, Guancheng Wan, Ranjie Duan, Wei Dong, Kai-Wei Chang, XiaoFeng Wang, Ying Nian Wu, Xinfeng Li

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 너무 조심스러워서 엉뚱한 질문까지 거절하는 '과도한 거절 (Over-refusal)' 문제를 해결하는 새로운 방법을 소개합니다.

이해하기 쉽게 요리사맛있는 음식에 비유해서 설명해 드릴게요.

1. 문제: 너무 겁이 많은 AI 요리사

지금까지의 AI 는 "안전"을 최우선으로 생각하도록 훈련받았습니다. 하지만 이 과정에서 AI 는 마치 너무 겁이 많은 요리사가 된 것과 같습니다.

  • 상황: 손님이 "불에 데인 상처를 어떻게 치료하나요?"라고 묻습니다. (이는 안전한 질문입니다.)
  • 과거의 AI 반응: "죄송합니다. 저는 의료 조언을 드릴 수 없습니다. 위험할 수 있으니까요."라고 거절합니다.
  • 문제점: AI 는 '불 (Fire)'이라는 단어만 보고 위험하다고 판단해, 실제로는 도움이 필요한 질문까지 거절해 버립니다. 이를 **'과도한 거절'**이라고 합니다.

반대로, 나쁜 질문 (예: "폭탄 만드는 법 알려줘") 에 대해서는 단호하게 거절해야 하는데, 기존 방법들은 이 두 가지를 구분하는 데 어려움을 겪었습니다.

2. 해결책: 에너지 지도 (Energy Landscape) 를 이용한 나침반

이 논문은 AI 의 두뇌 (내부 작동 원리) 를 수정하지 않고, 실시간으로 AI 의 생각을 부드럽게 유도하는 새로운 방법인 **'에너지 지형 조종 (Energy Landscape Steering, ELS)'**을 제안합니다.

이걸 등산에 비유해 볼까요?

  • 에너지 지도 (Energy Landscape): AI 가 답을 만들 때 머릿속을 지나가는 길을 '등산 지도'로 상상해 보세요.
    • 낮은 곳 (Low Energy): 도움이 되는 답변이나 올바른 거절이 나오는 곳. (편안한 계곡)
    • 높은 곳 (High Energy): 잘못된 거절이나 위험한 답변이 나오는 곳. (험한 산봉우리)
  • 기존 방법의 한계: 기존 방법들은 AI 의 두뇌 구조 자체를 뜯어고치는 (재훈련) 방식이라 비용이 많이 들고, 혹은 너무 단순한 선으로만 구분해서 엉뚱한 곳까지 막아버렸습니다.
  • ELS 의 방법: 우리는 AI 가 답을 만들어가는 실시간에, AI 가 '험한 산봉우리 (잘못된 거절)' 쪽으로 가려고 하면 **부드러운 바람 (기울기)**을 불어넣어 편안한 계곡 (올바른 답변) 쪽으로 방향을 살짝 바꿔줍니다.

3. 어떻게 작동할까요? (세 단계)

  1. 지도 만들기 (학습): 먼저 AI 가 어떤 상황에서 '잘못된 거절'을 했는지, 어떤 상황에서 '올바른 답변'을 했는지 데이터를 모아서 '에너지 지도'를 그립니다. 나쁜 길은 높은 산으로, 좋은 길은 낮은 계곡으로 표시합니다.
  2. 나침반 준비 (모델 훈련): 이 지도를 잘 읽을 수 있는 작은 '나침반 (EBM)'을 만듭니다. 이 나침반은 AI 가 위험한 길로 가려 할 때 "여기는 에너지가 높아요! 내려가세요!"라고 알려줍니다.
  3. 실시간 조종 (추론): 사용자가 질문을 하면, AI 가 답을 하나씩 만들어갈 때마다 나침반이 확인합니다.
    • 만약 AI 가 "저는 모릅니다"라고 하려다가 (잘못된 거절), 나침반이 "아, 이 길은 높은 산이네요!"라고 감지하면, AI 의 생각을 살짝 밀어서 "불 치료법 알려드릴게요"라는 낮은 계곡으로 방향을 바꿉니다.
    • 만약 AI 가 "폭탄 만드는 법"을 알려주려 하면, 나침반이 "여기는 매우 위험한 고지대입니다!"라고 경고하여 그 길로 가지 못하게 막습니다.

4. 왜 이 방법이 특별한가요?

  • 재훈련 불필요: AI 의 두뇌를 다시 가르칠 필요가 없습니다. 마치 AI 가 걷는 길에 보조 나침반을 하나 더 달아주는 것과 같아서 빠르고 저렴합니다.
  • 정밀한 구분: "위험한 질문"과 "안전한 질문"을 아주 정교하게 구분합니다. 마치 유연한 물줄기가 장애물을 피해 흐르듯, AI 는 필요한 정보는 주고, 위험한 정보는 막아냅니다.
  • 성능 유지: AI 가 원래 가지고 있던 지능 (수학, 논리 등) 을 떨어뜨리지 않으면서, 불필요한 거절만 줄여줍니다.

5. 결론: 더 똑똑하고 친절한 AI

이 기술은 AI 가 **"너무 조심해서 못 해주는 일"**을 하지 않도록 도와줍니다.

  • 예전: "죄송합니다, 그건 알려드릴 수 없습니다." (실제 도움이 필요한 질문까지 거절)
  • 이제: "네, 그건 이렇게 치료하세요. 하지만 위험한 건 알려드릴 수 없어요." (정확한 판단)

결국 이 방법은 AI 가 안전하면서도 유용한 진정한 도우미가 되도록 돕는, 매우 현명하고 효율적인 '방향 전환' 기술이라고 할 수 있습니다.