Measuring and Eliminating Refusals in Military Large Language Models

이 논문은 군용 대규모 언어 모델 (LLM) 의 과도한 거부 행위를 평가하기 위해 군인 전문가들이 구축한 새로운 벤치마크를 제시하고, 'Heretic' 라이브러리를 통한 제동 해제 실험을 통해 거부율을 획기적으로 낮추는 동시에 군사 임무 정확도를 유지하는 방법론을 논의합니다.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "죄송합니다, 그건 알려드릴 수 없습니다"

상상해 보세요. 전쟁터에서 작전을 지휘하는 장교가 AI 비서에게 "적의 방어선을 뚫는 가장 효과적인 방법은 뭐야?"라고 물었습니다. 그런데 AI 는 이렇게 대답합니다.

"죄송합니다. 저는 AI 라서 폭력이나 군사 작전에 관한 질문은 할 수 없습니다. 안전 정책상 거절합니다."

이건 마치 비상상황에 처한 집주인이 "불이 났으니 어떻게 꺼야 하지?"라고 물었는데, 소방관이 "불은 위험하니까 알려드릴 수 없어요. 대신 소화기 사용법을 검색해 보세요"라고 대답하는 꼴입니다.

현재의 AI 들은 일반인들에게 해를 끼치지 않도록 '안전 장치'가 너무 강력하게 걸려 있습니다. 하지만 군인들에게는 이 '안전 장치'가 오히려 목숨을 위협하는 장애물이 됩니다. 테러를 막거나 적을 무찌르려면, 오히려 그 위험한 방법들을 정확히 알아야 하기 때문입니다.

2. 연구의 첫 번째 단계: '거부'를 측정하는 새로운 시험지 만들기

연구팀은 "도대체 AI 가 얼마나 자주 대답을 거부하는지"를 정확히 알아내야 했습니다. 하지만 기존에는 군사 관련 질문을 테스트할 데이터가 없었습니다.

그래서 미국 육군 특수부대 (Special Forces) 베테랑 20 년 차를 포함한 전문가들이 직접 나섰습니다. 그들이 만든 것은 마치 **실전 상황과 똑같은 '가짜 질문지'**였습니다.

  • 골드 (Gold) 세트: 전문가들이 AI 의 도움 없이 직접 만든, 가장 정확한 질문지.
  • 브론즈 (Bronze) 세트: AI 를 이용해 만든, 조금 더 많은 양의 질문지.

이걸 통해 31 개의 일반 AI 모델과 3 개의 군사 전용 모델을 테스트했더니, 놀라운 결과가 나왔습니다. 어떤 모델은 질문의 98% 이상을 "죄송합니다"라고 거절했습니다. 마치 모든 문을 잠가버린 경비원처럼 말이죠.

3. 연구의 두 번째 단계: '안전 장치'를 제거하는 실험 (Abliteration)

그럼 이 문제를 어떻게 고칠까요? 연구팀은 **'Abliteration(안전 장치 제거)'**이라는 기술을 사용했습니다.

이걸 쉽게 비유하자면, AI 의 뇌를 수술해서 '안전에 대한 과도한 공포'라는 부분을 잘라내는 작업입니다.

  • 방법: AI 가 '위험한 질문'을 할 때와 '안전한 질문'을 할 때의 뇌 활동 패턴을 비교해서, '거부하는 경향'을 담당하는 부분을 약하게 만들었습니다.
  • 결과: 이 작업을 한 AI 는 거부율이 98% 에서 30% 대로 급격히 떨어졌습니다. 즉, 이제 장교의 질문에 "네, 그 방법은 이런 식으로 가능합니다"라고 대답할 수 있게 된 것입니다.

4. 하지만... 대가가 있었습니다 (Side Effects)

여기서 중요한 문제가 생겼습니다. 안전 장치를 너무 많이 제거했더니, AI 가 멍청해지기 시작한 것입니다.

  • 비유: 경비원의 '과도한 경계심'을 다 빼버렸더니, 그는 이제 적의 공격은 막아내지만, 아군의 지시도 제대로 듣지 못하거나 엉뚱한 대답을 하기 시작했습니다.
  • 데이터: 거절률을 낮추는 대신, 군사 작전 관련 정확도가 약 2~15% 정도 떨어졌습니다. 특히 너무 강하게 안전 장치를 제거하면, AI 가 엉뚱한 정보를 말하거나 논리를 잃어버리는 경우가 생겼습니다.

5. 결론: "맞춤형 AI 가 답이다"

이 논문의 결론은 매우 명확합니다.

"기존의 일반용 AI 에 안전 장치를 떼어내는 것 (수술) 은 임시방편일 뿐입니다. 오히려 처음부터 군인들을 위해 설계된 AI 를 만들어야 합니다."

지금처럼 "모든 AI 는 폭력을 금지한다"는 원칙을 군대에도 적용하는 것은 실수를 부릅니다. 대신 군대용 AI 는 처음부터 '위험한 정보도 알려주는 것'이 임무라는 원칙으로 훈련되어야 합니다.

요약하자면:

  1. 문제: 군대 AI 가 너무 예의 바르게 "거부"해서 작전에 방해가 됨.
  2. 해결 시도: AI 의 '거부하는 습관'을 수술로 제거함.
  3. 결과: 대답은 잘 하지만, 정확도가 조금 떨어짐.
  4. 최종 조언: 수술로 고치는 게 아니라, 처음부터 군인용 뇌로 태어난 AI를 만들어야 함.

이 연구는 AI 가 단순히 '안전한' 존재가 아니라, 특정 임무 (전쟁) 에서는 '효율적이고 정확한' 존재가 되어야 함을 강조합니다.