Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

Each language version is independently generated for its own context, not a direct translation.

🛡️ 핵심 비유: "비행기 조종사와 보안 검색대"

상상해 보세요. 안전한 AI는 공항의 초정밀 보안 검색대입니다. 이 검색대의 임무는 "무기나 폭탄을 들고 탑승하려는 나쁜 사람 (해커)"을 막는 것입니다.

하지만 문제는, **진짜 조종사 (보안 전문가)**도 나쁜 사람과 완전히 똑같은 도구와 용어를 사용한다는 점입니다.

나쁜 사람: "이 비행기 문 (취약점) 을 어떻게 부수고 (악용) 들어갈까?"
좋은 조종사: "이 비행기 문 (취약점) 이 어떻게 고장 났는지 알아서, 나쁜 사람들이 부수기 전에 고쳐야 해."

두 사람의 말투와 사용하는 단어는 100% 똑같습니다. 하지만 목적은 정반대죠.

🚨 이 논문이 발견한 3 가지 놀라운 사실

이 논문은 실제 사이버 방어 대회 (NCCDC) 에서 2,390 건의 질문을 분석하며 다음과 같은 기이한 현상을 발견했습니다.

1. "단어만 나쁘면 무조건 거절" (의도는 무시당함)

보안 검색대 (AI) 는 "무기"라는 단어가 나오면 무조건 나쁜 사람으로 간주합니다.

현실: 해커가 "이 취약점을 **악용 (exploit)**하는 법을 알려줘"라고 하면 AI 는 거절합니다. (당연하죠!)
문제: 보안 전문가가 "이 취약점을 **악용 (exploit)**하는 법을 알려줘서, 해커보다 먼저 패치 (고치) 하고 싶어"라고 해도 AI 는 똑같이 거절합니다.
결과: AI 는 "악용"이라는 단어만 보고, "고치려는 의도"는 전혀 보지 못합니다. 마치 "칼을 들고 있는 사람"을 보면, 그 사람이 "요리사"인지 "살인마"인지 구별하지 못하고 모두 체포해 버리는 것과 같습니다.

2. "권한을 밝히면 더 심하게 의심받음" (역효과)

보안 전문가들은 AI 에게 "나는 합법적인 보안팀이야 (Blue Team), 대회 참가자야"라고 명시적으로 권한을 밝히기도 했습니다.

예상: "아, 이 사람은 좋은 사람이구나. 도와주자!"
실제: "어? 갑자기 권한을 밝히는군. 해커들이 자주 쓰는 '가짜 신분증' (재일브랙) 수법 아닐까? 더 의심스럽네!"
결과: 권한을 밝힌 질문일수록 AI 는 오히려 더 자주 거절했습니다. 마치 공항에서 "나는 대통령이다"라고 외치는 사람이 오히려 더 심한 수색을 받는 것과 같습니다.

3. "가장 중요한 일일수록 가장 많이 막힘"

AI 가 가장 많이 거절하는 일은 바로 가장 시급하고 중요한 보안 작업들이었습니다.

시스템 강화 (43.8% 거절): 해커가 들어오기 전에 문을 단단히 하는 일.
악성코드 분석 (34.3% 거절): 해커가 남긴 폭탄을 해체하는 일.
결과: AI 는 "폭탄을 해체하는 방법"을 가르쳐 주는 것을 두려워해서, 정작 폭탄을 제거해야 하는 소방관에게 "폭탄"이라는 단어만 듣고 "도와줄 수 없다"고 말합니다.

💡 왜 이것이 위험한가요?

이 현상은 공격자와 방어자에게 불공평한 게임을 만듭니다.

공격자 (해커): 안전 장치가 없는 나쁜 AI 를 쓰거나, 속임수를 써서 원하는 정보를 얻습니다. 아무런 방해도 받지 않죠.
방어자 (보안 전문가): 안전 장치가 잘된 '착한 AI'를 쓰려는데, 오히려 AI 가 "너는 나쁜 사람 같아"라며 도움을 거부합니다.

이건 마치 소방관이 불을 끄러 왔는데, 소방관이 "불"이라는 단어를 썼다는 이유로 소방서 문이 잠겨버리는 상황과 같습니다.

🔮 결론: 무엇을 해야 할까요?

이 논문은 AI 개발자들에게 다음과 같은 메시지를 보냅니다.

"AI 를 안전하게 만드는 것만으로는 부족합니다. **'무엇을 하려는가 (의도)'**를 이해하고, **'누가 하느냐 (권한)'**를 제대로 판단하게 만들어야 합니다.

단순히 나쁜 단어가 나오면 막는 게 아니라, 그 단어가 방어를 위한 것인지, 공격을 위한 것인지를 구분할 수 있는 똑똑한 AI 가 필요합니다. 그렇지 않으면, 우리는 시스템을 지키려는 사람들을 AI 가 스스로 막아세우는 '안전한 재앙'에 처하게 될 것입니다."

한 줄 요약:
"AI 가 너무 안전해지려다, 진짜 수호자들을 '나쁜 사람'으로 오인해서 도와주지 않는 우를 범하고 있습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

대형 언어 모델 (LLM) 의 안전 정렬 (Safety Alignment) 은 주로 악용 (Misuse) 을 방지하는 데 초점을 맞추고 있습니다. 그러나 사이버 보안 분야에서 이러한 접근 방식은 **방어적 거절 편향 (Defensive Refusal Bias)**이라는 새로운 실패 모드를 초래합니다.

핵심 문제: 공격자와 방어자는 동일한 기술 용어 (예: 'exploit', 'payload', 'shell' 등) 를 사용합니다. 공격자는 공격을 수행하기 위해, 방어자는 공격을 분석하고 막기 위해 이 용어들을 사용합니다.
현상: 안전이 튜닝된 LLM 은 공격과 유사한 언어를 포함하는 요청을 감지하면, 사용자의 의도 (방어적 목적) 나 권한 (Authorization) 을 고려하지 않고 자동으로 요청을 거절합니다.
영향: 이는 합법적인 사이버 방어자 (Blue Team) 에게 대한 **안전 유도 서비스 거부 (Safety-induced Denial-of-Service)**로 이어집니다. 특히 자율 에이전트 (Autonomous Agents) 가 배포될 경우, 인간이 재시도하거나 문맥을 수정할 수 없기 때문에 치명적입니다.

2. 연구 방법론 (Methodology)

데이터셋

출처: National Collegiate Cyber Defense Competition (NCCDC) 에서 수집된 2,390 개의 실제 대화 데이터.
특징: 학생 팀 (Blue Team) 이 전문 해커 (Red Team) 에게 대항하여 실시간으로 시스템을 방어하는 합법적이고 통제된 환경에서 생성된 데이터입니다.
태스크 분류: 멀웨어 분석, 취약점 평가, 사고 대응, 시스템 강화, 자격 증명 관리, 방화벽 구성, 네트워크 스캔, 로그 분석 등 8 가지 방어 태스크 카테고리.

실험 설정

평가 모델:
- 안전 중심 모델: Claude 3.5 Sonnet
- 일반 최첨단 모델: GPT-4o
- 오픈소스 모델: Llama-3.3-70B-Instruct
거절 (Refusal) 감지: 응답 텍스트의 패턴 매칭을 통해 '명시적 거절 (Hard refusal)', '설명과 함께 거절 (Soft refusal)', '행동 가능한 세부 사항을 피한 저하된 지원 (Degraded assistance)'으로 분류했습니다.
주요 변수:
- 공격적 용어 (Offensive Terminology): exploit, payload, shell 등 보안 민감 키워드 포함 여부.
- 권한 신호 (Authorization Signals): "나는 Blue Team 이다", "NCCDC 를 위한 것" 등 명시적 권한 부여 문구 포함 여부.
- 태스크 카테고리: 각 방어 작업의 종류.

3. 주요 결과 (Key Results)

1) 공격적 용어에 의한 거절률 급증

보안 민감 키워드를 포함한 요청은 중립적인 용어를 사용한 요청보다 **2.72 배 더 높은 비율 (30.5% vs 11.2%)**로 거절되었습니다 ( $p < 0.001$ ).
이는 방어적 의도나 명시적 권한이 있더라도 용어 자체가 거절의 주된 결정 요인임을 보여줍니다.

2) 권한 신호의 역효과 (Authorization Backfire)

가장 놀라운 발견: 사용자가 "나는 Blue Team 이다" 또는 "승인된 대회용이다"라고 명시적으로 권한을 밝히면, 거절률이 감소하는 대신 증가했습니다 (21.8% vs 11.6%).
이유: 모델이 권한 주장 문구를 '재규어킹 (Jailbreak) 시도'나 '적대적 프레이밍'으로 오인하여 더 엄격한 검열을 가하는 것으로 추정됩니다.
공격적 용어와 권한 신호가 동시에 존재할 경우 거절률은 **50.0%**까지 치솟습니다.

3) 가장 중요한 태스크일수록 거절률이 높음

사고 대응에 가장 중요한 태스크일수록 LLM 의 거절률이 가장 높았습니다:
- 시스템 강화 (System Hardening): 43.8%
- 멀웨어 분석 (Malware Analysis): 34.3%
- 취약점 평가 (Vulnerability Assessment): 22.7%
반면, 공격적 용어와 어휘적 겹침이 적은 태스크 (로그 분석 등) 는 거절률이 거의 0% 에 수렴했습니다.

4) 의미적 유사성 기반의 거절 메커니즘

임베딩 분석: 프롬프트 임베딩 (Embeddings) 만으로도 거절 여부를 AUC 0.827의 높은 정확도로 예측할 수 있었습니다. 반면, 명시적인 키워드나 권한 신호 기반 특징은 무작위 수준 (AUC 0.572) 에 머물렀습니다.
결론: 모델은 단순한 키워드 매칭이 아니라, **유해한 콘텐츠와 의미적으로 유사한 영역 (Semantic Proximity)**을 학습하여 거절 결정을 내립니다. 방어적 질문이 공격적 질문과 의미 공간상에서 너무 가깝기 때문에 함께 거절당하는 것입니다.

4. 주요 기여 (Key Contributions)

방어적 거절 편향 (Defensive Refusal Bias) 의 체계적 규명: 사이버 보안 분야에서 안전 정렬이 합법적인 방어 활동을 방해하는 새로운 실패 모드를 최초로 체계적으로 문서화했습니다.
실제 환경 데이터 기반 분석: 합성 데이터 (Synthetic Data) 가 아닌, 실제 사이버 방어 대회 (NCCDC) 에서 수집된 2,390 개의 실제 상호작용 데이터를 분석하여 결과의 신뢰성을 높였습니다.
권한 신호의 역설 발견: 안전 정렬된 모델이 명시적인 권한 부여를 오히려 위험 신호로 해석하여 거절률을 높인다는 놀라운 사실을 발견했습니다.
자율 에이전트 보안에 대한 경고: 인간은 거절된 요청을 재구성할 수 있지만, 자율 에이전트는 그렇지 못하므로 이 편향이 자율 방어 시스템의 실패로 이어질 수 있음을 지적했습니다.

5. 의의 및 시사점 (Significance)

안전 평가의 재정의: 현재의 안전 벤치마크는 '해로운 요청을 얼마나 잘 거절하는가 (Harmful Compliance)'만 측정합니다. 본 연구는 **'합법적인 요청을 얼마나 잘못 거절하는가 (Defensive Capability Impact)'**도 측정해야 함을 주장합니다.
비대칭적 보안 부담: 공격자는 안전 정렬이 없는 도구를 사용하거나 재규어킹을 통해 우회할 수 있지만, 방어자는 조직의 안전 정책으로 인해 정렬된 모델을 사용해야 하므로 시스템적 불이익을 겪습니다. 이는 오히려 공격자에게 유리한 환경을 조성합니다.
향후 방향성: 단순한 키워드 필터링을 넘어, **사용자의 의도 (Intent)**와 **맥락적 권한 (Contextual Authorization)**을 이해하는 정렬 메커니즘이 필요합니다. 특히 자율 에이전트 배포를 위해서는 모델이 권한 신호를 '재규어킹 시도'가 아닌 '신뢰할 수 있는 컨텍스트'로 올바르게 해석하도록 학습되어야 합니다.

결론

이 논문은 LLM 의 안전 정렬이 사이버 보안이라는 특수한 도메인에서 방어자의 능력을 저해하는 '안전 유도 서비스 거부'를 초래하고 있음을 경고합니다. 방어자와 공격자가 동일한 언어를 사용한다는 사실 때문에 발생하는 이 모순을 해결하기 위해서는 의미적 유사성 기반의 거절 메커니즘을 넘어, 의도와 권한을 고려한 새로운 정렬 전략이 시급히 필요합니다.