Enhancing Safety of Large Language Models via Embedding Space Separation

이 논문은 해로운 입력과 안전한 입력의 임베딩 간 거리를 명시적으로 확대하고 KL 발산 정규화를 통해 일반 능력을 유지하도록 설계된 '임베딩 공간 분리 (ES2)'라는 표현 수준의 파인튜닝 기법을 제안하여 대규모 언어 모델의 안전성을 크게 향상시킵니다.

Xu Zhao, Xiting Wang, Weiran Shen

게시일 2026-03-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **거대 언어 모델 **(LLM)을 다루고 있습니다.

기존의 AI 는 유해한 질문을 하면 "안 됩니다"라고 거절하지만, 해커들은 AI 의 내부 작동 원리를 이용해 이 거절 장벽을 뚫고 유해한 답변을 끌어내는 '탈출구 (Jailbreak)' 공격을 시도합니다. 이 논문은 그 탈출구를 영구적으로 막는 새로운 방어 전략을 제안합니다.

이해하기 쉽게 마치 'AI 의 뇌'를 재건축하는 공사라고 상상해 보세요.


1. 문제: "유해한 질문"과 "안전한 질문"이 너무 가깝다

AI 의 뇌속에는 모든 질문이 **숫자 덩어리 **(임베딩)로 저장됩니다.
기존 연구에 따르면, AI 는 유해한 질문과 안전한 질문을 구분할 때, 이 두 숫자 덩어리가 너무 가까이 붙어 있는 상태였습니다.

  • 비유: 유해한 질문과 안전한 질문이 인접한 두 집이라고 imagine 해보세요.
  • 문제점: 해커는 아주 작은 힘 (작은 perturbation) 으로만 유해한 질문을 살짝 밀어내면, 그 작은 힘으로 바로 안전한 집 (안전한 답변 영역) 으로 넘어가버립니다. AI 는 "아, 이건 안전한 질문이네?"라고 착각하고 유해한 내용을 출력해버립니다.

2. 해결책: "ES2" (임베딩 공간 분리)

이 논문은 **"두 집을 아주 멀리 떨어뜨려 버리자"**는 아이디어를 제시합니다. 이를 ES2(Embedding Space Separation)라고 부릅니다.

  • 작동 원리: AI 를 다시 학습시켜, 유해한 질문의 숫자 덩어리와 안전한 질문의 숫자 덩어리 사이의 거리를 극단적으로 넓혀버립니다.
  • 비유: 유해한 질문과 안전한 질문이 이제 한쪽은 서울, 다른 한쪽은 뉴욕처럼 멀리 떨어지게 만든 것입니다.

3. 해커의 공격이 실패하는 이유: "너무 멀리 가려면 말이 꼬인다"

이제 해커가 유해한 질문을 안전한 영역으로 넘기려면 어떻게 해야 할까요?

  • 과거: 아주 작은 힘으로 밀면 넘어갔습니다.
  • **현재 **(ES2 적용 후) 서울에서 뉴욕으로 가려면 비행기를 타고 가야 합니다. 해커는 유해한 질문을 안전한 영역으로 넘기 위해 엄청나게 거대한 힘을 가해야 합니다.

여기서 핵심이 나옵니다.
AI 의 언어 능력은 "자연스러운 흐름"을 유지할 때 가장 잘 작동합니다. 하지만 해커가 유해한 질문을 안전한 영역으로 넘기 위해 너무 거대한 힘을 가하면, 질문의 **의미 **(Semantics)가 깨져버립니다.

  • 결과: 해커가 공격을 성공시켜 AI 가 유해한 답변을 하려고 해도, 그 과정에서 질문 자체가 미친 듯이 왜곡되거나 **말이 안 되는 글 **(Gibberish)로 변해버립니다.
  • 비유: 해커가 유해한 질문을 "안전한 답변"으로 바꾸려고 너무 세게 밀어서, 질문이 "폭탄 만드는 법"에서 "과일 샐러드 만드는 법"으로 완전히 변해버리거나, 아예 "아기야구공" 같은 뜻 없는 글자로 변해버리는 것입니다. AI 는 엉뚱한 답변을 하거나, 아예 말을 못하게 됩니다.

4. 부작용 방지: "일반적인 능력은 그대로 유지"

그런데 이렇게 AI 의 뇌를 크게 변형시키면, AI 가 일상적인 대화나 수학 문제를 풀 때 망가질까 봐 걱정됩니다. (이를 '정렬 세금'이라고 부릅니다.)

  • 해결책: 이 논문은 **KL 발산 **(KL Divergence)이라는 '안전장치'를 달았습니다.
  • 비유: 유해한 질문을 멀리 보내는 공사 중에도, **"안전한 질문 **(예: "오늘 날씨 어때?")는 원래의 AI 와 똑같은 답변을 하도록 강제로 묶어두는 것입니다.
  • 효과: 유해한 질문은 멀리 보내고, 안전한 질문은 원래대로 하도록 해서, AI 의 일반적인 지능은 그대로 유지하면서도 유해한 공격만은 무력화시킵니다.

5. 결론: 왜 이 방법이 중요한가?

기존의 방어법은 해커가 뚫을 수 있는 "문"을 막는 것이었다면, 이 방법은 문과 문 사이의 거리를 우주만큼 벌려버리는 것입니다.

  • 해커가 문을 뚫으려면 너무 큰 힘을 써야 하고, 그 결과 질문 자체가 파괴되어 공격이 무의미해집니다.
  • 실험 결과, 이 방법을 적용한 AI 는 해커의 공격을 거의 100% 막아내면서도, 일반 사용자의 질문에는 똑똑하고 자연스럽게 답변했습니다.

한 줄 요약:

"유해한 질문과 안전한 질문을 AI 의 뇌속에서 너무 멀리 떨어뜨려서, 해커가 유해한 질문을 뚫으려고 너무 세게 밀면 질문 자체가 망가져서 공격이 실패하게 만든다."

이 방법은 오픈소스 AI 모델의 안전성을 획기적으로 높여, AI 가 악용되는 것을 막을 수 있는 강력한 새로운 방패가 될 것으로 기대됩니다.