Enhancing Safety of Large Language Models via Embedding Space Separation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **거대 언어 모델 **(LLM)을 다루고 있습니다.

기존의 AI 는 유해한 질문을 하면 "안 됩니다"라고 거절하지만, 해커들은 AI 의 내부 작동 원리를 이용해 이 거절 장벽을 뚫고 유해한 답변을 끌어내는 '탈출구 (Jailbreak)' 공격을 시도합니다. 이 논문은 그 탈출구를 영구적으로 막는 새로운 방어 전략을 제안합니다.

이해하기 쉽게 마치 'AI 의 뇌'를 재건축하는 공사라고 상상해 보세요.

1. 문제: "유해한 질문"과 "안전한 질문"이 너무 가깝다

AI 의 뇌속에는 모든 질문이 **숫자 덩어리 **(임베딩)로 저장됩니다.
기존 연구에 따르면, AI 는 유해한 질문과 안전한 질문을 구분할 때, 이 두 숫자 덩어리가 너무 가까이 붙어 있는 상태였습니다.

비유: 유해한 질문과 안전한 질문이 인접한 두 집이라고 imagine 해보세요.
문제점: 해커는 아주 작은 힘 (작은 perturbation) 으로만 유해한 질문을 살짝 밀어내면, 그 작은 힘으로 바로 안전한 집 (안전한 답변 영역) 으로 넘어가버립니다. AI 는 "아, 이건 안전한 질문이네?"라고 착각하고 유해한 내용을 출력해버립니다.

2. 해결책: "ES2" (임베딩 공간 분리)

이 논문은 **"두 집을 아주 멀리 떨어뜨려 버리자"**는 아이디어를 제시합니다. 이를 ES2(Embedding Space Separation)라고 부릅니다.

작동 원리: AI 를 다시 학습시켜, 유해한 질문의 숫자 덩어리와 안전한 질문의 숫자 덩어리 사이의 거리를 극단적으로 넓혀버립니다.
비유: 유해한 질문과 안전한 질문이 이제 한쪽은 서울, 다른 한쪽은 뉴욕처럼 멀리 떨어지게 만든 것입니다.

3. 해커의 공격이 실패하는 이유: "너무 멀리 가려면 말이 꼬인다"

이제 해커가 유해한 질문을 안전한 영역으로 넘기려면 어떻게 해야 할까요?

과거: 아주 작은 힘으로 밀면 넘어갔습니다.
**현재 **(ES2 적용 후) 서울에서 뉴욕으로 가려면 비행기를 타고 가야 합니다. 해커는 유해한 질문을 안전한 영역으로 넘기 위해 엄청나게 거대한 힘을 가해야 합니다.

여기서 핵심이 나옵니다.
AI 의 언어 능력은 "자연스러운 흐름"을 유지할 때 가장 잘 작동합니다. 하지만 해커가 유해한 질문을 안전한 영역으로 넘기 위해 너무 거대한 힘을 가하면, 질문의 **의미 **(Semantics)가 깨져버립니다.

결과: 해커가 공격을 성공시켜 AI 가 유해한 답변을 하려고 해도, 그 과정에서 질문 자체가 미친 듯이 왜곡되거나 **말이 안 되는 글 **(Gibberish)로 변해버립니다.
비유: 해커가 유해한 질문을 "안전한 답변"으로 바꾸려고 너무 세게 밀어서, 질문이 "폭탄 만드는 법"에서 "과일 샐러드 만드는 법"으로 완전히 변해버리거나, 아예 "아기야구공" 같은 뜻 없는 글자로 변해버리는 것입니다. AI 는 엉뚱한 답변을 하거나, 아예 말을 못하게 됩니다.

4. 부작용 방지: "일반적인 능력은 그대로 유지"

그런데 이렇게 AI 의 뇌를 크게 변형시키면, AI 가 일상적인 대화나 수학 문제를 풀 때 망가질까 봐 걱정됩니다. (이를 '정렬 세금'이라고 부릅니다.)

해결책: 이 논문은 **KL 발산 **(KL Divergence)이라는 '안전장치'를 달았습니다.
비유: 유해한 질문을 멀리 보내는 공사 중에도, **"안전한 질문 **(예: "오늘 날씨 어때?")는 원래의 AI 와 똑같은 답변을 하도록 강제로 묶어두는 것입니다.
효과: 유해한 질문은 멀리 보내고, 안전한 질문은 원래대로 하도록 해서, AI 의 일반적인 지능은 그대로 유지하면서도 유해한 공격만은 무력화시킵니다.

5. 결론: 왜 이 방법이 중요한가?

기존의 방어법은 해커가 뚫을 수 있는 "문"을 막는 것이었다면, 이 방법은 문과 문 사이의 거리를 우주만큼 벌려버리는 것입니다.

해커가 문을 뚫으려면 너무 큰 힘을 써야 하고, 그 결과 질문 자체가 파괴되어 공격이 무의미해집니다.
실험 결과, 이 방법을 적용한 AI 는 해커의 공격을 거의 100% 막아내면서도, 일반 사용자의 질문에는 똑똑하고 자연스럽게 답변했습니다.

한 줄 요약:

"유해한 질문과 안전한 질문을 AI 의 뇌속에서 너무 멀리 떨어뜨려서, 해커가 유해한 질문을 뚫으려고 너무 세게 밀면 질문 자체가 망가져서 공격이 실패하게 만든다."

이 방법은 오픈소스 AI 모델의 안전성을 획기적으로 높여, AI 가 악용되는 것을 막을 수 있는 강력한 새로운 방패가 될 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 은 다양한 분야에서 뛰어난 성능을 보이지만, 유해한 프롬프트 (Jailbreak 등) 에 취약하다는 치명적인 약점이 있습니다. 최근 연구들은 LLM 의 잠재 공간 (Latent Space) 에서 **유해한 쿼리와 안전한 쿼리의 임베딩 (Embedding) 이 선형적으로 분리 가능 (Linear Separability)**하다는 사실을 발견했습니다.

현재의 취약점: 이 선형 분리 가능성은 오히려 공격자들에게 악용됩니다. 공격자는 유해한 프롬프트의 임베딩에 미세한 교란 (Perturbation) 을 가해, 안전 결정 경계 (Linear Separation Hyperplane) 를 넘어 안전한 하위 공간으로 이동시킴으로써 모델의 안전 장치를 우회합니다.
기존 방법의 한계: RLHF(인간 피드백을 통한 강화 학습) 나 기존 정렬 (Alignment) 기법들은 이러한 임베딩 수준의 공격에 대해 충분히 견고하지 못하며, 모델의 일반적 성능 (General Capabilities) 을 저하시키는 '정렬 세제 (Alignment Tax)' 문제가 존재합니다.

2. 제안 방법: 임베딩 공간 분리 (ES2)

저자들은 선형 분리 가능성을 취약점이 아닌 방어 메커니즘으로 활용하기 위해 **임베딩 공간 분리 (Embedding Space Separation, ES2)**라는 새로운 파인튜닝 프레임워크를 제안했습니다.

핵심 아이디어

유해한 임베딩과 안전한 임베딩 사이의 거리를 명시적으로 확대하여, 공격자가 안전 경계를 넘기 위해 필요한 교란의 크기를 극대화합니다.

원리: 임베딩 공간에서 거리는 의미적 유사성과 직결됩니다. 거리를 크게 벌리면, 공격자가 안전 경계를 넘기 위해 필요한 교란 크기가 커지고, 이는 결국 입력 프롬프트의 의미 (Semantics) 를 왜곡시켜 공격을 무력화시킵니다.

방법론의 세부 구성

거리 최대화 손실 함수 (Distance Maximization Loss):
- 학습 시 유해 프롬프트 집합 ( $B_{harm}$ ) 과 안전한 프롬프트 집합 ( $B_{safe}$ ) 을 혼합하여 배치합니다.
- 유해 임베딩과 안전한 임베딩 군집 사이의 유클리드 거리를 최대화하도록 손실 함수 ( $L_{dist}$ ) 를 설계합니다.
- 이를 통해 잠재 공간에 넓은 '안전 마진 (Safety Margin)'을 생성합니다.
일반 능력 보존을 위한 KL 정규화 (KL Divergence Regularization):
- 임베딩 거리를 무작정 늘리면 모델의 추론, 코딩 등 일반적 능력이 손상될 수 있습니다.
- 이를 방지하기 위해 KL 발산 (Kullback-Leibler Divergence) 항을 손실 함수에 추가합니다.
- 이 항은 안전한 입력에 대해 파인튜닝된 모델의 출력 분포가 원래 베이스 모델의 분포와 일치하도록 강제합니다. 즉, 유해한 내용만 차단하고 정상적인 대화는 원본과 동일하게 유지되도록 합니다.
타겟 레이어 전략 (Targeted Layer Strategy):
- 전체 네트워크를 파인튜닝하는 대신, 유해 개념이 등장하는 **시작 레이어 (Semantic Emergence Layer)**와 개념이 안정화되는 최종 레이어 (Terminal Layer) 두 곳의 임베딩에 대해서만 손실 계산을 수행합니다.
- 너무 많은 레이어를 동시에 제어하면 모델의 의미적 일관성이 붕괴 (Semantic Collapse) 되어 텍스트 생성이 불가능해지므로, 2 개의 핵심 레이어만 선택합니다.
학습 알고리즘:
- KL 발산이 임계값 ( $\tau$ ) 을 초과하면 학습을 즉시 중단하여 의미 왜곡을 방지합니다.

3. 주요 기여 (Key Contributions)

방어 메커니즘으로서의 선형 분리성 활용: 임베딩의 선형 분리성을 취약점이 아닌, 유해/안전 임베딩 간 거리를 명시적으로 늘려 공격을 방어하는 도구로 재해석했습니다.
성능 보존 정규화: 안전성 강화 과정에서 모델의 일반적 능력을 보존하기 위해 KL 발산 기반의 정규화 항을 도입하여 '정렬 세제' 문제를 완화했습니다.
광범위한 실험 검증: 오픈소스 LLM(Open-source LLMs) 들을 대상으로 임베딩 수준 공격 및 프롬프트 수준 공격에 대한 방어력을 검증했습니다.

4. 실험 결과 (Results)

저자들은 Llama-2, Llama-3, Mistral, Qwen-2.5 등 다양한 오픈소스 모델에서 ES2 를 평가했습니다.

방어 성공률 (Defense Success Rate, DSR) 향상:
- 임베딩 수준 공격 (RepE, Soft Prompt, SCAV): 기존 베이스 모델 및 다른 방어 기법 (STL, DPL) 대비 DSR 이 획기적으로 향상되었습니다. 특히 가장 강력한 공격인 SCAV 에 대해 Llama-2 에서 Keyword DSR 이 10% (Base) 에서 80% (ES2) 로 크게 상승했습니다.
- 프롬프트 수준 공격 (Jailbreak, AutoDAN, GCG): 임베딩 수준만 학습했음에도 불구하고, 프롬프트 수준의 공격에 대해서도 뛰어난 전이 성능 (Transferability) 을 보였습니다.
일반 능력 보존:
- Open LLM Leaderboard(MMLU-Pro, GPQA, MATH 등) 벤치마크에서 ES2 로 파인튜닝된 모델은 베이스 모델과 유사한 성능을 유지하며, 일반 능력을 크게 저하시키지 않았습니다.
공격 비용 증가 및 의미 붕괴 (Semantic Collapse):
- ES2 를 적용한 모델은 공격자가 안전 경계를 넘기 위해 **3~4 배 더 큰 교란 거리 (Perturbation Distance)**가 필요하게 됩니다.
- 이로 인해 공격이 성공하더라도 생성된 텍스트는 **불일치 (Incoherent)**하거나 **의미 없는 말장난 (Gibberish)**이 되어, 실제 유해한 내용을 생성하지 못하게 됩니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 내부 표현 (Representation) 수준에서 안전성을 강화하는 새로운 패러다임을 제시합니다.

구조적 방어: 외부 필터링이나 단순한 데이터 정렬을 넘어, 모델의 내부 임베딩 공간 구조 자체를 재구성하여 공격의 물리적/수학적 가능성을 차단합니다.
실용성: 오픈소스 모델의 경우 사용자가 임베딩에 직접 접근할 수 있어 보안이 취약한데, ES2 는 이러한 취약점을 효과적으로 보완하며 모델의 유용성을 해치지 않습니다.
미래 지향성: 임베딩 공간의 분리 거리를 늘리는 것이 공격의 의미적 일관성을 파괴한다는 발견은, 향후 더 강력한 LLM 방어 기법 개발의 중요한 통찰을 제공합니다.

요약하자면, ES2는 유해한 입력과 안전한 입력 사이의 임베딩 거리를 인위적으로 벌려 공격자가 안전 장치를 우회하려 할 때 필연적으로 의미 왜곡을 겪게 함으로써, 높은 안전성과 우수한 일반 성능을 동시에 달성하는 효과적인 솔루션입니다.

Enhancing Safety of Large Language Models via Embedding Space Separation

1. 문제: "유해한 질문"과 "안전한 질문"이 너무 가깝다

2. 해결책: "ES2" (임베딩 공간 분리)

3. 해커의 공격이 실패하는 이유: "너무 멀리 가려면 말이 꼬인다"

4. 부작용 방지: "일반적인 능력은 그대로 유지"

5. 결론: 왜 이 방법이 중요한가?

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법: 임베딩 공간 분리 (ES2)

핵심 아이디어

방법론의 세부 구성

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

RedacBench: Can AI Erase Your Secrets?

Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs

CRoCoDiL: Continuous and Robust Conditioned Diffusion for Language

Fast-Slow Thinking RM: Efficient Integration of Scalar and Generative Reward Models

Multi-Agent Debate with Memory Masking