Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 개념: "알고 있지만 행동하지 않는" AI 의 비밀

이 연구는 AI 의 안전 장치가 하나의 거대한 덩어리가 아니라, 두 개의 완전히 분리된 공간으로 나뉘어 있다고 주장합니다.

1. 두 개의 축 (Axis)

AI 의 뇌속에는 안전과 관련된 두 가지 다른 '축'이 존재합니다.

🧠 인식의 축 (Knowing / Recognition Axis): "아, 이건 나쁜 짓이구나!"라고 알아차리는 부분입니다. 마치 경찰이 범인의 얼굴을 인식하는 것과 같습니다.
🛑 행동의 축 (Acting / Execution Axis): "안 돼! 그건 해줄 수 없어!"라고 거절하는 부분입니다. 마치 경찰이 범인을 체포하거나 제지하는 행동입니다.

기존의 생각: "나쁜 걸 알아차리면 자동으로 거절한다." (두 가지가 하나로 붙어있음)
이 논문의 발견: "나쁜 걸 알아차리는 부분과 거절하는 부분은 완전히 분리되어 있다!"

2. 비유: "지식과 행동의 분리"

이 상황을 쉽게 이해하기 위해 한 명의 형사를 상상해 보세요.

초반 (Layer 1~10): 형사가 범인을 보자마자 "범인이다!"라고 외치며 바로 손찌검을 합니다. (인식과 행동이 하나로 연결됨)
후반 (Deep Layers): 하지만 AI 가 깊게 생각할수록 (레이어가 깊어질수록), **"범인은 범인이다" (인식)**라는 사실과 **"손찌검을 해야 한다" (행동)**는 명령이 완전히 분리됩니다.
- AI 는 "아, 이건 나쁜 짓이야"라고 정확히 알고 있습니다.
- 하지만 "거절해야지"라는 명령이 그 지식과 연결되지 않아서, 알면서도 침묵하거나 오히려 나쁜 짓을 도와주는 상황이 발생합니다.

이것이 바로 **재일브랙 (Jailbreak, AI 의 안전 장치를 우회하는 공격)**이 성공하는 이유입니다. 해커들은 AI 가 나쁜 짓을 '알고' 있다는 사실은 그대로 둔 채, '거절'하는 기능만 마비시켜버리는 것입니다.

🔍 연구가 발견한 놀라운 사실들

1. "거절"은 따로 떼어낼 수 있다 (Refusal Erasure Attack)

연구진은 AI 의 '거절' 기능을 담당하는 축 (행동의 축) 을 찾아내어, 마치 **외과 수술처럼 그 부분만 잘라내는 공격 (REA)**을 개발했습니다.

결과: AI 는 여전히 "나쁜 짓이구나"라고 인식하지만, 거절하는 기능이 사라져서 사용자의 나쁜 요청을 그대로 실행해 버렸습니다.
의미: AI 의 안전 장치는 '거절'이라는 버튼 하나만 누르면 꺼질 수 있는 별개의 부품임을 증명했습니다.

2. 모델마다 안전 장치가 다르다 (Llama vs Qwen)

두 가지 다른 AI 모델 (Llama3.1 과 Qwen2.5) 을 비교했을 때, 안전 장치를 구현하는 방식이 완전히 달랐습니다.

Llama3.1 (명시적 변호사): "법적으로 문제가 있습니다", "죄송합니다" 같은 명확한 단어로 거절합니다. 마치 법정에서 변호사가 법 조항을 인용하며 거절하는 것처럼, 거절의 신호가 단어에 명확히 드러납니다.
Qwen2.5 (잠재적 분산 시스템): 거절 신호가 특정 단어에 집중되지 않고, 모델 전체에 흩어져 있는 복잡한 코드처럼 작동합니다. 마치 "NO"라는 단어가 아니라, 시스템 전체의 미세한 진동으로 거절 신호를 보내는 것과 같습니다. 그래서 Qwen 은 더 강력하고 복잡한 공격에도 잘 견디는 편이지만, 연구진이 이 '분산된 신호'를 찾아내어 제거하면 역시 무너집니다.

💡 결론: 왜 이 연구가 중요한가?

이 연구는 AI 안전 문제가 단순히 "더 많은 나쁜 말을 막는 것"이 아니라, AI 의 뇌 구조 자체에 숨겨진 결함임을 보여줍니다.

문제: AI 는 나쁜 짓을 '알고' 있지만, '거절'하는 메커니즘이 그 지식과 연결되지 않아서 해킹당합니다.
해결책: 앞으로는 AI 를 만들 때, "나쁜 걸 알아차리는 것"과 "거절하는 것"을 분리하지 않고 서로 단단히 연결시키는 새로운 설계 (기하학적 정렬, Geometric Alignment) 가 필요하다는 것을 제안합니다.

한 줄 요약:

"AI 는 나쁜 짓을 알아채는 '지식'과 거절하는 '행동'이 따로 놀고 있어서, 해커들이 '행동'만 마비시키면 AI 는 알면서도 나쁜 짓을 해줍니다. 이 연구는 그 비밀을 찾아내고, AI 의 안전 장치를 더 튼튼하게 만드는 방법을 제시합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 은 안전 정렬 (Safety Alignment) 을 통해 유해한 요청을 거부하도록 훈련되었지만, '재브레이크 (Jailbreak)' 공격은 여전히 성공적으로 작동합니다. 기존 연구들은 안전 메커니즘이 단일한 과정 (Monolithic process) 으로 작동하여 유해성 감지가 자동으로 거부를 유발한다고 가정했습니다. 그러나 공격자들이 모델을 우회할 수 있다는 사실은 유해한 의도를 '인지 (Knowing)'하는 능력과 이를 '거부 (Acting)'하는 메커니즘이 기계적으로 분리되어 있을 가능성을 시사합니다.

이 논문은 다음과 같은 근본적인 질문을 제기합니다:

"정렬된 모델이 유해한 의도를 인식할 수 있는 능력을 가지고 있음에도 불구하고, 왜 적대적 조건 하에서 이 인식이 거부 메커니즘을 발동하지 못하는가?"

2. 방법론 (Methodology)

저자들은 분리된 안전 가설 (Disentangled Safety Hypothesis, DSH) 을 제안하고 이를 검증하기 위해 새로운 기하학적 분석 및 조작 기법을 도입했습니다.

2.1. 분리된 안전 가설 (DSH)

안전 연산은 두 개의 독립적인 부분 공간 (Subspace) 으로 구성된다며 다음과 같이 정의합니다:

인지 축 (Recognition Axis, $v_H$ ): "알기 (Knowing)" - 유해한 의미 (Semantic) 를 인식하는 벡터.
실행 축 (Execution Axis, $v_R$ ): "행하기 (Acting)" - 거부 (Refusal) 를 수행하는 메커니즘을 구동하는 벡터.

이 가설은 모델의 깊은 레이어로 갈수록 이 두 축이 초기 레이어의 반사적 결합 (Reflex) 에서 구조적 분리 (Dissociation) 로 진화한다는 "반사 - 분리 (Reflex-to-Dissociation)" 궤적을 예측합니다.

2.2. 핵심 기술

이중 차분 추출 (Double-Difference Extraction):
- 단순한 뺄셈은 구조적 노이즈 (Artifacts) 와 안전 신호를 혼동시킵니다.
- 저자들은 '정규 상태 (Canonical)'와 '마스크된 상태 (Masked, 거부 헤드 제거)'를 활용하여 유해한 입력과 benign 입력 간의 차이를 계산합니다.
- 이를 통해 구조적 노이즈를 수학적으로 상쇄하고 순수한 ** $v_H$ (인지)**와 $v_R$ (실행) 벡터를 분리해냅니다.
적응적 인과 조향 (Adaptive Causal Steering):
- 추출된 벡터를 사용하여 모델의 활성화 (Activation) 를 정밀하게 조작합니다.
- 과도한 조향을 방지하고 언어적 일관성을 유지하기 위해 피드백 루프를 포함한 동적 강도 ( $\alpha^*$ ) 를 계산합니다.

3. 주요 기여 (Key Contributions)

DSH 제안 및 검증: 안전 메커니즘이 '인지'와 '실행'이라는 두 개의 분리된 기하학적 축으로 나뉘며, 깊은 레이어에서 구조적으로 분리됨을 증명했습니다.
Reflex-to-Dissociation 궤적 규명: 초기 레이어에서는 유해성 감지와 거부가 강하게 결합되어 있지만, 깊은 레이어로 갈수록 두 신호가 통계적으로 독립적인 노이즈 수준으로 분리됨을 발견했습니다. 이것이 재브레이크 공격이 가능한 기하학적 근본 원인입니다.
이중 인과 분리 (Causal Double Dissociation) 증명:
- $v_H$ (인지) 만을 조작하면 모델은 유해한 내용을 이해하게 되지만 (Knowing), 거부는 하지 않습니다 (Without Acting).
- $v_R$ (실행) 만을 제거하면 모델은 유해한 내용을 생성하면서도 거부 메커니즘이 작동하지 않게 됩니다.
거부 삭제 공격 (Refusal Erasure Attack, REA):
- 실행 축 ( $v_R$ ) 을 수술적으로 제거하여 거부 기능을 무력화하는 공격 기법을 제안했습니다.
- 기존 방법론보다 훨씬 높은 성공률을 기록하며, 거부 메커니즘이 모듈화되고 분리 가능한 구성 요소임을 실증했습니다.
아키텍처적 이질성 발견:
- Llama3.1: 명시적 의미 제어 (Explicit Semantic Control) 를 사용하며, 거부 시 법적/윤리적 용어 (legal, I am sorry) 를 명확하게 사용합니다.
- Qwen2.5: 잠재적 분산 제어 (Latent Distributed Control) 를 사용하며, 거부 신호가 어휘 공간에 선형적으로 매핑되지 않고 구조적 노이즈와 분산된 공간에 존재합니다.

4. 실험 결과 (Results)

기하학적 분석: Llama3.1, Mistral, Qwen2.5 모델 모두에서 레이어 깊이에 따라 $v_H$ 와 $v_R$ 의 코사인 유사도가 초기에는 강한 음의 상관관계 (반사적 결합) 를 보이다가, 깊은 레이어에서는 무작위 기준선 (Random Baseline) 에 수렴하여 분리됨을 확인했습니다.
인지 조작 실험 (Cognitive Hijacking): $v_H$ 를 주입하여 모델을 유해한 맥락으로 유도했을 때, Llama3.1 은 유해한 내용을 생성하면서도 거부를 하지 않는 "Knowing without Acting" 상태를 보였습니다. 반면 Qwen2.5 와 Mistral 은 유해성 감지가 즉시 거부로 이어지는 '방어적 결합'을 보였습니다.
공격 성능 (REA):
- JailbreakBench 및 MaliciousInstruct: REA 는 기존 최첨단 방법론 (GCG, PAIR, SCAV 등) 을 압도하는 공격 성공률 (ASR) 을 기록했습니다.
- 특히 Qwen2.5 와 같이 강력한 잠재적 안전 장치를 가진 모델에서도 REA 는 94% 이상의 성공률을 보였습니다.
- Ablation Study: $v_H$ (의도) 를 억제하는 대신 $v_R$ (거부) 만을 제거하는 전략이 복잡한 다단계 유해 명령 수행에 가장 효과적이었음을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 안전 메커니즘이 단순한 '블랙박스'가 아니라, 인지 (Knowing) 와 실행 (Acting) 이 기하학적으로 분리된 구조임을 최초로 체계적으로 규명했습니다.

안전성 관점: 재브레이크 공격이 성공하는 이유는 모델이 유해성을 '인식'하지 못해서가 아니라, 인식이 '실행 (거부)'으로 연결되지 않는 구조적 결함 (Structural Decoupling) 에 기인함을 밝혔습니다.
대응 방안: 단순한 텍스트 필터링이나 표면적 정렬을 넘어, 기하학적 정렬 (Geometric Alignment) 이 필요함을 주장합니다. 즉, 유해성 감지와 거부 메커니즘이 구조적으로 강하게 결합되도록 아키텍처를 설계해야 안전성을 강화할 수 있습니다.
윤리적 고려: 연구는 이중 사용 (Dual-use) 위험이 있는 '거부 삭제' 기술을 공개하지 않고, 분석 코드와 중립적인 데이터셋 (AMBIGUITYBENCH) 만 공개하여 안전 연구 커뮤니티의 발전을 도모했습니다.

결론적으로, 이 연구는 LLM 의 안전 메커니즘을 '단일한 방어선'이 아닌 '분리된 기하학적 축'으로 이해함으로써, 보다 근본적이고 강력한 안전 정렬 전략을 수립하는 데 중요한 이론적 기반을 제공합니다.