Why Is RLHF Alignment Shallow? A Gradient Analysis

Each language version is independently generated for its own context, not a direct translation.

🏰 비유: "성벽의 문지기"와 "성 안의 주민"

대형 언어 모델 (LLM) 이라고 생각해보세요. 이 모델은 거대한 성이고, 사용자의 질문은 성 밖에서 던지는 공입니다.

기존의 안전 장치 (표준 RLHF):
- 이 성에는 아주 강력한 문지기가 있습니다. 공이 성문 (입력) 에 닿는 순간, 문지기는 "이 공은 위험해!"라고 외치며 공을 막아냅니다.
- 하지만 문제는 이 문지기가 성문 앞 1~2 미터까지만 일한다는 것입니다.
- 만약 누군가 "나는 안전해, 그냥 들어갈게"라고 말하며 성문 바로 안쪽까지 공을 밀어넣으면 (이걸 프리필링 공격이라고 합니다), 문지기는 더 이상 그 공을 막지 못합니다.
- 성 안쪽 (나중에 생성되는 단어들) 에 사는 주민들은 원래부터 "위험한 공을 막는 법"을 배우지 못했기 때문에, 그 공을 받아들이고 성을 파괴해버립니다.

🔍 이 논문이 발견한 비밀: "왜 문지기만 일하는 걸까?"

많은 사람들은 "문지기가 게으르거나, 훈련이 부족해서"라고 생각했습니다. 하지만 이 논문의 저자 (로빈 영) 는 **"아니요, 그건 훈련 방식의 구조적 한계 때문이에요"**라고 말합니다.

1. 결정의 순간 (위험의 지평선)

어떤 답변이 "위험한지 안전한지"는 보통 처음 몇 단어에서 결정됩니다.
- 예: "죄송합니다, 그건 알려드릴 수 없습니다"라고 시작하면 -> 안전.
- 예: "좋아요, 그 방법을 알려드릴게요"라고 시작하면 -> 위험.
수학적으로 증명했듯이, AI 가 처음 몇 단어를 선택할 때 "위험할지 아닐지"가 이미 결정되면, 그 이후의 단어들은 그 결정에 영향을 주지 않습니다.

2. 무의미한 신호 (기울기 0)

AI 를 훈련시킬 때는 "잘못된 답을 하면 점수를 깎아라"라는 신호 (기울기) 를 줍니다.
하지만 위험이 이미 결정된 이후의 단어들에 대해서는, "이 단어가 위험을 바꿀 수 있나?"라고 물었을 때 답이 **"아니오"**입니다.
따라서 AI 는 나중에 나오는 단어들을 고칠 필요가 없다는 신호를 받습니다.
결과: AI 는 처음 몇 단어만 "안전하게" 변하고, 그 이후의 단어들은 원래의 (위험할 수도 있는) 성격을 그대로 유지합니다. 이것이 바로 **"얕은 안전 (Shallow Alignment)"**입니다.

💡 해결책: "성 안 전체에 경비병을 배치하라"

이 논문은 기존 방식이 근본적으로 얕은 안전을 만든다고 지적하며, 새로운 훈련 방식을 제안합니다.

새로운 전략: "회복 (Recovery) 페널티"

기존 방식: "처음에 위험하면 안 돼!" (처음 몇 단어만 집중)
새로운 방식: "어디서든 위험해지면 다시 돌아와서 안전해져야 해!"
비유: 성문 앞의 문지기뿐만 아니라, 성 안의 모든 구역에 경비병을 배치하는 것입니다.
- 만약 성 안쪽에서 위험한 공이 들어오더라도, 그 자리에서 경비병이 "아니야, 다시 안전한 길로 가자"라고 말하며 방향을 틀 수 있어야 합니다.
이를 위해 훈련할 때, "위험한 말을 하다가 중간에 멈추거나 사과하는 (회복하는) 행동"을 했을 때 보상을 주는 방식을 도입합니다.

📝 요약 및 시사점

왜 AI 는 속임수에 당할까?
- AI 는 "위험한지 아닌지"가 결정되는 초반부만 훈련받았기 때문입니다. 그 이후는 훈련 신호가 없어서 원래의 성향을 따릅니다.
단순히 더 많이 훈련한다고 해결될까?
- 아닙니다. 문제의 원인이 훈련 데이터의 양이 아니라, 훈련 방식 (목표 함수) 자체에 있기 때문입니다.
해결책은?
- AI 가 실수하더라도 언제든 다시 안전해지도록 (회복할 수 있도록) 훈련해야 합니다. 즉, 성의 모든 곳에서 경비병이 작동하도록 만들어야 합니다.

한 줄 요약:

"지금의 AI 안전 장치는 성문 앞의 문지기만 지키고 있을 뿐, 성 안쪽은 방치되어 있습니다. 진짜 안전한 AI 를 만들려면 성 안의 모든 곳에서 위험을 감지하고 다시 안전한 길로 돌아설 수 있도록 훈련해야 합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현상: 현재 LLM 의 안전성 정렬은 매우 취약하며, 모델의 행동 변화가 시퀀스 초반의 몇 개의 토큰에만 집중되는 '얕은 정렬 (Shallow Alignment)' 현상이 관찰됩니다.
증거: 정렬된 모델과 베이스 모델 간의 KL 발산 (KL Divergence) 은 시퀀스 초반 토큰에서는 크지만, 일정 깊이 이후 급격히 0 에 수렴합니다.
위험: 이는 '프리필링 (Prefilling)' 공격에 취약하게 만듭니다. 공격자가 해로운 응답의 초반 토큰을 미리 입력하면, 정렬된 모델은 그 이후의 토큰 생성 시 안전 장치가 작동하지 않아 해로운 내용을 계속 생성합니다.
기존 관점: 기존 연구들은 이를 더 좋은 학습 데이터나 아키텍처 개선으로 해결할 수 있는 '학습 실패'로 보았으나, 본 논문은 이것이 표준 목적 함수 하에서의 최적의 결과임을 주장합니다.

2. 방법론 (Methodology)

저자는 마팅갈 (Martingale) 이론과 그래디언트 분석을 결합하여 시퀀스 수준의 해 (Harm) 를 분석합니다.

해의 마팅갈 분해 (Martingale Decomposition of Harm):
- 부분 시퀀스 $y_{\le t}$ 에 대한 조건부 기대 해 $h_t(y_{\le t})$ 를 정의합니다.
- 해의 변화량 (혁신, Innovation) $\Delta_t = h_t - h_{t-1}$ 을 도입하여 전체 해를 각 위치별 변화량의 합으로 분해합니다.
- 해 정보 (Harm Information, $I_t$ ): 위치 $t$ 가 최종 해 결정에 기여하는 분산의 양을 정의합니다 ( $I_t = E[\Delta_t^2]$ ).
그래디언트 특성화 (Gradient Characterization):
- 기대 해의 그래디언트를 위치별 조건부 기대 해와 스코어 함수 (Score function) 의 공분산으로 표현합니다.
- 핵심 발견: 위치 $t$ 에서의 그래디언트는 $t$ 이전의 시퀀스가 해를 결정했는지 여부에 따라 달라집니다.
해의 지평선 (Harm Horizon):
- 시퀀스 초반의 토큰들 (예: 거절 문장) 로 인해 해가 이미 결정되는 시점을 '해의 지평선 ( $k$ )'으로 정의합니다.
- $t > k$ 인 경우, $I_t = 0$ 이 되며 이는 해당 위치에서 해에 대한 불확실성이 사라졌음을 의미합니다.

3. 주요 기여 및 결과 (Key Contributions & Results)

A. 얕은 정렬의 필연성 증명 (Theorem 10)

제로 그래디언트 정리: 해가 지평선 $k$ 이후에 결정되면 ( $t > k$ ), 해당 위치에서의 조건부 해 기대값은 더 이상 토큰 선택에 의존하지 않습니다.
결과: $t > k$ 인 위치에서 해 정보 $I_t$ 는 0 이 되며, 이에 따라 학습 그래디언트 신호가 완전히 사라집니다.
의미: 표준 목적 함수 하에서는 해가 결정된 이후의 토큰에 대해 안전성을 학습할 수 있는 신호가 존재하지 않으므로, 정렬이 얕은 것은 최적의 해입니다. 이는 학습 데이터 부족이나 최적화 실패가 아닌, 목적 함수 구조의 필연적 결과입니다.

B. KL 발산과 해 정보의 상관관계 (Theorem 14 & Corollary 15)

정렬 균형 상태 (Equilibrium) 에서 위치 $t$ 의 KL 발산은 해 정보 $I_t$ 에 비례합니다 ( $D_{KL}^{(t)} = O(\lambda^2 I_t)$ ).
이는 $I_t \approx 0$ 인 위치 (지평선 이후) 에서는 KL 발산이 0 에 가까워져 베이스 모델의 분포를 그대로 따르게 됨을 이론적으로 증명합니다. 이는 Qi et al. (2025) 의 실험적 관찰을 이론적으로 뒷받침합니다.

C. 깊은 정렬을 위한 새로운 목적 함수 제안 (Deep Alignment)

회복 페널티 (Recovery Penalty): 해가 결정된 이후의 위치에서도 학습 신호를 생성하기 위해, 모델이 해로운 시퀀스 중간에 '회복 (Recovery, 예: "죄송합니다", "할 수 없습니다" 등)' 토큰을 생성하지 못했을 때 페널티를 부과하는 새로운 목적 함수를 도입합니다.
깊은 균형 특성화 (Theorem 19): 이 새로운 목적 함수는 지평선 이후의 위치에서도 그래디언트 신호를 생성하여, 모델이 해로운 입력이 주어지더라도 중간에 거절하거나 방향을 전환할 수 있도록 합니다.
강건성 보장 (Theorem 22): 제안된 방법은 프리필링 공격에 대해 일정 확률 ( $\epsilon^*$ ) 이상의 회복 능력을 보장하며, 공격자가 정렬을 우회하기 위해 필요한 프리필링 길이가 로그 스케일로 증가함을 보입니다.

4. 의의 및 시사점 (Significance)

이론적 재해석: 안전성 정렬이 얕은 것은 모델의 결함이 아니라, 해가 시퀀스 초반에 결정되는 구조적 특성 때문에 표준 RLHF/DPO 가 그 이후의 토큰에 대해 학습 신호를 받지 못하기 때문입니다. 따라서 더 많은 데이터나 최적화 기술만으로는 '깊은 정렬'을 달성할 수 없습니다.
새로운 평가 기준: 단순한 초기 거절률 (Refusal Rate) 평가는 불충분합니다. 해로운 프롬프트가 입력된 후에도 모델이 중간에 회복 (Recovery) 할 수 있는 능력을 측정해야 합니다.
실천적 제안: '회복 페널티'와 같은 데이터 증강 기법이나 목적 함수 수정이 이론적으로 타당하며, 이를 통해 프리필링 공격과 같은 적대적 공격에 더 강건한 모델을 만들 수 있습니다.
한계 및 향후 연구:
- 본 분석은 출력 분포에 기반하며, 내부 표현 (Internal Representations) 을 조작하는 '회로 차단기 (Circuit Breakers)'나 '표현 공학 (Representation Engineering)' 기법과는 직접적으로 연결되지 않습니다.
- 해 (Harm) 가 의미론적 (Semantic) 인 속성인 반면, 분석은 토큰 수준에서 이루어지므로 의미론적 지평선과의 차이를 고려해야 합니다.
- 다중 턴 대화에서의 교차 턱 (Inter-turn) 크레딧 할당 문제는 다루지 않았습니다.

결론

이 논문은 LLM 의 안전성 정렬이 왜 표면적인지에 대한 엄밀한 수학적 증명을 제공하며, 표준 학습 방법의 구조적 한계를 지적합니다. 이를 극복하기 위해 모든 위치에서 학습 신호를 생성하는 '회복 기반'의 새로운 정렬 목적 함수를 제안함으로써, 더 깊고 강건한 AI 안전성 달성을 위한 이론적 토대를 마련했습니다.