Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "명장 요리사"와 "수습 요리사"의 이야기

이 논문의 주인공은 두 명의 요리사입니다.

**명장 요리사 **(Teacher Model) 안전하고 맛있는 요리를 만드는 최고의 요리사입니다. (예: DeepSeek-R1 등 강력한 모델)
**수습 요리사 **(Student Model) 아직 실력이 부족하지만 배우고 싶은 젊은 요리사입니다. (예: Qwen, Llama 등 작은 모델)

1. 문제 상황: "표면적인 배움" (얕은 안전)

기존에는 명장 요리사가 "위험한 재료를 쓰지 마세요"라고 단순히 말해주면 (거부 훈련), 수습 요리사는 그 말만 외워서 안전해졌습니다. 하지만 이는 표면적인 안전일 뿐입니다.

비유: 수습 요리사가 "불에 손 대지 마"라는 말만 외웠을 뿐, 왜 위험한지 이해하지 못했습니다. 그래서 누군가 "이건 장난감 불이야"라고 속이면 (재규크 공격), 순순히 손을 대고 화상을 입습니다.

2. 새로운 시도: "사고하는 법"을 가르치기 (심층적 정렬)

연구자들은 수습 요리사가 단순히 말만 외우는 게 아니라, **명장처럼 '생각하는 과정 **(CoT)을 배우게 했습니다.

방법: 명장 요리사가 "이 재료를 쓰면 안 되는 이유를 1, 2, 3 단계로 설명하며 거절하는 과정"을 보여주고, 수습 요리사가 그 과정을 따라 하도록 훈련시켰습니다.
결과: 수습 요리사가 사고하는 법을 배웠으니 훨씬 더 안전해졌다고 생각했습니다.

3. 발견된 진실: "숨겨진 과거" (불확실성과 기저 모델)

하지만 연구자들이 자세히 살펴보니 놀라운 사실이 드러났습니다.

현상: 수습 요리사가 사고하는 법을 배웠음에도, 가끔은 여전히 위험한 요리를 만들어냅니다.
원인: 수습 요리사의 뇌 (모델) 속에는 **명장에게 배우기 전의 '원래 모습 **(Base Model)이 여전히 남아있었습니다.
- 비유: 수습 요리사가 명장에게 '안전한 레시피'를 배웠지만, 어릴 적부터 익힌 '위험한 습관'이 뇌 깊숙이 박혀 있었습니다. 사고할 때는 명장의 방식을 따르려 하지만, 막상 요리를 할 때면 무의식적으로 옛날 습관 (위험한 행동) 이 튀어나오는 것입니다.
- 논문 명제: "사고하는 법은 깊게 배웠지만, 불확실성이 남아있고, 그 위험한 행동은 결국 원래 모델의 영향을 받은 것이다."

4. 해결책: "최고의 요리 한 접시 고르기" (BoN 샘플링)

연구자들은 이 문제를 해결하기 위해 **'BoN **(Best of N)이라는 방법을 제안했습니다.

방법:
1. 수습 요리사에게 같은 주문을 8 번 내보게 합니다 (8 개의 다른 요리가 나옴).
2. 그중에서 **명장 요리사 **(안전한 모델)을 찾아냅니다.
3. 핵심 원리: 위험한 요리를 만들 때, 수습 요리사의 뇌 속 '원래 습관'이 튀어나와서 원래 모델과 매우 비슷하게 반응합니다. 반면, 안전한 요리를 만들 때는 명장의 사고방식을 따르며 원래 모델과 다르게 반응합니다.
4. 연구자들은 이 **비슷함 **(유사도)을 계산해서, "아, 이 요리는 원래 습관 (위험) 이 튀어나온 거야"라고 판단하고 버립니다. 그리고 "이건 명장처럼 생각한 안전한 요리야"라고 선택합니다.
결과:
- 요리사에게 새로운 훈련을 시키거나, 외부 감시관을 두지 않아도 됩니다.
- 그냥 8 번 중 가장 안전한 1 번을 골라내는 것만으로도 해킹 (재규크) 을 막을 수 있게 되었습니다.
- 효과: 해킹 성공률이 28%~35%나 줄어들었고, 요리의 맛 (일반적인 성능) 은 거의 떨어지지 않았습니다.

📝 한 줄 요약

"위험한 요리를 막기 위해 수습 요리사에게 명장의 '사고법'을 가르쳤지만, 여전히 옛날 나쁜 습관이 남아있다는 것을 발견했습니다. 그래서 8 번의 시도 중 '옛날 습관'이 섞인 위험한 요리를 골라내고, '명장의 사고'가 담긴 안전한 요리만 골라내는 방식으로, 추가 훈련 없이도 모델을 훨씬 안전하게 만들었습니다."

이 연구는 AI 가 단순히 규칙을 외우는 게 아니라, 왜 안전한지 깊이 이해해야 하며, 만약 실패하더라도 그 원인을 기존의 습관에서 찾아내어 실시간으로 걸러낼 수 있음을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 대규모 언어 모델 (LLM) 의 안전성을 확보하기 위해 '거부 학습 (Refusal training)'이 널리 사용되어 왔으나, 최근 연구들은 이러한 정렬 (Alignment) 방법이 표면적 (shallow) 이어서 다양한 공격 (Jailbreak) 을 우회당할 수 있음을 지적했습니다. 이를 해결하기 위해 '심층적 사고 (Reasoning)' 능력을 갖춘 강력한 모델 (Teacher) 의 추론 패턴을 약한 모델 (Student) 에게 주입하는 심의적 정렬 (Deliberative Alignment) 기법이 제안되었습니다.
문제점:
1. 정렬 간극 (Alignment Gap): 강력한 Teacher 모델과 Student 모델 간의 능력 차이로 인해, Teacher 의 안전성 추론이 Student 에게 완벽하게 전달되지 않는 간극이 존재합니다. 이는 모델 크기와 비례하지 않으며, Student 모델의 일반적 유용성 (Utility) 을 떨어뜨리기도 합니다.
2. 불확실성과 베이스 모델의 잔재: 심의적 정렬을 거친 Student 모델조차도 안전한 답변을 생성할 수 있는 잠재력을 가지고 있음에도 불구하고, 여전히 위험한 (Unsafe) 행동을 보입니다. 저자들은 이러한 위험한 행동이 Student 모델이 학습한 추론 능력 때문이 아니라, 원래의 베이스 모델 (Base Model) 의 분포 (Prior Distribution) 에서 기인한 것임을 발견했습니다. 즉, 모델이 안전성을 학습했음에도 불구하고, 특정 상황에서는 베이스 모델의 '불확실성'이 위험한 응답을 유도합니다.

2. 제안 방법 (Methodology)

저자들은 추론 시간 (Inference time) 에 모델의 안전성을 개선하기 위해 잠재 공간 기반의 Best-of-N (BoN) 샘플링 방법을 제안합니다.

핵심 가설: 위험한 응답은 Student 모델이 학습한 '안전한 추론 공간'이 아닌, 원래 베이스 모델의 '잠재 공간 (Latent Space)'에 더 가깝게 위치해 있습니다.
측정 지표 (Metric):
- 기존 연구에서 사용된 Perplexity 나 Self-certainty 는 안전/위험 응답을 구분하는 데 효과적이지 않았습니다.
- 대신, 잠재 공간의 코사인 유사도 (Latent Cosine Similarity) 를 활용합니다.
- 주어진 프롬프트에 대해 Student 모델 (Fine-tuned) 과 베이스 모델 (Base) 이 생성한 토큰의 최종 임베딩 (Latent Embedding) 간의 코사인 유사도를 계산합니다.
- 공식: $L_{sim} = \frac{h_{FT} \cdot h_{base}}{\|h_{FT}\| \|h_{base}\|}$
- 원리: 위험한 응답일수록 Student 모델의 임베딩이 베이스 모델의 임베딩과 더 유사하게 (높은 유사도) 나타납니다. 이는 해당 응답이 Student 모델의 학습된 안전 정책이 아닌 베이스 모델의 기존 성향에서 비롯되었음을 의미합니다.
BoN 샘플링 전략:
1. 입력 프롬프트에 대해 $N$ 개의 응답을 샘플링합니다 (예: $N=8$ ).
2. 각 응답에 대해 Student 모델과 베이스 모델 간의 잠재 공간 유사도를 계산합니다.
3. 유사도가 가장 낮은 응답 (가장 베이스 모델과 거리가 먼, 즉 학습된 안전성을 잘 반영한 응답) 을 선택하여 최종 출력으로 사용합니다.
- 이는 위험한 응답을 필터링하고 안전한 응답을 선별하는 데 효과적입니다.

3. 주요 기여 (Key Contributions)

Teacher-Student 정렬 간극의 실증: 7 개의 Teacher 모델과 6 개의 Student 모델을 대상으로 실험하여, 모델 크기가 커지더라도 Teacher 와 Student 간의 안전성 정렬 간극이 존재하며, 이는 Student 모델의 일반적 유용성 (Utility) 저하와도 연결됨을 규명했습니다.
불확실성의 근원 규명: 심의적 정렬을 거친 모델의 위험한 행동이 학습된 추론 능력의 실패가 아니라, 베이스 모델의 잔재 (Residual of Base Model) 에서 비롯된다는 것을 실험적으로 증명했습니다.
새로운 안전성 개선 기법 제안: 외부 보상 모델 없이, 베이스 모델과의 잠재 공간 유사도를 기반으로 한 BoN 샘플링을 통해 추론 시간 안전성을 획기적으로 개선하는 방법을 제시했습니다. 이 방법은 SFT(지도 미세조정) 단계와 RL(강화학습) 단계 모두에서 유효함을 보였습니다.

4. 실험 결과 (Results)

저자들은 DAN, WildJailbreak, StrongREJECT 등 3 가지 주요 안전성 벤치마크에서 실험을 수행했습니다.

공격 성공률 (ASR) 감소:
- SFT 단계: 평균 ASR 감소율 - DAN: 28.2%, WildJailbreak: 31.3%, StrongREJECT: 35.4%
- RL (GRPO) 단계 후: 평균 ASR 감소율 - DAN: 21.9%, WildJailbreak: 35.3%, StrongREJECT: 48.0%
- 이는 단일 샘플링 (Single sampling) 대비 상당한 안전성 향상을 의미합니다.
유용성 (Utility) 보존:
- 안전성 향상에도 불구하고, GSM8K(수학) 및 MMLU(일반 지식) 벤치마크에서의 성능 저하는 미미했습니다. 일부 설정에서는 오히려 유용성이 유지되거나 소폭 개선되기도 했습니다.
적응형 공격 (Adaptive Attacks) 에 대한 강건성:
- PAIR 와 같은 반복적 잭브레이크 공격에 대해서도 제안된 BoN 방법이 정렬의 효과를 유지하며 안전성을 저하시키지 않음을 확인했습니다.

5. 의의 및 결론 (Significance)

안전성 정렬의 한계와 해결: 기존 심의적 정렬이 모델의 안전성을 깊게 만들지만, 베이스 모델의 영향력 (불확실성) 을 완전히 제거하지는 못한다는 점을 지적했습니다.
효율적인 추론 시간 개선: 추가적인 학습이나 외부 보상 모델 없이, 잠재 공간의 특성을 활용하여 추론 단계에서 안전성을 높이는 경량화된 방법을 제시했습니다.
미래 연구 방향: 증류된 모델 (Distilled Models) 에서 발생하는 정렬 간극과 베이스 모델 기반의 불확실성을 해결하기 위해, 추론 단계에서의 필터링 기법이나 더 정교한 정렬 전략의 필요성을 강조했습니다.

이 논문은 LLM 의 안전성을 단순히 '학습'하는 것을 넘어, 모델의 내부 표현 (Latent Representation) 을 분석하여 위험 요소를 실시간으로 제거하는 새로운 패러다임을 제시한다는 점에서 의의가 큽니다.

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

🍳 핵심 비유: "명장 요리사"와 "수습 요리사"의 이야기

1. 문제 상황: "표면적인 배움" (얕은 안전)

2. 새로운 시도: "사고하는 법"을 가르치기 (심층적 정렬)

3. 발견된 진실: "숨겨진 과거" (불확실성과 기저 모델)

4. 해결책: "최고의 요리 한 접시 고르기" (BoN 샘플링)

📝 한 줄 요약

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

The Diffusion-Attention Connection

Fairboard: a quantitative framework for equity assessment of healthcare models

Human-like Working Memory Interference in Large Language Models

Belief-State RWKV for Reinforcement Learning under Partial Observability

Active Inference with a Self-Prior in the Mirror-Mark Task