LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Each language version is independently generated for its own context, not a direct translation.

🌳 비유: 거대한 숲과 좁은 산책로

생각해 보세요. AI 가 글을 쓸 때는 마치 거대한 숲에서 길을 찾아가는 여행과 같습니다.

기본 모델 (Base Model): "자유로운 탐험가"
- AI 가 아직 사람과 대화하도록 훈련받기 전 상태입니다.
- 이 상태의 AI 는 숲의 모든 가지를 다 볼 수 있습니다. "다음에 뭐라고 할까?"라고 물으면, "사과", "비행기", "사랑", "우주" 등 수천 가지의 가능성이 열려 있습니다.
- 특징: 매우 다양하고 창의적이지만, 때로는 엉뚱한 말을 하거나 길을 잃을 수도 있습니다.
정렬된 모델 (Aligned Model): "규칙을 잘 지키는 가이드"
- 사람이 "유용하고 안전한 대답만 해줘"라고 훈련시킨 AI 입니다.
- 이 훈련을 거치면 AI 는 숲의 가지들을 대거 잘라냅니다.
- "사과"나 "비행기" 같은 엉뚱한 가지는 잘라내고, "네, 알겠습니다", "그렇군요" 같은 안전하고 정해진 길만 남깁니다.
- 결과: AI 는 더 이상 길을 잃지 않고 안전한 길만 걷지만, 창의성은 사라지고 똑같은 말만 반복하게 됩니다.

🔍 핵심 발견 1: '가지치기'가 얼마나 심한가? (Branching Factor)

연구자들은 이 현상을 **'가지치기 지수 (Branching Factor, BF)'**로 측정했습니다.

비유: "다음에 선택할 수 있는 길이 몇 개나 남았나요?"
결과:
- 기본 모델: 다음 단계에서 약 12 개의 다양한 길이 열려 있습니다. (자유로움)
- 정렬된 모델: 다음 단계에서 약 1.2 개의 길만 남습니다. (거의 하나뿐!)
- 의미: 정렬된 AI 는 처음부터 끝까지 거의 10 배 이상 좁은 길로만 이동합니다. 그래서 AI 가 어떤 답변을 할지 미리 예측하기 매우 쉬워진 것입니다.

🧠 핵심 발견 2: 왜 AI 는 '생각 과정 (CoT)'을 길게 할까요?

최근 AI 는 "답을 바로 말하기보다, 먼저 단계별로 생각해보자"라고 말합니다 (Chain-of-Thought).

비유: 산책로가 갈수록 좁아집니다.
- AI 가 말을 시작할 때는 아직 가지가 좀 있지만, 문장을 길게 이어갈수록 AI 는 스스로 더 좁은 길로 들어갑니다.
- 생각 과정 (CoT) 의 역할: AI 가 긴 생각 과정을 거치면, 결론을 내리는 순간은 이미 가장 좁고 안전한 길 (가장 예측 가능한 상태) 에 도달한 상태가 됩니다.
- 효과: 그래서 긴 생각 과정을 거친 AI 는 결론이 매우 일관적이고 안정적입니다. "틀릴 확률"이 줄어드는 대신, "다양한 아이디어"는 사라집니다.

🎛️ 핵심 발견 3: 왜 AI 는 설정을 바꿔도 똑같은 답을 할까요?

사용자들은 "온도 (Temperature)" 설정을 높여서 AI 를 더 창의적으로 만들려 하지만, 정렬된 AI 는 잘 변하지 않습니다.

비유: 좁은 터널에서 바람을 불어보아도.
- 기본 모델은 넓은 광장에 서 있어서 바람 (설정 변경) 이 불면 방향이 쉽게 바뀝니다.
- 하지만 정렬된 AI 는 너무 좁은 터널에 갇혀 있습니다. 바람을 아무리 세게 불어도 터널 벽에 부딪혀서 방향을 바꿀 수 없습니다.
- 결론: AI 가 이미 너무 좁은 길로 '고정'되어 있기 때문에, 설정을 바꿔도 별 소용이 없는 것입니다.

💡 결론: AI 는 변한 게 아니라, '가이드'를 얻은 것입니다.

이 논문은 놀라운 결론을 내립니다.

"AI 가 사람과 대화하도록 훈련받았다고 해서, AI 의 뇌 구조가 완전히 바뀐 것은 아닙니다. 대신 AI 가 '네, 알겠습니다 (Sure)' 같은 특정 단어를 먼저 말하면, 그 뒤로 이미 존재하던 안전한 길로 자연스럽게 빠져나가는 것입니다."

일상적인 교훈:
우리가 AI 를 사용할 때, "왜 이 AI 는 똑같은 말만 할까?"라고 실망할 필요가 없습니다. AI 는 안전하고 정확한 길을 선택하도록 설계되었기 때문입니다. 만약 창의적인 아이디어가 필요하다면, AI 를 "정렬 (Alignment)"된 상태가 아닌 기본 모델 상태로 사용하거나, 아예 여러 AI 를 함께 대화시키는 등의 새로운 방법이 필요하다는 것을 이 연구는 알려줍니다.

한 줄 요약:
"AI 가 사람과 잘 지내도록 훈련받으면, 자유로운 탐험가에서 규칙을 지키는 가이드로 변해, 수많은 길이 있던 숲이 좁은 산책로로 바뀌게 됩니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 은 인간과 유사한 대화나 추론을 위해 정렬 (Alignment, 예: RLHF) 과정을 거치지만, 이 과정에서 출력 다양성 (Output Diversity) 이 크게 감소하고 결정론적 (Deterministic) 성향이 강해지는 현상이 관찰됩니다.

기존 연구들은 정렬된 모델이 다양한 디코딩 전략 (Temperature, Nucleus Sampling 등) 에 덜 민감하다는 것을 보고했으나, 그 근본적인 메커니즘에 대한 체계적인 설명은 부족했습니다.
기존 지표들 (토큰 엔트로피, 퍼플렉시티, n-gram 다양성 등) 은 생성 트리의 전역적 구조를 포착하지 못하거나 어휘 크기 및 출력 길이에 의해 왜곡되는 한계가 있었습니다.

2. 방법론 (Methodology)

2.1 분기 계수 (Branching Factor, BF) 의 도입

저자들은 정보 이론의 퍼플렉시티 (Perplexity) 개념을 발전시켜 분기 계수 (BF) 를 정의했습니다.

정의: 생성 과정에서의 유효한 다음 토큰 선택지의 평균 개수를 나타내는 토큰 불변 (token-invariant) 지표입니다.
수식: $B = \exp(\bar{H})$ , 여기서 $\bar{H}$ 는 시퀀스 길이에 따른 평균 마진 엔트로피 (length-averaged marginal entropy) 입니다.
의미: BF 가 높으면 모델이 다음 토큰을 선택할 때 다양한 가능성이 존재함을 의미하고, BF 가 낮으면 모델이 매우 제한된 경로로 수렴함을 의미합니다.

2.2 효율적인 추정 (Efficient Estimation)

전체 분포를 계산하는 것은 계산 비용이 너무 크기 때문에, 저자들은 음의 로그 가능도 (Negative Log-Likelihood, NLL) 를 사용하여 BF 를 효율적으로 추정합니다.

정리 3.1 (Log-Likelihood Convergence): 긴 시퀀스에서 NLL 은 실현된 엔트로피 (realized entropy) 에 확률적으로 수렴함을 증명합니다.
이를 통해 전체 분포를 탐색하지 않고도 샘플링된 시퀀스의 NLL 만으로 BF 를 정확하고 빠르게 계산할 수 있습니다.

2.3 실험 설정

모델: Llama-2, Llama-3, OLMo-2, Qwen 등 다양한 베이스 (Base) 모델과 정렬 (Aligned/Instruct) 모델 비교.
태스크: 추론 (MMLU), 창의적 글쓰기 (Creative StoryGen), 뉴스 생성 (BBC News), 제어 생성 (Cognac) 등 다양한 작업 수행.
변수: 프롬프트 복잡도, 모델 크기, 생성 단계 (SFT, DPO) 등을 통제하며 BF 의 동적 변화를 분석.

3. 주요 결과 (Key Results)

3.1 정렬 (Alignment) 이 BF 를 급격히 감소시킴

크기: 정렬된 모델의 BF 는 베이스 모델에 비해 전체적으로 2~5 배, 특히 생성 초기 단계에서는 10 배 이상 (예: 12 → 1.2) 감소합니다.
원인: 정렬 과정이 모델의 출력 분포를 초기 단계부터 극도로 좁혀, 유효한 다음 토큰 후보를 거의 없애버립니다.
결과: 이로 인해 정렬된 모델은 Temperature 나 Top-p 와 같은 디코딩 하이퍼파라미터 변화에 거의 영향을 받지 않게 됩니다 (표 1 참조).

3.2 생성 과정에서의 BF 동적 감소 (Dynamic Concentration)

생성이 진행됨에 따라 BF 는 자연스럽게 감소하는 경향을 보입니다. 즉, 모델이 생성을 시작할수록 특정 경로에 "약속 (Commit)"하게 되어 예측 가능성이 높아집니다.
CoT (Chain-of-Thought) 의 안정성: CoT 프롬싱은 긴 추론 체인을 생성하게 하여, 최종 답변이 나오는 시점을 BF 가 이미 매우 낮아진 (더 결정론적인) 생성 단계로 미룹니다. 이로 인해 CoT 모델의 출력이 더욱 안정적이고 일관된 결과를 보입니다.

3.3 정렬의 메커니즘: 잠재된 저엔트로피 경로 유도

Nudging 실험: 베이스 모델의 생성 시작 부분에 정렬된 스타일의 짧은 접두사 (예: "Sure, Let's think...") 를 추가하면, 모델의 BF 가 급격히 감소합니다.
의미: 정렬이 모델의 근본적인 매니폴드를 새로 만드는 것이 아니라, 이미 베이스 모델에 존재하던 저엔트로피 (Low-Entropy) 스타일 토큰들을 유도하여 생성 경로를 좁히는 역할을 합니다.

3.4 중반 생성 분기의 위험성 (Risks of Mid-Generation Forking)

BF 가 낮은 상태 (생성 후반부) 에서 강제로 다른 경로를 샘플링 (Resampling) 하면 성능이 급격히 저하됩니다.
이는 정렬된 모델이 생성 초기에 특정 경로로 빠르게 "잠금 (Lock-in)"되어, 이후에는 대안적인 경로가 품질이 낮거나 존재하지 않음을 의미합니다.

4. 기여 및 의의 (Contributions & Significance)

통일된 설명 프레임워크: 정렬된 모델의 다양성 감소, 디코딩 전략에 대한 무감각함, CoT 의 안정성 등看似 서로 다른 현상들을 **'확률 집중 (Probability Concentration)'**과 BF 감소라는 하나의 프레임워크로 설명했습니다.
새로운 진단 도구 (BF): 기존 다양성 지표 (Distinct-N 등) 와는 달리, BF 는 생성 분포의 본질적인 특성을 측정하여 모델의 생성 행동을 더 정확하게 진단할 수 있는 도구를 제공합니다.
실무적 시사점:
- 디코딩 전략의 한계: BF 가 낮은 정렬 모델에서는 Temperature 조절만으로 다양성을 확보하기 어렵습니다.
- 병렬 샘플링의 중요성: 다양성을 확보하려면 BF 가 아직 높은 생성 초기 단계에서 병렬 샘플링을 수행해야 합니다.
- 훈련 과정의 중요성: 다양성 감소를 해결하려면 디코딩 단계가 아닌, 정렬 데이터의 다양성 확보나 훈련 목적함수 설계 등 훈련 과정 자체를 개선해야 함을 시사합니다.
사회적 영향: 정렬 과정이 모델의 출력을 지나치게 동질화 (Homogenization) 시켜 창의성을 저해하고 사회적 편향을 강화할 수 있음을 경고하며, 이를 정량화하는 것이 위험 완화의 첫걸음임을 강조합니다.

결론

이 논문은 LLM 의 생성 과정을 확률적 트리의 수축 과정으로 해석하며, 정렬 (Alignment) 이 모델의 '생성 지평선 (Generative Horizon)'을 어떻게 좁히는지를 BF 를 통해 정량적으로 증명했습니다. 이는 LLM 의 안정성과 다양성 사이의 트레이드오프를 이해하고, 더 나은 모델 개발을 위한 새로운 방향성을 제시합니다.