The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 비유: 미스터리 소설과 추리 과정

생각해 보세요. 여러분이 미스터리 소설을 읽고 범인을 추리하고 있다고 가정해 봅시다.

초반 (높은 엔트로피/불확실성):
이야기를 막 시작할 때, 범인은 누구일지 전혀 모릅니다. "범인은 A 일 수도, B 일 수도, C 일 수도 있어!"라고 생각하며 머릿속이 복잡합니다. 이때 모델의 **'불확실성 (엔트로피)'**은 매우 높습니다.
중반 (정보의 축적):
소설이 진행될수록 단서들이 하나씩 나옵니다. "범인은 왼쪽 문으로 나갔어", "범인은 키가 크고 빨간 모자를 썼어" 같은 단서들입니다.
- 이 논문이 말하는 핵심: 잘 훈련된 모델 (추리꾼) 은 이 단서들을 모을 때마다, **"아, 범인은 A 가 아니라 B 가 확실해!"**라고 점점 더 확신하게 됩니다.
- 즉, 단서 (중간 단계의 생각) 를 모을수록 정답에 대한 불확실성이 자연스럽게 줄어듭니다.
후반 (낮은 엔트로피/확신):
마지막 장이 되면, 모든 단서가 모였습니다. "범인은 B 가 틀림없어!"라고 확신하게 됩니다. 이때 불확실성은 거의 0 에 수렴합니다.

❓ 왜 이 논문이 중요한가요?

과거 연구자들은 "모델이 불확실성을 줄일 때 정답을 맞춘다"는 사실을 경험적으로만 알았습니다. 하지만 **"왜?"**에 대한 이유는 명확하지 않았습니다.

오해의 소지: "모델이 그냥 말을 잘하게 훈련받았을 뿐이지, 정답과 상관없이 불확실성만 줄일 수도 있지 않나?"라고 의문을 가질 수 있습니다. (예: 엉뚱한 소리를 하면서도 자신감만 넘치는 경우)
이 논문의 발견: 이 논문은 **"아니, 잘 훈련된 모델은 정답을 찾기 위해 단서 (정보) 를 하나씩 쌓아가는 구조로 학습된다"**고 증명했습니다.

🏗️ 핵심 개념: '단계별 정보 축적 가설 (SIA)'

이 논문은 이 현상을 **'SIA'**라는 이름으로 정의했습니다.

"모델이 문제를 풀 때, 중간에 나오는 생각 (단어) 들은 하나하나가 정답에 대한 정보를 조금씩 쌓아올리는 역할을 한다."

비유: 계단을 올라가는 것과 같습니다.
- 올바른 추리: 한 계단 오를 때마다 (단어 하나를 쓸 때마다) 정답이 있는 꼭대기에 더 가까워집니다. (불확실성 감소 = 정보 증가)
- 잘못된 추리 (할루시네이션): 계단을 오르는 척하지만, 사실은 빙글빙글 돌거나 잘못된 방으로 들어갑니다. 이때는 불확실성이 줄어들지 않거나, 엉뚱한 방향으로 줄어듭니다.

🎓 모델은 어떻게 이걸 배우나요?

모델은 인간이 쓴 **정답이 포함된 해설 (Chain-of-Thought)**을 많이 읽으면서 학습합니다.

학습 과정: 인간이 "이런 단서를 보고, 저런 단서를 보고, 결국 정답을 맞췄다"는 패턴을 반복해서 보여줍니다.
학습 결과: 모델은 "아, 정답을 맞추려면 중간에 단서들을 차근차근 쌓아야구나"라고 깨닫습니다.
결과: 모델이 문제를 풀 때, 정답으로 가는 길을 택하면 자연스럽게 불확실성이 줄어듭니다. 반면, 틀린 길을 택하면 불확실성이 줄어들지 않거나 엉뚱하게 변합니다.

🔍 실험 결과: 무엇을 확인했나요?

저자들은 다양한 AI 모델 (Gemma, LLaMA, Qwen 등) 을 테스트했습니다.

잘 훈련된 모델: 정답을 맞출 때, 중간 단계에서 불확실성이 꾸준히 줄어듭니다. (계단을 올바르게 오르는 모습)
잘못 훈련된 모델: 정답을 못 맞출 때, 불확실성이 줄어들지 않거나, 정답과 상관없이 무작정 줄어듭니다. (빙글빙글 도는 모습)
중요한 발견: "정답을 맞춘 사례"와 "틀린 사례"를 구별하는 가장 좋은 신호는 불확실성이 얼마나 일찍, 그리고 얼마나 꾸준히 줄어드는가였습니다.

💡 결론: 이 연구가 우리에게 주는 메시지

이 논문은 AI 의 '생각 과정'을 들여다보는 새로운 안경을 제공했습니다.

AI 가 "생각"할 때: AI 가 불확실성을 줄여가는 과정은 단순히 말을 잘하는 게 아니라, 진짜 정답을 향해 정보를 쌓아가고 있는지를 보여주는 신호입니다.
실용적 가치: 우리는 AI 가 문제를 풀고 있을 때, "불확실성이 줄어들고 있나?"를 지켜보면 "아, 이 AI 는 지금 정답을 찾아가고 있구나" 혹은 **"아, 이 AI 는 헛수고를 하거나 헛소리를 하고 있구나"**를 미리 알 수 있습니다.

한 줄 요약:

"AI 가 문제를 풀 때, 중간 단계에서 불확실성이 줄어든다는 것은 '정답을 향해 단서를 하나씩 쌓고 있다'는 뜻이며, 이것이 바로 AI 가 정답을 맞출 확률이 높아지는 이유입니다."

Each language version is independently generated for its own context, not a direct translation.

이 논문은 대규모 언어 모델 (LLM) 에서 **내부 엔트로피 동역학 (internal entropy dynamics)**과 외부 정답 (ground-truth correctness) 사이의 강력한 상관관계가 발생하는 이유를 이론적으로 설명하고 실증적으로 검증합니다. 저자들은 이 상관관계가 무작위적인 현상이 아니라, 모델이 학습을 통해 '정답에 대한 정보'를 단계적으로 축적하는 구조적 특성 (Stepwise Informativeness Assumption, SIA) 을 갖게 되기 때문이라고 주장합니다.

아래는 논문의 핵심 내용을 요약한 기술적 보고서입니다.

1. 연구 배경 및 문제 정의 (Problem)

현상: 최근 연구들은 LLM 의 생성 과정 중 나타나는 내부 엔트로피 (불확실성) 패턴이 추론의 정확도와 밀접하게 연관되어 있음을 보고했습니다. 예를 들어, 정답을 도출하는 과정에서 엔트로피가 감소하거나 특정 패턴을 보일 때, 그 추론이 성공할 확률이 높습니다.
미해결 과제: 이러한 상관관계는 개념적으로 모순됩니다.
- 내부 엔트로피: 모델의 예측 분포 ( $p_\theta$ ) 에 기반한 순수한 내부 불확실성입니다.
- 외부 정답: 실제 정답 분포 ( $p^\star$ ) 에 기반한 객관적 정확도입니다.
- 질문: 왜 모델이 스스로의 예측 불확실성 (내부) 을 줄이는 과정이, 외부의 정답 (ground-truth) 과 일치하는지 그 이론적 근거가 명확하지 않았습니다. 기존 연구들은 이를 경험적 사실로만 활용했을 뿐, 그 '왜 (Why)'에 대한 구조적 설명은 부족했습니다.

2. 핵심 방법론 및 가정 (Methodology & Key Assumption)

저자들은 이 현상을 설명하기 위해 **단계적 정보성 가정 (Stepwise Informativeness Assumption, SIA)**을 제안하고 이를 정보이론적으로 형식화했습니다.

A. 단계적 정보성 가정 (SIA)

정의: 추론 과정의 접두사 (prefix, $C_{1:k}$ $C_{1 : k}$ ) 가 생성이 진행됨에 따라 기대값 (expectation) 으로 정답 ( $A$ ) 에 대한 정보를 누적한다는 가정입니다.
- 수식적으로: $I_p(A; C_{1:k} | Q) \ge \epsilon_k > 0$
- 즉, 모델이 생성하는 중간 단계들이 정답을 예측하는 데 유의미한 정보를 제공해야 합니다.
의미: SIA 가 성립할 때, 조건부 정답 엔트로피 ( $H(A | Q, C_{1:k})$ ) 는 단순한 내부 불확실성이 아니라, **추론의 진전 변수 (progress variable)**가 됩니다. 즉, 엔트로피 감소는 정답에 대한 정보가 축적되고 있음을 의미합니다.

B. 이론적 유도 (Theoretical Derivation)

최대가능도 추정 (MLE) 과의 연결: 인간이 작성한 추론 데이터 (Chain-of-Thought) 는 일반적으로 정답으로 향할수록 불확실성이 감소하는 구조를 가집니다. MLE 훈련은 모델이 이러한 데이터 분포에 수렴하도록 유도하므로, 모델도 SIA 특성을 내재하게 됩니다.
정확도 하한 (Theorem 1): SIA 가 성립하면, 조건부 엔트로피가 낮을수록 달성 가능한 오차율 (misclassification probability) 의 하한이 낮아집니다. 즉, 엔트로피 감소는 정답 도달의 필요 조건이 됩니다.
훈련 단계별 영향:
- Pretraining: 다음 토큰 예측만 최적화되므로 SIA 가 항상 보장되지는 않음.
- SFT (Supervised Fine-Tuning) & RL: 정답이 명시된 데이터로 훈련되면, 모델은 정답과 일관된 접두사를 생성하도록 강제받아 SIA 가 강화됨.

3. 주요 기여 (Key Contributions)

이론적 설명: 엔트로피와 정확도의 상관관계가 "왜" 발생하는지에 대한 첫 번째 구조적 설명을 제시했습니다. (단순한 경험적 관찰을 넘어 정보이론적 근거를 제공)
SIA 형식화: 추론의 질을 판단할 수 있는 최소한의 정보이론적 조건인 SIA 를 정의하고, 이를 통해 엔트로피 기반 진단이 이론적으로 타당해지는 조건을 규명했습니다.
관측 가능한 서명 (Observable Signatures) 도출: SIA 가 성립하는 모델에서 나타나는 구체적인 엔트로피 패턴을 예측했습니다.
- 초기 정보 축적 (Early Lock-in): 정답을 맞는 추론은 일찍부터 정답 관련 정보를 빠르게 축적합니다.
- 분리 가능성 (Separability): 생성 초기 단계에서도 엔트로피를 통해 정답/오답 추론을 구분할 수 있습니다.
- 포화 (Saturation): 정답에 도달하면 엔트로피가 0 에 수렴하거나 포화 상태에 이릅니다.

4. 실험 결과 (Results)

저자들은 GSM8K, ARC, SVAMP 등 다양한 추론 벤치마크와 Gemma-2, LLaMA-3.2, Qwen-2.5, DeepSeek, Olmo 등 다양한 오픈 가중치 모델을 대상으로 실험을 수행했습니다.

SIA 정렬 (Alignment) 검증:
- Base 모델: 엔트로피 감소와 정답 확률 증가 간의 상관관계가 약하거나 음수인 경우가 많음 (정렬 실패).
- SFT 및 RL 모델: 강한 양의 상관관계를 보임. 특히 RL(DeepSeek-R1, Olmo-Think 등) 로 훈련된 모델은 거의 완벽한 정렬을 보였습니다.
- 결론: 엔트로피 감소가 정답을 향한 신호가 되는 것은 모델의 고유한 성질이 아니라, 훈련 (특히 SFT 와 RL) 에 의해 유도된 구조적 특징입니다.
관측 서명 확인:
- 정렬된 모델 (Aligned): 정답을 맞는 추론 경로는 생성 초기에 엔트로피가 급격히 감소하고 (Early lock-in), 정답이 나올 때까지 엔트로피가 포화되며, 오답 경로와 초기 단계부터 명확히 분리됨.
- 비정렬 모델 (Non-aligned): 위 패턴이 관찰되지 않거나 약화됨. 엔트로피가 감소해도 정답과 무관한 경우가 많음.
Ablation Study:
- 접두사 토큰 순서를 무작위로 섞으면 (Shuffle-prefix) 엔트로피 - 정답 상관관계가 급격히 떨어짐. 이는 단순한 토큰 수 때문이 아니라 구조화된 정보 축적이 핵심임을 입증했습니다.

5. 의의 및 결론 (Significance)

이론적 기여: LLM 의 '생각 (Reasoning)' 과정을 블랙박스처럼 다루지 않고, 정보의 누적이라는 관점에서 엔트로피 동역학의 의미를 해석했습니다.
실용적 함의:
- 신뢰성 있는 진단: 엔트로피 기반의 조기 종료 (Early Stopping), 오류 탐지 (Hallucination detection), 추론 경로 선택 (Exploration) 등의 기법이 언제, 왜 작동하는지에 대한 이론적 근거를 제공했습니다.
- 모델 평가: 모델이 추론 능력을 제대로 학습했는지 (SIA 내재 여부) 를 엔트로피 패턴으로 빠르게 진단할 수 있는 기준을 제시했습니다.
한계 및 향후 과제: SIA 가 성립하지 않는 영역 (예: 창의적 글쓰기, 모호한 문제) 에서 엔트로피 기반 진단의 한계를 명확히 하고, 엔트로피 동역학을 인위적으로 조작하여 추론 결과를 개선할 수 있는지 탐구해야 합니다.

요약하자면, 이 논문은 LLM 이 정답을 향해 추론할 때 내부 엔트로피가 감소하는 현상이 우연이 아니라, 훈련을 통해 '정답 정보를 단계적으로 축적하는 구조 (SIA)'를 학습했기 때문임을 증명하고, 이를 통해 추론의 신뢰성을 높이는 새로운 이론적 틀을 마련했습니다.