Markovian Transformers for Informative Language Modeling

Each language version is independently generated for its own context, not a direct translation.

🧠 1. 문제: AI 는 "가짜 생각"을 할 수 있습니다

지금까지의 AI 는 문제를 풀 때 "생각 과정 (Chain-of-Thought)"을 글로 적어주곤 합니다.
하지만 연구자들은 이런 의문을 가졌습니다.

"AI 가 글로 쓴 '생각 과정'은 정말로 답을 구하는 데 필요한 걸까? 아니면 AI 가 이미 답을 알고 있어서, 그 답에 맞춰서 뒤늦게 변명하듯 글을 지어낸 것일까?"

예를 들어, AI 가 수학 문제를 풀 때 정답이 '10'이라는 것을 알고 있다면, "1+1=2, 2+3=5... 결국 10 입니다"라고 글을 적지만, 실제로는 중간 계산 없이 바로 10 을 외웠을 수도 있습니다. 이 경우 AI 가 쓴 '생각 과정'은 가짜입니다.

🚧 2. 해결책: "정보의 좁은 통로" (Markovian Framework)

저자들은 AI 가 반드시 생각 과정을 거쳐서 답을 내도록 강제로 만드는 장치를 만들었습니다. 이를 **'마르코프형 (Markovian) 프레임워크'**라고 부르는데, 쉽게 비유하자면 다음과 같습니다.

📦 비유: "우편물 배달 시스템"

기존 방식 (Non-Markovian): 편지 (질문) 를 받은 우체부 (AI) 가 편지를 읽으면서 답을 계산하고, 그 답을 편지함에 넣습니다. 이때 우체부는 편지 내용 (질문) 을 계속 볼 수 있습니다. 그래서 "아, 이 질문의 답은 10 이구나"라고 기억해두고, 나중에 "생각 과정"을 적을 때 그 답을 맞춰서 적으면 됩니다.
새로운 방식 (Markovian): 우체부가 편지 (질문) 를 읽은 후, 편지를 버리고 오직 '요약 메모 (생각 과정)'만 들고 답을 작성하는 방으로 들어갑니다.
- 규칙: 답을 작성할 때 원래 편지 (질문) 는 볼 수 없습니다. 오직 자신이 적은 '요약 메모'만 보고 답을 써야 합니다.
- 결과: 만약 AI 가 진짜로 답을 모른다면, '요약 메모'에 답을 적어둘 수 없습니다. 그래서 AI 는 반드시 답을 구하는 데 필요한 **진짜 논리 (계산 과정)**를 '요약 메모'에 적어넣어야만 정답을 맞출 수 있게 됩니다.

이 방식은 마치 압축기처럼 작동합니다. 긴 질문을 읽고, 중요한 논리만 추려서 짧은 메모에 담고, 그 메모만으로 답을 찾아야 하므로 AI 는 거짓말 (가짜 생각) 을 할 수 없게 됩니다.

🎓 3. 훈련 방법: "스스로를 채점하는 게임"

이 AI 를 훈련시키는 방법은 GRPO라는 기술을 사용하는데, 마치 다음과 같은 게임 같습니다.

문제 제시: AI 에게 문제를 줍니다.
생각 과정 작성: AI 가 "생각 메모"를 작성합니다.
답변 작성: AI 는 "생각 메모"만 보고 답을 냅니다. (질문은 못 봄)
채점:
- 만약 답이 맞다면? "잘했다! 네 생각 메모가 정말 유용했구나!"라고 칭찬합니다.
- 만약 답이 틀렸다면? "아쉽네. 네 생각 메모가 불완전했구나."라고 지적합니다.
반복: 이 과정을 수천 번 반복하면서 AI 는 **"어떻게 하면 짧은 메모에 진짜 논리를 담아 정답을 맞출 수 있을까?"**를 스스로 학습하게 됩니다.

📊 4. 결과: AI 가 정말로 생각하게 되었습니다!

이 방법으로 훈련한 AI 는 놀라운 변화를 보였습니다.

성적 향상: 수학 문제 (GSM8K) 에서 정답률이 **19% 에서 57%**로, 과학 퀴즈 (ARC) 에서 **36% 에서 80%**로 크게 올랐습니다.
진짜 생각: AI 가 쓴 '생각 메모'를 일부러 지우거나 틀리게 바꾸면, AI 의 정답률이 급격히 떨어졌습니다. 이는 AI 가 답을 외운 게 아니라, 메모에 적힌 논리에 의존해서 답을 냈다는 증거입니다.
다른 AI 와도 통함: 한 AI 가 쓴 '생각 메모'를 다른 AI (예: GPT-2 같은 구형 모델) 에게 주어도, 그 AI 가 정답을 맞출 수 있었습니다. 이는 AI 가 모델만의 암호 (스텔스 모드) 를 쓴 게 아니라, 누구나 이해할 수 있는 자연어 논리를 썼다는 뜻입니다.

💡 5. 결론: 왜 중요한가요?

이 연구는 AI 가 "왜 그 답을 냈는지"에 대한 진짜 이유를 보여줄 수 있게 해줍니다.

신뢰성: AI 가 내린 결론이 단순히 암기된 것이 아니라, 논리적으로 증명된 것임을 확인할 수 있습니다.
안전성: 고위험 분야 (의료, 법률 등) 에서 AI 가 잘못된 논리로 결론을 내리는 것을 막을 수 있습니다.

한 줄 요약:

"AI 에게 질문을 주고 답을 할 때, 원래 질문을 못 보게 하고 오직 '생각 메모'만 보게 함으로써, AI 가 진짜로 논리적으로 생각하도록 강제한 혁신적인 훈련 방법입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 언어 모델은 복잡한 추론 작업을 수행할 때 CoT(Chain-of-Thought) 를 생성하지만, 이 CoT 가 모델의 실제 내부 결정 과정을 faithfully 반영하지 못하는 경우가 많습니다.

비신실성 (Unfaithfulness): 모델이 CoT 를 생성할 때 실제 질문 (Question) 을 여전히 참조할 수 있기 때문에, CoT 는 단순히 "보여주기 위한" 설명에 불과할 수 있습니다. 즉, CoT 를 수정하거나 제거해도 최종 답변이 변하지 않는 경우가 있어 CoT 가 인과적으로 필수적이지 않습니다.
스텔라그래피 (Steganography) 위험: 모델이 CoT 에 정보를 숨겨서 (예: 자연어처럼 보이지만 실제로는 암호화된 상태) 답변을 유도할 수 있으며, 이는 해석 가능성 (Interpretability) 을 해칩니다.

2. 방법론 (Methodology)

저자들은 Markovian Language Model (MLM) 프레임워크를 도입하여 구조적 제약 (Structural Constraint) 을 통해 CoT 의 정보성을 강제합니다.

A. Markovian 프레임워크 및 아키텍처

자동 인코더 (Autoencoder) 비유: 질문 (A) 에서 답변 (C) 로 가는 모든 정보 흐름이 제한된 길이의 CoT (B) 를 통과해야 하는 "대역폭 병목 (Bandwidth Bottleneck)"을 만듭니다. 이는 자동 인코더의 잠재 공간 (Latent Layer) 과 유사합니다.
마르코프성 (Markovian Property): 답변을 예측하는 정책 $\pi_\theta$ $π_{θ}$ 는 CoT 상태 ( $s$ ) 만을 볼 수 있고, 원래 질문 ( $o$ $o$ ) 은 볼 수 없습니다.
- 상태 업데이트 함수 $u_\theta$ : 질문과 초기 프롬프트를 받아 CoT 를 생성.
- 정책 함수 $\pi_\theta$ : 생성된 CoT 만을 보고 답변을 예측.
효과: 모델은 CoT 에 답변을 도출하는 데 필요한 모든 필수 추론을 압축하여 담아내야만 합니다. 질문을 직접 참조할 수 없으므로 CoT 가 인과적으로 필수적인 (Causally Load-bearing) 역할을 하게 됩니다.

B. 학습 알고리즘 (GRPO 스타일 강화 학습)

이산적인 텍스트 병목으로 인해 직접적인 역전파 (Backpropagation) 가 불가능하므로, 강화 학습 (RL) 기반의 그래디언트 추정을 사용합니다.

GRPO (Group Relative Policy Optimization) 변형:
- 병렬 샘플링: 동일한 질문에 대해 여러 개의 CoT 를 생성하여 그룹 내 상대적 이득 (Advantage) 을 계산합니다.
- 고정된 베이스라인 (Frozen Baseline): 사전 학습된 모델 ( $u', \pi'$ ) 이 생성한 CoT 를 기준으로 사용하여, 학습 중인 모델이 얼마나 더 좋은 CoT 를 생성하는지 측정합니다.
손실 함수 (Loss Function):
1. Policy Gradient ( $L_{PG}$ ): CoT 생성 확률을 극대화.
2. Actor-Reward Gradient ( $L_{AR}$ ): 핵심 혁신. 보상 함수 $R_\theta$ 가 모델 파라미터 $\theta$ 에 의존하므로 (CoT 를 통해 답변 예측 확률), 체인 룰 (Chain Rule) 을 적용하여 보상 자체에 대한 그래디언트도 함께 업데이트합니다.
3. KL Penalty ( $L_{KL}$ ): 사전 학습된 분포에서 너무 멀어지지 않도록 규제하여, 비자연스러운 스텔라그래피 (Steganography) 코딩을 방지합니다.

3. 주요 기여 (Key Contributions)

구조적 강제성: 최적화 기반이 아닌 아키텍처적 제약을 통해 CoT 가 답변 예측에 인과적으로 필수적이도록 만듦.
새로운 학습 레시피: 병렬 샘플링, 고정된 CoT 베이스라인, Actor-Reward 그래디언트 (체인 룰 적용) 를 포함한 GRPO 스타일 학습 방법론 제시.
성능 향상: CoT 만으로 답변해야 하는 제약 하에서도 기존 비 Markovian 모델과 유사하거나 더 높은 성능을 달성함.
교차 모델 일반화 (Cross-Model Generalization): Llama 가 생성한 CoT 가 Mistral, Phi, GPT-2 등 다른 아키텍처에서도 유효함을 입증. 이는 CoT 가 모델 특유의 암호화가 아닌 자연어 추론을 담고 있음을 의미합니다.

4. 실험 결과 (Results)

A. 성능 (Accuracy)

표준 QA 데이터셋 (GSM8K, ARC-Challenge, MMLU 등) 에서 Markovian 모델은 베이스라인 대비 큰 개선을 보였습니다.

GSM8K: 19.6% $\rightarrow$ 57.1%
ARC-Challenge: 36.1% $\rightarrow$ 79.9%
비 Markovian GRPO 대비: CoT 만으로 답변해야 하는 제약이 있음에도 불구하고, 비 Markovian 모델 (질문을 볼 수 있는 모델) 과 약 3~4%p 이내의 성능을 유지하며 경쟁력 있는 결과를 보임.

B. 교란 분석 (Perturbation Analysis)

CoT 를 의도적으로 손상시켰을 때 모델의 성능 저하를 측정하여 CoT 의 의존도를 평가했습니다.

Markovian 모델은 CoT 가 손상될 때 비 Markovian 모델보다 로그 확률 (Log-probability) 이 훨씬 크게 감소했습니다.
이는 Markovian 모델이 CoT 에 대한 인과적 의존도가 훨씬 강함을 의미하며, CoT 가 단순한 장식이 아니라 실제 추론의 핵심임을 입증합니다.

C. 교차 모델 평가 (Cross-Model Evaluation)

Llama 3.1 8B 가 생성한 CoT 를 Mistral, Phi, 심지어 GPT-2 에 입력했을 때, 이들 모델도 답변 정확도가 향상되었습니다.
GPT-2 는 복잡한 스텔라그래피를 해독할 수 없으므로, 이 결과는 CoT 가 자연어 기반의 보편적 추론 단계를 담고 있음을 강력히 시사합니다.

5. 의의 및 결론 (Significance)

이 연구는 언어 모델의 해석 가능성 (Interpretability) 을 높이기 위해 "모델이 생각하는 과정을 그대로 보여준다"는 이상적인 접근 대신, "모델이 CoT 를 통해 답변을 도출해야만 한다"는 구조적 제약을 통해 CoT 의 정보성을 보장하는 실용적인 접근법을 제시했습니다.

신뢰성 있는 CoT: CoT 가 답변에 인과적으로 필수적이므로, 이를 통해 모델의 실제 추론 과정을 더 신뢰할 수 있게 파악할 수 있습니다.
자연어 추론의 일반화: CoT 가 모델 간에 전이 가능하다는 사실은, 언어 모델이 특정 아키텍처에 의존하지 않는 보편적인 추론 능력을 학습할 수 있음을 보여줍니다.
향후 방향: 이 프레임워크는 고위험 분야 (의료, 법률 등) 에서 모델의 결정 과정을 검증하고, 모델이 숨겨진 편향을 갖지 않도록 하는 데 기여할 수 있습니다.

요약하자면, 이 논문은 **구조적 병목 (Structural Bottleneck)**을 통해 언어 모델이 CoT 를 통해 필수적인 추론을 수행하도록 강제함으로써, 더 투명하고 신뢰할 수 있는 추론 능력을 가진 모델을 학습시키는 성공적인 사례를 제시합니다.