Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

🚗 비유로 이해하는 핵심 아이디어: "스마트한 운전사"

기존의 대형 언어 모델 (LLM) 은 마치 모든 도로에서 항상 최고 속도로 달리는 스포츠카와 같습니다.

문제점: 직진하는 쉬운 길에서도 브레이크를 밟지 않고 계속 가속을 하니까 연료 (계산 자원) 를 많이 낭비합니다. 또한, 복잡한 교차로나 난간이 있는 길에서는 속도를 줄이지 못해 사고 (오류) 가 나기 쉽습니다.

이 논문이 제안하는 **적응형 잠재적 사고 체인 (Adaptive Latent CoT)**은 마치 스마트한 운전사와 같습니다.

쉬운 길 (예: "안녕하세요" 같은 쉬운 단어): "아, 이건 내가 바로 알겠네!"라고 생각 없이 바로 지나갑니다. (계산 시간 0~1 초)
어려운 길 (예: 복잡한 수학 문제나 논리 추론): "잠깐, 이거 좀 더 생각해봐야겠다."라고 멈춰서 여러 번 생각한 후 답을 냅니다. (계산 시간 5~10 초)

즉, 단어 하나하나마다 '얼마나 깊이 생각할지'를 스스로 결정하게 만든 것입니다.

🔍 이 기술이 어떻게 작동할까요? (3 단계 스토리)

1. "생각하는 시간"을 숨겨두다 (잠재적 사고, Latent CoT)

기존의 '생각의 사슬 (Chain-of-Thought)'은 AI 가 말로 "1+1 은 2 입니다. 왜냐하면..."이라고 입으로 말하며 생각하는 방식입니다. 하지만 이 연구는 AI 가 입을 다물고 머릿속에서만 생각하게 합니다.

비유: 시험을 볼 때, 답을 적기 전에 머릿속으로 "음... A 인가? 아니면 B 인가?"라고 속으로만 여러 번 고민하는 것과 같습니다. 이 '속으로의 고민'을 **잠재적 단계 (Latent Step)**라고 부릅니다.

2. "모든 차를 동시에" 움직이다 (병렬 처리, Parallel Masking)

기존 방식은 "생각 1 단계 → 생각 2 단계 → 생각 3 단계" 순서대로 하나씩 해야 해서 시간이 매우 느렸습니다.

비유: 마치 모든 차가 동시에 출발선에서 기다렸다가, 신호등이 바뀌면 한 번에 모두 이동하는 것처럼, 이 기술은 AI 가 문장 전체의 모든 단어에 대해 '생각'을 동시에 진행하게 합니다. 그래서 속도가 매우 빠릅니다.

3. "필요할 때만" 멈추다 (적응적 정지, Adaptive Halting)

가장 중요한 부분입니다. AI 는 각 단어가 얼마나 쉬운지 스스로 판단합니다.

쉬운 단어: "이건 바로 알겠다!" → 생각을 1 번만 하고 바로 답을 냅니다. (연료 절약!)
어려운 단어: "이건 헷갈리는데..." → 생각을 5 번, 10 번까지 계속합니다. (정확도 향상!)
핵심: AI 는 이미 정답을 확신하면 더 이상 생각하지 않고 멈춥니다. (이걸 '정답 인식 손실'이라고 부릅니다.)

🏆 왜 이 연구가 중요한가요? (기존 방식과의 비교)

특징	기존 AI (대규모 모델)	이 연구의 AI (적응형 사고)
생각 방식	모든 단어에 똑같은 양의 생각 (계산) 을 씀	단어마다 생각 양을 다르게 조절
효율성	쉬운 문제도 어렵게 풀어서 연료 낭비	쉬운 문제는 빠르게, 어려운 문제는 깊게
학습 비용	데이터를 많이 읽고 파라미터를 키워야 함	같은 데이터로 더 적은 연산으로 더 똑똑해짐
결과	계산량이 많을수록 성능이 좋아짐	계산량을 줄이면서도 성능이 오히려 더 좋아짐

📊 실험 결과 요약

성능: 이 기술을 적용한 AI 는 같은 크기의 다른 AI 들보다 더 적은 계산량으로 더 정확한 언어 모델링과 다양한 문제 해결 능력을 보여주었습니다.
적용: 14 억 개의 파라미터를 가진 모델이, 410 억 개의 파라미터를 가진 기존 모델보다 더 좋은 성적을 냈습니다! (즉, 작은 뇌로도 큰 성과를 낼 수 있음)

💡 한 줄 요약

"이제 AI 는 모든 질문에 똑같은 깊이로 답하지 않습니다. 쉬운 질문에는 가볍게, 어려운 질문에는 깊게 생각하며, 그 과정에서 연료 (계산 자원) 를 아끼면서도 더 똑똑해지는 새로운 방식을 발견했습니다."

이 기술은 AI 가 더 저렴하고, 더 빠르고, 더 똑똑해질 수 있는 길을 열어주었습니다. 마치 스마트한 운전사가 도로 상황에 맞춰 속도를 조절하며 연비를 극대화하는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 대규모 언어 모델 (LLM) 의 성능 향상을 위해 파라미터 수나 학습 데이터 양을 늘리는 기존 방식의 한계를 극복하기 위해 제안된 새로운 접근법을 다룹니다. 저자들은 파라미터를 확장하지 않고 토큰당 계산량 (Compute per token) 을 증가시키는 것에 초점을 맞추었으며, 이를 위해 **예측 전 각 토큰마다 가변 길이의 잠재적 사고 과정 (Latent Chain-of-Thought, CoT) 을 생성하는 '적응형 잠재 CoT (Adaptive Latent CoT)'**를 제안했습니다.

1. 문제 제기 (Problem)

기존 방식의 한계: LLM 의 성능 향상은 주로 모델 파라미터와 학습 데이터의 규모 확장 (Scaling) 에 의존해 왔으나, 고품질 데이터의 고갈과 모델 크기 증가에 따른 통신 비용 (Communication overhead) 증가로 인해 한계에 부딪혔습니다.
기존 계산 확장 기법의 결함:
- 재귀적 파라미터 공유 (Recursive Parameter Sharing): 같은 레이어 가중치를 재사용하여 깊이를 늘리는 방식은 학습 불안정성을 초래할 수 있습니다.
- 균일한 계산 할당: 대부분의 기존 방법 (예: PonderLM2 등) 은 모든 토큰에 동일한 계산량을 할당합니다. 이는 인간이 간단한 개념은 빠르게, 복잡한 추론은 더 많은 시간을 할애하는 **적응적 사고 (Adaptive Cognition)**와 다릅니다.
- 학습 비용: 기존 잠재 추론 (Latent Reasoning) 방법들은 종종 다단계 학습, 명시적 CoT 데이터 주석, 또는 추론 시에만 계산 절감 (학습 시에는 전체 계산 수행) 등의 문제를 가집니다.

2. 방법론 (Methodology)

저자들은 단일 단계 (One-stage) 프리트레이닝을 통해 일반 텍스트에서 자연스럽게 적응형 잠재 CoT 가 발현되도록 하는 프레임워크를 제안합니다. 핵심 구성 요소는 다음과 같습니다.

가. 병렬 마스킹 (Parallel Masking) 을 통한 효율성 확보

문제: 기존 잠재 CoT 는 시퀀스 길이 ( $L$ ) 와 잠재 단계 ( $K$ ) 모두에서 순차적 의존성을 가지므로 계산 비용이 $O(L \times K)$ 로 급증합니다.
해결: 주의를 (Attention) 2 차원 인덱스 (토큰 위치 $t$ $t$ , 잠재 단계 $k$ $k$ ) 로 확장하여 병렬 마스킹을 적용합니다.
- 특정 잠재 단계 $k$ 에서 모든 토큰 위치 $t$ 를 병렬로 계산할 수 있게 합니다.
- 이를 통해 순차적 의존성을 $O(K)$ 단계로 줄이고 GPU 의 대규모 병렬 처리 능력을 활용하여 학습 효율성을 극대화합니다.

나. 확률적 할당 메커니즘 (Probabilistic Halting)

각 토큰마다 **라우터 (Router)**가 다음 잠재 단계로 계속할지 멈출지 결정합니다.
도달 확률 (Reach Probability): 이전 단계들을 모두 통과하여 현재 단계에 도달할 확률을 누적합니다.
임계값 가지치기 (Threshold Pruning): 다음 단계로 도달할 확률이 임계값 ( $\tau$ ) 이하로 떨어지면 해당 토큰의 계산을 중단 (Prune) 하여 불필요한 FLOPs 를 절감합니다.
잔여 질량 재할당: 가지치기로 인해 손실된 확률 질량을 최종 실행된 상태에 재할당하여 전체 확률 합이 1 이 되도록 유지합니다.

다. 정답 인식 적응형 손실 함수 (Correctness-Aware Adaptive Loss)

동기: 이미 정답 토큰에 대한 확률 ( $p_{target}$ ) 이 높은 경우, 추가적인 계산은 성능 향상을 거의 주지 않거나 오히려 해가 될 수 있습니다 (그림 2 참조).
손실 함수: 모델이 이미 확신할 수 있는 토큰 ( $p_{target}$ $p_{t a r g e t}$ 이 높은 경우) 에 대해서는 추가 계산을 하지 않도록 유도하는 페널티 항을 추가합니다.
- $L_{adaptive} = \lambda \sum g^{(k)}_t \cdot \text{sg}((p^{(k)}_{target, t})^\beta)$
- 여기서 $g$ 는 계속할 확률, $\text{sg}$ 는 그래디언트 정지 (Stop-gradient) 입니다.
이를 통해 모델은 어려운 토큰에는 긴 잠재 CoT 를, 쉬운 토큰에는 짧거나 0 에 가까운 CoT 를 할당하도록 학습됩니다.

3. 주요 기여 (Key Contributions)

단일 단계 적응형 학습: 별도의 주석 데이터나 다단계 학습 없이, 일반 텍스트 프리트레이닝만으로 토큰별 적응형 계산 할당이 자연스럽게 발현되도록 했습니다.
학습 및 추론 비용 동시 절감: 병렬 마스킹과 임계값 가지치기를 통해 학습 시와 추론 시 모두 계산량을 줄이면서도 성능을 향상시켰습니다.
효율적인 계산 할당: 모델이 토큰의 난이도에 따라 계산 자원을 동적으로 분배하는 것을 학습시켰으며, 이는 인간적인 사고 방식과 유사합니다.

4. 실험 결과 (Results)

LLaMA 아키텍처 (410M, 1.4B 파라미터) 를 기반으로 한 실험 결과, 제안된 방법은 기존 베이스라인보다 우수한 성능을 보였습니다.

언어 모델링 (Perplexity): The Pile, WikiText, LAMBADA 등 모든 데이터셋에서 가장 낮은 Perplexity를 기록했습니다.
계산 효율성:
- LLaMA-1.4B 모델 (최대 잠재 CoT 길이 3) 은 가장 강력한 베이스라인 (PonderLM2) 보다 더 적은 학습 FLOPs(약 7.47 vs 17.47 $\times 10^{20}$ ) 로 더 나은 성능을 달성했습니다.
- 동일한 계산 예산 (Iso-FLOPs) 하에서 기존 순환 모델 (LoopedLM, PausedLM 등) 보다 낮은 검증 손실을 보였습니다.
다운스트림 작업: 0-shot 및 5-shot 설정에서 다양한 벤치마크 (ARC, HellaSwag, RACE 등) 에서 평균 정확도가 가장 높았습니다. 특히 410M 모델이 계산량이 비슷한 1.4B 일반 LLaMA 모델보다 평균 정확도에서 더 높은 성능을 보였습니다.
적응성 분석:
- 난이도 기반 할당: 쉬운 토큰 (낮은 Cross-Entropy) 은 평균 0~1 단계의 잠재 CoT 만 수행하는 반면, 어려운 토큰은 최대 단계까지 계산을 수행했습니다.
- 정답 확률과의 상관관계: 정답 토큰에 대한 확률 ( $p_{target}$ ) 이 높을수록 잠재 CoT 길이가 짧아지는 명확한 경향을 보였습니다.

5. 의의 및 결론 (Significance)

이 연구는 LLM 의 성능 향상을 위한 새로운 축을 제시합니다. 단순히 모델 크기나 데이터를 늘리는 대신, 토큰 단위에서 계산 자원을 지능적으로 할당하는 것이 더 효율적이고 강력한 성능 향상을 가져올 수 있음을 입증했습니다.

실용성: 학습 및 추론 시의 계산 비용을 동시에 절감할 수 있어, 제한된 컴퓨팅 자원 환경에서도 고성능 모델을 구축하는 데 기여합니다.
지능의 본질: 모델이 "어디에 더 많은 시간을 써야 하는지" 스스로 판단하도록 학습시킴으로써, 인간과 유사한 적응적 추론 능력을 모델 내부에 내재화했습니다.

결론적으로, Adaptive Latent CoT는 파라미터 효율성과 계산 효율성을 동시에 달성하는 차세대 LLM 아키텍처 설계의 중요한 방향성을 제시합니다.