Each language version is independently generated for its own context, not a direct translation.

🎓 "모든 단어가 필요한 건 아닙니다": AI 학습을 더 똑똑하고 가볍게 만드는 새로운 방법

이 논문은 거대한 언어 모델 (LLM) 이 수학이나 논리 문제를 풀 때, 매번 모든 단어를 다시 계산하며 학습할 필요가 없다는 놀라운 사실을 발견했습니다. 마치 학생이 시험을 풀 때, 정답을 확인하는 과정은 전체를 보지만, 실력을 기르기 위해 다시 공부할 때는 가장 중요한 부분만 골라서 해도 된다는 아이디어입니다.

이 기술을 NAT(Not All Tokens are Needed, 모든 토큰이 필요하지 않다) 라고 부릅니다.

🧠 왜 이런 문제가 생겼을까요? (비유: 거대한 도서관의 청소)

지금까지 AI 가 학습할 때는 다음과 같은 방식이 사용되었습니다.

생성 (Rollout): AI 가 긴 이야기 (예: 수학 문제 풀이 과정) 를 써냅니다.
검토 (Reward): 사람이나 프로그램이 그 이야기를 다 읽고 "정답이다/오답이다"라고 점수를 줍니다.
학습 (Backpropagation): AI 는 생긴 이야기의 모든 단어를 다시 한 번 뒤적거리며 "어디가 틀렸지? 다음엔 어떻게 고쳐야 하지?"라고 계산합니다.

문제점:
이유를 설명하는 이야기 (Chain-of-Thought) 가 길어질수록, AI 는 모든 단어를 다시 계산해야 하므로 컴퓨터의 메모리 (RAM) 가 터지거나, 학습 속도가 매우 느려집니다.

비유: 도서관 사서가 책 한 권을 정리할 때, 책의 첫 페이지부터 마지막 페이지까지 모든 페이지를 다시 펼쳐서 확인해야 한다면 시간이 얼마나 걸리겠습니까? 하지만 사실 중요한 건 오류가 있는 부분이나 핵심 결론일 뿐입니다.

💡 NAT 의 해결책: "필요한 부분만 다시 읽기"

NAT 는 이 문제를 해결하기 위해 두 가지 똑똑한 방법을 제안합니다.

1. 무작위 샘플링 (URS): "눈을 감고 책장 넘기기"

방법: AI 가 쓴 긴 이야기에서 단어를 무작위로 50% 정도만 골라냅니다.
작동 원리: "이 단어는 학습에 포함하고, 저 단어는 건너뛰자"라고 랜덤하게 결정합니다.
한계: 하지만 현대 AI 는 문맥을 이해하기 위해 앞서 나온 모든 단어를 기억해야 합니다. 그래서 뒤쪽 단어를 건너뛰더라도, 앞쪽 단어를 읽는 데는 여전히 많은 시간이 걸립니다. (앞쪽 페이지를 다 펼쳐야 뒤쪽을 볼 수 있으니까요.)

2. 랜덤 접두사 자르기 (RPC): "책의 끝부분을 잘라내기" ⭐ (이게 핵심입니다!)

방법: AI 가 쓴 이야기의 앞부분 (접두사) 만 남기고, 뒤쪽을 무작위로 잘라냅니다.
- 예: 100 단어로 쓴 글이라면, 50 단어까지만 남기고 나머지는 잘라버립니다.
왜 좋은가요?
- 메모리 절약: 뒤쪽 단어가 없으니, 컴퓨터는 그 부분을 계산할 필요가 없습니다.
- 시간 단축: 앞쪽만 계산하면 되니 속도가 빨라집니다.
- 공정성 유지: "잘라낸 부분도 학습에 반영해야 하지 않나요?"라는 의문이 들 수 있습니다. NAT 는 HT(Horvitz-Thompson) 보정이라는 수학적 마법을 사용합니다.
  - 비유: 만약 100 명 중 50 명만 뽑아 설문을 했다면, 2 배의 가중치를 주어 전체 100 명의 의견을 대표하게 만드는 것과 같습니다. 잘라낸 뒤쪽 단어도 수학적으로 보정하여 전체 학습 효과를 유지합니다.

📊 실제 효과는 어떨까요?

논문의 실험 결과 (Qwen3-8B 모델 기준) 는 다음과 같습니다.

성능: 전체 단어를 다 학습한 경우 (GRPO) 와 50% 만 학습한 경우 (RPC) 의 수학 문제 풀이 정확도는 거의 똑같았습니다.
메모리: 피크 메모리 사용량이 약 18% 감소했습니다. (큰 서버에서 이 정도면 엄청난 절약입니다.)
시간: 학습 시간이 약 29% 단축되었습니다.

비유: 원래는 100 페이지의 책을 다 읽고 요약하는 데 10 시간이 걸렸다면, NAT 를 쓰면 중요한 앞 50 페이지만 읽고 요약해도 10 시간짜리 시험에서 같은 점수를 받으면서, 7 시간만 투자하면 됩니다.

🚫 다른 방법들은 왜 안 될까요?

논문을 보면 "단순히 뒤쪽 50% 를 잘라내는 것 (Deterministic Truncation)"은 성능이 떨어졌습니다.

이유: 항상 같은 위치에서 자르면, AI 는 "결론 부분"이나 "검증 단계"를 전혀 배우지 못하게 됩니다. 마치 학생이 시험의 정답 부분만 잘라내서 공부하면, 왜 그 답이 나왔는지 이해하지 못하게 되는 것과 같습니다.
NAT 의 RPC 는: 무작위로 자르기 때문에, 때로는 앞부분만, 때로는 중간까지, 때로는 거의 끝까지 학습하게 되어 공정하게 모든 부분을 배울 기회를 줍니다.

🌟 결론: AI 의 미래를 위한 '스마트한 절약'

이 연구는 **"더 많은 데이터와 더 긴 문장을 무조건 다 학습해야 한다"**는 고정관념을 깨뜨렸습니다.

핵심 메시지: AI 가 논리적으로 추론할 때, 모든 단어가 중요한 것은 아닙니다.
NAT 의 역할: 불필요한 계산을 줄여주면서도, 수학적으로 정확한 학습 신호를 유지하게 해줍니다.
미래: 이 기술이 적용되면, AI 는 더 긴 문장을 더 빠르게, 더 적은 전산 비용으로 학습할 수 있게 되어, 복잡한 과학 문제나 긴 대화에서도 더 똑똑해질 수 있습니다.

한 줄 요약:

"AI 가 긴 글을 쓸 때, 모든 글자를 다 다시 계산할 필요는 없습니다. 중요한 앞부분만 잘게 잘라내서 (무작위로) 학습해도 똑똑해지고, 컴퓨터도 훨씬 가볍게 돌아갑니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 의 강화 학습 (RL), 특히 검증 가능한 보상 (Verifiable Rewards, RLVR) 을 활용한 추론 (Chain-of-Thought, CoT) 능력 향상은 중요한 진전을 이루고 있습니다. 그러나 긴 추론 경로를 가진 RL 을 확장하는 데에는 다음과 같은 심각한 병목 현상이 존재합니다.

전체 토큰에 대한 역전파 비용: 기존 RLVR 파이프라인 (예: GRPO) 은 생성된 모든 토큰에 대해 정책 경계 (policy gradient) 를 계산하고 역전파합니다.
리소스 비효율성: 긴 CoT 경로는 활성화 (activation) 메모리 사용량을 급격히 증가시키고, FLOPs(연산량) 를 늘려 메모리 부족 (OOM) 이나 불안정한 최적화를 유발합니다.
생성 vs 학습의 불일치: 최근 연구들은 추론 (Rollout) 속도를 높이기 위해 최적화되었지만, 학습 단계 (Forward/Backward pass) 는 여전히 전체 시퀀스를 처리해야 하므로 병목이 됩니다. 즉, 더 빠른 생성을 하더라도 이를 효율적으로 학습할 수 없어 확장성에 한계가 있습니다.
핵심 질문: "강력한 RL 추론기를 훈련시키기 위해 정말 모든 토큰이 필요한가?" (대부분의 토큰은 기계적인 이어쓰기나 저엔트로피 내용이며, 중요한 의사결정 지점만 학습 신호에 기여할 수 있음).

2. 방법론 (Methodology)

저자들은 **NAT (Not All Tokens are Needed)**라는 통합 프레임워크를 제안합니다. 이는 보상 계산은 전체 응답을 기반으로 하되, 정책 업데이트 (역전파) 에는 선택된 토큰 서브셋만 사용하는 방식입니다.

핵심 기술: 호브릿 - 톰슨 (Horvitz-Thompson, HT) 재가중치

NAT 의 핵심은 편향 없는 (Unbiased) 부분 토큰 정책 경계 추정기를 만드는 것입니다.

토큰 마스킹: 각 토큰 $t$ 에 포함 확률 $p_{i,t}$ 를 부여하고, 베르누이 분포에 따라 마스킹 ( $m_{i,t}$ ) 합니다.
재가중치: 선택된 토큰의 손실 값을 $1/p_{i,t}$ 로 가중치하여 보정합니다.
수학적 보장: 이 HT 추정기는 원래 전체 시퀀스 RLVR 경계의 **편향 없는 추정치 (Unbiased Estimator)**임을 수학적으로 증명했습니다. 즉, 기대값상으로는 전체 토큰을 사용한 학습과 동일한 학습 신호를 유지합니다.

구현 전략 (Two Selection Schemes)

NAT 는 두 가지 구체적인 토큰 선택 방식을 구현했습니다.

균일 무작위 샘플링 (URS, Uniform Random Sampling):
- 모든 토큰을 독립적으로 확률 $p$ 로 샘플링합니다.
- 단점: 역전파 비용은 줄이지만, 인과적 (Causal) 어텐션 구조 때문에 Forward pass(전방향 계산) 비용은 줄어들지 않습니다. (이전 토큰을 모두 처리해야 하므로).
무작위 접두사 절단 (RPC, Random Prefix Cutting):
- 각 응답의 **연속된 접두사 (Prefix)**만 무작위로 선택합니다.
- 길이 $L_i$ 를 무작위로 샘플링하여 $t \le L_i$ 인 토큰만 포함합니다.
- 장점:
  - Forward/Backward 모두 절감: 모델이 처리해야 할 시퀀스 길이가 실제 줄어듭니다.
  - 편향 없음: 결정론적 절단 (Deterministic Truncation) 과 달리, 모든 위치가 0 이 아닌 포함 확률을 가지므로 HT 보정이 가능하고 체계적 편향이 없습니다.
  - 구조적 정규화: 드롭아웃과 유사하게 작동하며, 장기적 신용 할당 (Credit Assignment) 문제를 완화합니다.

3. 주요 기여 (Key Contributions)

통합 프레임워크 제안: 보상 평가는 전체 응답을 유지하면서 정책 최적화는 마스킹된 토큰 서브셋만 사용하는 NAT 프레임워크를 제시했습니다.
편향 없는 이론적 근거: HT 재가중치를 통해 어떤 양의 포함 확률에서도 전체 토큰 GRPO 경계의 편향 없는 추정치를 보장함을 증명했습니다.
실용적인 성능 향상: 수학 추론 벤치마크에서 전체 토큰 GRPO 와 동등한 성능을 유지하면서 역전파 토큰 수를 최대 50% 까지 줄였습니다.
- RPC 의 효과: Qwen3-8B 모델 기준, 피크 GPU 메모리 18% 감소, 학습 시간 (Forward/Backward) 29% 단축을 달성했습니다.

4. 실험 결과 (Results)

데이터셋 및 모델: DAPO-Math-17K 데이터셋, Qwen2.5-Math-7B 및 Qwen3-8B 모델, GRPO 알고리즘 사용.
벤치마크: MATH, AIME24, AIME25.
성능 비교:
- URS & RPC: 전체 토큰 GRPO 와 통계적으로 유의미한 차이 없이 (95% 신뢰구간 중첩) 동등한 정확도 (Acc@16, Pass@16) 를 달성했습니다.
- Det. Trunc. (결정론적 절단): 50% 토큰만 고정적으로 유지하는 방식은 성능이 현저히 떨어지고 분산이 커졌습니다. (후반부 검증 단계 학습 신호를 잃기 때문).
시스템 효율성:
- GPU 메모리: RPC 는 GRPO 대비 약 18~20% 의 피크 메모리 절감 효과를 보였습니다. (URS 는 Forward pass 가 줄어들지 않아 메모리 절감 효과가 미미함).
- 학습 시간: RPC 는 GRPO 대비 학습 시간 (추론 제외) 을 약 29% 단축했습니다.

5. 의의 및 결론 (Significance)

확장성 (Scalability): 긴 CoT 추론이 필수적인 현대 AI 시스템에서, 토큰 길이가 부과하는 숨겨진 비용 (Hidden Tax) 을 해결합니다.
직교적 접근 (Orthogonal Approach): 기존 롤아웃 (Rollout) 생성 최적화 (예: vLLM, Speculative Decoding) 와 충돌하지 않으며, 학습 단계의 병목 현상을 해결하여 시스템 전체 효율성을 높입니다.
이론과 실전의 균형: 체계적 편향을 피하면서도 계산 자원을 효율적으로 분배하는 무작위 접두사 절단 (RPC) 전략은 긴 시퀀스 RL 학습을 위한 실용적이고 이론적으로 타당한 해결책을 제시합니다.

요약하자면, 이 논문은 **"모든 토큰을 역전파할 필요가 없다"**는 통찰을 바탕으로, **HT 보정을 통한 무작위 토큰 샘플링 (특히 RPC)**이 성능 저하 없이 RL 학습 비용과 메모리 사용량을 획기적으로 줄일 수 있음을 증명했습니다.

Not all tokens are needed(NAT): token efficient reinforcement learning