Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능이 너무 길고 지루하게 생각하다 실수를 저지르는 현상"**을 해결하기 위한 새로운 방법을 제안합니다.

핵심 아이디어를 일상적인 비유로 설명해 드릴게요.

🧠 상황: "생각이 너무 많은 AI"

지금까지의 인공지능 (LLM) 은 어려운 문제를 풀 때, 마치 과도하게 걱정하는 학생처럼 행동했습니다.

"이게 맞을까? 저게 맞을까?"
"한 번 더 확인해 볼까? 두 번 더 확인해 볼까?"
"아니, 잠깐, 내가 방금 계산한 게 틀렸나?"

이렇게 생각 (CoT, 사고 과정) 을 너무 길게 늘어놓으면, 컴퓨터는 더 많은 전기를 쓰고 (비용 증가), 답을 내는 데 더 오래 걸립니다 (지연). 그런데 재미있는 점은, 생각이 길다고 해서 정답률이 비례해서 오르지 않는다는 것입니다. 오히려 너무 길어지면 헷갈려서 틀리는 경우가 많죠.

🛠️ 기존 방법의 문제점 (GRPO)

연구자들은 AI 가 더 효율적으로 생각하도록 가르치기 위해 'GRPO'라는 방법을 썼습니다. 이는 AI 가 여러 가지 답을 내게 한 뒤, 정답에 가까운 답을 칭찬하고 틀린 답을 꾸짖는 방식입니다.
하지만 이 방법에는 두 가지 치명적인 결함이 있었습니다:

데이터 낭비: 모든 답이 비슷하게 점수를 받으면, AI 가 "어떤 게 좋은 건지 모르겠다"며 학습을 멈춥니다. (비효율적인 데이터 활용)
사고의 경직화 (엔트로피 붕괴): AI 가 "가장 안전한 답"만 반복해서 말하게 되어, 창의적인 사고나 다양한 시도를 멈추게 됩니다.

✨ 새로운 해결책: FGO (세밀한 그룹 정책 최적화)

이 논문은 FGO라는 새로운 방법을 소개합니다. 이를 '똑똑한 교실의 선생님' 비유로 설명해 보겠습니다.

1. 학생들을 '정답 그룹'과 '오답 그룹'으로 나누기

선생님 (FGO) 은 AI 가 낸 여러 답을 한 번에 다 칭찬하거나 꾸짖지 않습니다.

정답을 맞춘 학생들 (Correct Group): 이 학생들에게는 **"짧고 명쾌하게 설명한 사람"**에게 더 큰 점수를 줍니다. "너는 3 줄로 끝냈는데 정답을 맞췄네? 최고야!"라고 칭찬합니다.
오답을 낸 학생들 (Incorrect Group): 이 학생들에게는 **"다양하게 시도해 본 사람"**에게 더 큰 점수를 줍니다. "너는 틀렸지만, 여러 가지 방법을 시도했으니 그 노력은 인정해. 다음엔 더 잘해."라고 격려합니다.

2. '길이'와 '혼란도'를 고려한 보상

기존에는 정답만 맞으면 됐지만, FGO 는 답변의 길이와 생각의 다양성까지 점수에 반영합니다.

짧고 확실한 생각: "정답을 맞췄는데 말이 짧다면?" → 보너스 점수! (불필요한 수다를 줄임)
오답 속의 창의성: "틀렸지만 다양한 각도로 생각했다면?" → 보너스 점수! (사고의 폭을 넓힘)

📊 결과: 더 짧고, 더 똑똑해짐

실험 결과, FGO 를 적용한 AI 는 다음과 같은 변화를 보였습니다:

생각의 길이 대폭 단축: 불필요한 수다 (과도한 생각) 를 줄여, 답변 길이가 약 60% 이상 짧아졌습니다. (예: 700 단어 → 300 단어)
정답률은 유지되거나 오히려 향상: 길이가 짧아졌는데도, 수학 문제나 논리 문제의 정답률은 떨어지지 않고 오히려 더 좋아졌습니다.
학습 효율성 100%: 모든 학습 데이터가 의미 있게 사용되어, AI 가 더 빠르게 성장합니다.
사고의 유연성 유지: AI 가 너무 경직되지 않고, 여전히 필요한 순간에는 스스로를 되돌아보는 (Self-reflection) 능력을 유지합니다.

💡 한 줄 요약

"FGO 는 AI 에게 '생각은 짧고 명쾌하게 하되, 틀렸을 때는 다양한 시도를 해봐'라고 가르치는 새로운 선생님입니다. 덕분에 AI 는 더 빠르고, 더 똑똑해졌으며, 불필요한 수다를 줄였습니다."

이 기술은 앞으로 AI 가 더 저렴하고 빠르게, 그리고 더 똑똑하게 작동하는 데 큰 역할을 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 은 복잡한 추론 작업 (수학, 코드 생성 등) 에서 체인 오브 씽킹 (Chain-of-Thought, CoT) 을 생성하는 능력이 탁월하지만, 다음과 같은 심각한 문제점을 가지고 있습니다.

불필요한 장황함: 모델이 과도하게 생각하거나 (overthinking), 불필요하게 이중 확인을 반복하여 CoT 길이가 비효율적으로 길어집니다.
성능 저하: CoT 길이가 길어진다고 해서 추론 능력이 선형적으로 향상되지 않으며, 오히려 과도한 사고로 인해 성능이 저하되는 경우가 많습니다.
기존 방법의 한계:
- 토큰 수준 압축: 중요하지 않은 토큰을 필터링하지만 논리적 일관성을 해칠 수 있습니다.
- 인스턴스 수준 압축: 추가적인 압축 LLM 이 필요하여 성능이 보조 모델에 의존적입니다.
- 조각 (Chunk) 수준 압축: 반복적인 분할과 검색으로 인해 계산 오버헤드가 큽니다.
GRPO 의 한계: 기존에 효율적인 RL 기반 학습 방법인 그룹 상대 정책 최적화 (GRPO) 는 두 가지 주요 결함이 있습니다.
1. 비효율적인 데이터 활용: 그룹 내 모든 응답이 동일한 보상을 받으면 (예: 모두 정답 또는 모두 오답), 이점 (advantage) 이 0 이 되어 학습이停滞됩니다.
2. 엔트로피 붕괴 (Entropy Collapse): 학습 과정에서 응답의 다양성이 급격히 감소하여 모델이 유사한 응답만 반복하게 됩니다.

2. 방법론 (Methodology: FGO)

저자들은 위 문제들을 해결하기 위해 세분화된 그룹 정책 최적화 (Fine-grained Group Policy Optimization, FGO) 를 제안합니다. FGO 는 GRPO 를 확장한 강화학습 (RL) 알고리즘으로, 다음과 같은 핵심 메커니즘을 가집니다.

A. 응답의 하위 그룹화 (Subgrouping)

모델이 생성한 응답 그룹을 정답 (Correct, $G^+$ ) 과 오답 (Incorrect, $G^-$ ) 으로 먼저 분류합니다.

B. 세분화된 보상 설계 (Fine-grained Reward Shaping)

각 하위 그룹 내에서 응답의 길이 (Length) 와 엔트로피 (Entropy, 불확실성/탐색 정도) 를 고려하여 가중치를 부여합니다.

정답 그룹 ( $G^+$ ) 처리:
- 목표: 정확도를 유지하면서 CoT 길이를 줄이고, 확신 있는 (낮은 엔트로피) 응답을 장려합니다.
- 가중치 ( $W^+$ ): 짧은 길이와 낮은 엔트로피를 가진 응답에 높은 가중치를 부여합니다.
- 공식: $W^+ = \text{Softmax} [ (\frac{\text{mean}(L^+)}{L^+})^\alpha \times (\frac{\text{mean}(H^+)}{H^+})^\beta ]$
- 여기서 $\alpha$ 는 길이 압축 강도, $\beta$ 는 탐색 정도를 조절합니다.
오답 그룹 ( $G^-$ ) 처리:
- 목표: 오답에 대한 페널티를 부과하되, 짧은 길이와 높은 엔트로피 (탐색적 사고) 를 가진 응답을 상대적으로 더 많이 학습시켜 새로운 해법을 찾도록 유도합니다.
- 보상 수정: 오답의 기본 보상을 0 에서 -1 로 변경하여 가중치 적용 시 0 이 되는 것을 방지합니다.
- 가중치 ( $W^-$ ): 짧은 길이와 높은 엔트로피를 가진 응답에 높은 가중치를 부여합니다.
- 공식: $W^- = \text{Softmax} [ (\frac{L^-}{\text{mean}(L^-)})^\alpha \times (\frac{\text{mean}(H^-)}{H^-})^\beta ]$

C. 이점 함수 및 최적화

세분화된 보상 ( $R^+, R^-$ ) 을 기반으로 기존 GRPO 의 이점 함수를 계산하여 정책 업데이트를 수행합니다. 이를 통해 데이터 활용률을 100% 로 높이고 엔트로피 붕괴를 방지합니다.

3. 주요 기여 (Key Contributions)

FGO 알고리즘 제안: 성능 저하 없이 긴 CoT 를 효과적으로 압축하는 새로운 RL 알고리즘을 개발했습니다.
GRPO 의 한계 극복: 하위 그룹화 및 세분화된 보상 할당을 통해 GRPO 의 '비효율적인 데이터 활용'과 '엔트로피 붕괴' 문제를 동시에 해결했습니다.
자아 성찰 (Self-Reflection) 보존: CoT 길이가 단축되더라도 모델이 자신의 추론을 평가하고 수정하는 능력 (자아 성찰) 이 유지됨을 실험적으로 입증했습니다.

4. 실험 결과 (Results)

저자들은 MATH500, AIME24, AMC23, Minerva 등 다양한 수학 벤치마크와 Qwen2.5-Math, DeepSeek-R1-Distill 등 여러 LLM 을 대상으로 실험을 수행했습니다.

CoT 압축 및 성능 향상:
- FGO 는 GRPO 및 Vanilla(기존) 모델 대비 상당한 토큰 길이 감소를 달성했습니다 (예: Qwen2.5-Math-1.5B 에서 평균 763 토큰 $\rightarrow$ 441 토큰).
- 동시에 정확도 (Accuracy) 는 유지하거나 오히려 향상시켰습니다 (예: MATH500 에서 40.0% $\rightarrow$ 68.6%).
- ACT (Accuracy per 100 Tokens): 토큰당 정확도 기여도가 GRPO 대비 크게 증가하여 계산 효율성이 극대화됨을 보여줍니다.
GRPO 한계 해결 검증:
- 데이터 활용: GRPO 는 훈련 샘플의 약 50~80% 에서 이점 계산이 무효화되었으나, FGO 는 100% 데이터 활용을 달성했습니다.
- 엔트로피: FGO 는 학습 중 엔트로피가 급격히 떨어지는 현상을 완화하여 모델의 탐색 능력을 유지했습니다.
하이퍼파라미터 분석: 길이 압축 강도 $\alpha$ 를 0.01 로 설정했을 때 정확도와 효율성 간의 최적 균형을 이룸을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 추론 과정에서 발생하는 비효율적인 계산 비용과 지연 시간을 해결하는 실용적인 방법을 제시합니다. FGO 는 단순히 CoT 를 짧게 만드는 것을 넘어, 더 짧고 정확한 추론 경로를 학습하도록 유도함으로써, 고비용의 장문 CoT 모델 배포를 가능하게 합니다. 또한, 기존 RL 기반 학습 방법론의 근본적인 결함 (데이터 낭비, 엔트로피 붕괴) 을 개선하여, 향후 더 효율적인 LLM 학습 프레임워크의 기초를 마련했다는 점에서 중요한 의의를 가집니다.