Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

이 논문은 그룹 상대 정책 최적화 (GRPO) 의 데이터 활용 비효율성과 엔트로피 붕괴 문제를 해결하면서, 대형 언어 모델의 불필요한 추론 과정을 효율적으로 압축하여 성능 저하 없이 계산 비용과 지연 시간을 줄이는 '세분화된 그룹 정책 최적화 (FGO)' 알고리즘을 제안합니다.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능이 너무 길고 지루하게 생각하다 실수를 저지르는 현상"**을 해결하기 위한 새로운 방법을 제안합니다.

핵심 아이디어를 일상적인 비유로 설명해 드릴게요.

🧠 상황: "생각이 너무 많은 AI"

지금까지의 인공지능 (LLM) 은 어려운 문제를 풀 때, 마치 과도하게 걱정하는 학생처럼 행동했습니다.

  • "이게 맞을까? 저게 맞을까?"
  • "한 번 더 확인해 볼까? 두 번 더 확인해 볼까?"
  • "아니, 잠깐, 내가 방금 계산한 게 틀렸나?"

이렇게 생각 (CoT, 사고 과정) 을 너무 길게 늘어놓으면, 컴퓨터는 더 많은 전기를 쓰고 (비용 증가), 답을 내는 데 더 오래 걸립니다 (지연). 그런데 재미있는 점은, 생각이 길다고 해서 정답률이 비례해서 오르지 않는다는 것입니다. 오히려 너무 길어지면 헷갈려서 틀리는 경우가 많죠.

🛠️ 기존 방법의 문제점 (GRPO)

연구자들은 AI 가 더 효율적으로 생각하도록 가르치기 위해 'GRPO'라는 방법을 썼습니다. 이는 AI 가 여러 가지 답을 내게 한 뒤, 정답에 가까운 답을 칭찬하고 틀린 답을 꾸짖는 방식입니다.
하지만 이 방법에는 두 가지 치명적인 결함이 있었습니다:

  1. 데이터 낭비: 모든 답이 비슷하게 점수를 받으면, AI 가 "어떤 게 좋은 건지 모르겠다"며 학습을 멈춥니다. (비효율적인 데이터 활용)
  2. 사고의 경직화 (엔트로피 붕괴): AI 가 "가장 안전한 답"만 반복해서 말하게 되어, 창의적인 사고나 다양한 시도를 멈추게 됩니다.

✨ 새로운 해결책: FGO (세밀한 그룹 정책 최적화)

이 논문은 FGO라는 새로운 방법을 소개합니다. 이를 '똑똑한 교실의 선생님' 비유로 설명해 보겠습니다.

1. 학생들을 '정답 그룹'과 '오답 그룹'으로 나누기

선생님 (FGO) 은 AI 가 낸 여러 답을 한 번에 다 칭찬하거나 꾸짖지 않습니다.

  • 정답을 맞춘 학생들 (Correct Group): 이 학생들에게는 **"짧고 명쾌하게 설명한 사람"**에게 더 큰 점수를 줍니다. "너는 3 줄로 끝냈는데 정답을 맞췄네? 최고야!"라고 칭찬합니다.
  • 오답을 낸 학생들 (Incorrect Group): 이 학생들에게는 **"다양하게 시도해 본 사람"**에게 더 큰 점수를 줍니다. "너는 틀렸지만, 여러 가지 방법을 시도했으니 그 노력은 인정해. 다음엔 더 잘해."라고 격려합니다.

2. '길이'와 '혼란도'를 고려한 보상

기존에는 정답만 맞으면 됐지만, FGO 는 답변의 길이생각의 다양성까지 점수에 반영합니다.

  • 짧고 확실한 생각: "정답을 맞췄는데 말이 짧다면?" → 보너스 점수! (불필요한 수다를 줄임)
  • 오답 속의 창의성: "틀렸지만 다양한 각도로 생각했다면?" → 보너스 점수! (사고의 폭을 넓힘)

📊 결과: 더 짧고, 더 똑똑해짐

실험 결과, FGO 를 적용한 AI 는 다음과 같은 변화를 보였습니다:

  • 생각의 길이 대폭 단축: 불필요한 수다 (과도한 생각) 를 줄여, 답변 길이가 약 60% 이상 짧아졌습니다. (예: 700 단어 → 300 단어)
  • 정답률은 유지되거나 오히려 향상: 길이가 짧아졌는데도, 수학 문제나 논리 문제의 정답률은 떨어지지 않고 오히려 더 좋아졌습니다.
  • 학습 효율성 100%: 모든 학습 데이터가 의미 있게 사용되어, AI 가 더 빠르게 성장합니다.
  • 사고의 유연성 유지: AI 가 너무 경직되지 않고, 여전히 필요한 순간에는 스스로를 되돌아보는 (Self-reflection) 능력을 유지합니다.

💡 한 줄 요약

"FGO 는 AI 에게 '생각은 짧고 명쾌하게 하되, 틀렸을 때는 다양한 시도를 해봐'라고 가르치는 새로운 선생님입니다. 덕분에 AI 는 더 빠르고, 더 똑똑해졌으며, 불필요한 수다를 줄였습니다."

이 기술은 앞으로 AI 가 더 저렴하고 빠르게, 그리고 더 똑똑하게 작동하는 데 큰 역할을 할 것으로 기대됩니다.