Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

이 논문은 복잡한 추론 문제에서 발생하는 '학습 절벽' 문제를 해결하기 위해 모델의 학습이 정체될 때만 단계별 힌트를 제공하는 점진적 훈련 프레임워크인 Scaf-GRPO 를 제안하고, 이를 통해 Qwen2.5-Math-7B 모델의 AIME24 벤치마크 성능을 기존 GRPO 대비 44.3% 향상시켰음을 입증합니다.

Xichen Zhang, Sitong Wu, Yinghao Zhu, Haoru Tan, Shaozuo Yu, Ziyi He, Jiaya Jia

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏗️ 핵심 비유: "혼자서 못 하는 문제를 어떻게 가르칠까?"

지금까지 AI(대형 언어 모델) 는 수학이나 논리 문제를 풀 때, **정답을 맞히면 칭찬 (보상)**을 받고 틀리면 **무시 (0 점)**를 받으며 학습했습니다.

하지만 여기서 큰 문제가 생깁니다.
AI 가 자신의 능력 밖인 아주 어려운 문제를 만나면, 아무리 시도해봐도 항상 틀립니다.

  • 결과: AI 는 계속 0 점만 받습니다.
  • 문제: 0 점만 받으면 AI 는 "어떻게 고쳐야 할지" 전혀 알 수 없습니다. (학습 신호가 사라지는 '학습 절벽' 현상)
  • 기존 방법의 한계: 다른 연구들은 이때 "정답의 앞부분을 보여주고 나머지를 쓰게" 했습니다. 하지만 이는 AI 가 정답을 **따라만 쓰는 것 (모방)**일 뿐, 스스로 생각하는 능력을 키워주지 못합니다. 마치 자전거 바퀴를 붙여주어 타게 하는 것과 비슷합니다.

✨ Scaf-GRPO 의 해결책: "지혜로운 선생님"

이 논문이 제안한 Scaf-GRPO"스케일링 (비계)" 개념을 적용합니다.
건축에서 비계는 건물을 지을 때 임시로 세우는 발판입니다. 건물이 스스로 서면 비계는 제거하죠. 이 방법도 비슷합니다.

  1. 혼자서 해보게 하기 (Phase 1):
    먼저 AI 가 스스로 문제를 풀게 합니다. 만약 AI 가 혼자서 풀 수 있다면, 선생님 (힌트) 은 개입하지 않습니다. AI 가 스스로 성장할 기회를 주는 것입니다.

  2. 절대적 절벽을 감지하기:
    AI 가 아무리 노력해도 계속 틀리는 '진짜 어려운 문제'를 감지합니다. 이때부터는 선생님이 개입합니다.

  3. 단계별 힌트 제공 (Phase 2):
    정답을 바로 알려주는 게 아니라, 가장 추상적인 힌트부터 시작해 점차 구체적으로 도와줍니다.

    • 1 단계 (지식 힌트): "이 문제는 어떤 공식을 써야 해?" (가장 약한 도움)
    • 2 단계 (계획 힌트): "이 공식을 어떻게 적용할지 큰 그림을 그려봐." (중간 도움)
    • 3 단계 (해결 힌트): "이 숫자를 대입해서 계산해봐." (구체적인 도움)

    AI 가 가장 약한 힌트만으로도 문제를 풀 수 있다면, 그 힌트만 받고 학습합니다. 만약 그래도 안 되면 조금 더 구체적인 힌트를 줍니다.

    • 핵심: AI 가 스스로 답을 찾아내는 과정을 경험하게 하여, 힌트가 없어도 나중에 그 문제를 혼자 풀 수 있게 만드는 것입니다.

🚀 왜 이 방법이 더 좋은가요?

  • 기존 방법 (정답 앞부분 보여주기): 자전거 바퀴를 떼어내면 바로 넘어집니다. AI 가 정답을 외우는 것뿐입니다.
  • Scaf-GRPO (단계별 힌트): AI 가 스스로 균형을 잡는 법을 배웁니다. 비계 (힌트) 는 일시적으로만 쓰이고, AI 는 그 경험을 통해 실제 능력을 키웁니다.

📊 실제 성과

이 방법을 적용한 실험 결과, 기존 방식 (Vanilla GRPO) 보다 수학 문제 해결 능력이 44% 이상 향상되었습니다. 특히 AI 가 혼자서는 절대 풀 수 없던 '학습 절벽'에 막혀 있던 문제들도, 이 방법을 통해 해결할 수 있게 되었습니다.

💡 요약

이 논문은 **"AI 가 어려운 문제에 부딪혀 멈춰서지 않도록, 정답을 다 알려주는 대신 '가장 필요한 최소한의 힌트'를 단계적으로 주어 스스로 성장하게 만든다"**는 혁신적인 아이디어를 제시합니다.

마치 아이가 자전거를 탈 때, 처음엔 부모님이 뒤에서 잡아주다가 (힌트), 아이가 균형을 잡으면 손을 떼어주는 (비계 제거) 것과 같은 원리입니다. 이를 통해 AI 는 더 이상 정답을 외우는 기계가 아니라, 스스로 문제를 해결하는 지능을 갖추게 됩니다.