Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization

이 논문은 그룹 기반 정책 최적화 (GRPO) 의 계산 비용을 줄이면서도 중요도 샘플링 보정을 통해 편향 없는 기울기 추정을 보장하는 '동적 가지치기 정책 최적화 (DPPO)' 프레임워크와 데이터 희소성을 완화하는 '밀집 프롬프트 패킹' 기법을 제안하여, 다양한 모델과 벤치마크에서 학습 속도와 정확도를 동시에 향상시킵니다.

Haodong Zhu, Yangyang Ren, Yanjing Li, Mingbao Lin, Linlin Yang, Xuhui Liu, Xiantong Zhen, Haiguang Liu, Baochang Zhang

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "모든 학생을 다 시험에 붙이다?"

지금까지 AI 가 논리력을 기르는 방식 (GRPO 라는 방법) 은 다음과 같았습니다.

  • 상황: AI 에게 수학 문제 하나를 던집니다.
  • 방법: AI 가 그 문제에 대해 **100 가지의 서로 다른 답안 (생각)**을 만들어냅니다.
  • 평가: 그 100 개의 답안 중 어떤 게 맞고 어떤 게 틀린지, 어떤 게 더 좋은지 모두 확인해서 점수를 매깁니다.
  • 문제: 100 개의 답안을 모두 만들어보고 평가하는 과정은 엄청나게 많은 시간과 컴퓨터 자원 (전기세) 을 낭비합니다. 마치 한 문제를 풀기 위해 100 명의 학생을 모두 시험장에 불러모아 시험을 치르고, 그중 90 명은 그냥 버리는 것과 비슷합니다.

최근에는 "쓸모없는 답안 (점수가 낮은 것) 은 미리 제외하자"라는 시도가 있었지만, 이는 치명적인 단점이 있었습니다.

  • 비유: "어떤 학생은 시험을 잘 못 봤으니 아예 시험장에 오지 마라"라고 하면, 그 학생이 나중에 어떻게 변할지 알 수 없게 됩니다. 결과적으로 AI 는 진짜 중요한 학습 기회를 놓치게 되어 오히려 실력이 떨어지거나 편향된 학습을 하게 됩니다.

2. 해결책: DPPO 의 두 가지 핵심 전략

이 논문은 "쓸모없는 답안을 잘라내되, AI 가 공부를 망치지 않게 보상을 해주는" 방법을 고안했습니다.

전략 1: "똑똑한 가지치기 + 보상 카드" (Unbiased Dynamic Pruning)

  • 가지치기: AI 가 100 개의 답안을 만들면, 그중 가장 점수가 낮고 정보량이 적은 70~90 개는 미리 잘라냅니다. (컴퓨터 부하 감소)
  • 보상 카드 (중요): 하지만 잘라낸 학생들도 나중에 다시 돌아올 수 있게 **가상의 '보상 카드'**를 남깁니다. 나중에 학습할 때, 남은 10~30 개의 답안만 가지고 학습하더라도, 잘라낸 70 개의 학생이 있었다는 가정을 수학적으로 계산해서 보정해줍니다.
  • 결과: 컴퓨터는 30 명만 가르치면 되지만, 학습 효과는 100 명을 가르친 것과 완전히 똑같아집니다. (편향 없이 속도만 빨라짐)

전략 2: "빈 자리 채우기" (Dense Prompt Packing)

  • 문제: 답안을 잘라내면 컴퓨터 메모리 공간에 빈자리가 생기고, 컴퓨터가 일을 할 때 '빈손'으로 기다리는 시간이 생깁니다. (비효율)
  • 해결: 마치 비행기 좌석을 채우듯, 잘라낸 자리 대신 다른 문제들을 꽉꽉 채워 넣는 기술입니다.
  • 비유: "A 학생은 잘라냈으니, 그 자리에 B, C, D 학생을 더 앉혀서 비행기 (컴퓨터) 가 꽉 차게 만듭니다." 이렇게 하면 컴퓨터가 쉬는 시간 없이 계속 일을 할 수 있어 속도가 더 빨라집니다.

3. 실제 효과: "더 빠르고, 더 똑똑해짐"

이 방법을 적용한 실험 결과는 놀라웠습니다.

  • 속도: 학습 속도가 약 2.4 배 빨라졌습니다. (기존에 10 시간 걸리던 게 4 시간 반으로 줄어든 셈)
  • 성능: 단순히 빠르기만 한 게 아니라, 정답률도 오히려 3% 이상 향상되었습니다.
  • 이유: AI 가 '쉬운 문제'나 '이미 다 아는 문제'에 시간을 낭비하지 않고, **가장 헷갈리고 어려운 문제 (학습의 최전선)**에만 집중하게 되었기 때문입니다.

4. 한 줄 요약

**"AI 가 문제를 풀 때, 쓸데없는 답안 100 개를 다 만들지 않고, 중요한 10 개만 뽑아내되 수학적으로 보정해서 '100 개를 다 한 것'만큼 똑똑하게, 그리고 2 배 이상 빠르게 가르쳐주는 새로운 방법"**입니다.

이 기술은 앞으로 AI 가 복잡한 수학, 코딩, 논리 문제를 풀 때 필요한 컴퓨터 비용과 시간을 획기적으로 줄여주어, 더 많은 사람이 고성능 AI 를 이용할 수 있게 만드는 중요한 발걸음이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →