Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

이 논문은 고정된 롤아웃 할당의 비효율성을 해결하기 위해 경량 가우시안 프로세스 모델을 통해 각 프롬프트의 성공 확률을 예측하고 이를 기반으로 분산을 최소화하는 볼록 최적화를 수행하여 롤아웃을 동적으로 할당하는 'VIP' 전략을 제안하여 온라인 강화학습의 샘플링 효율성을 크게 향상시킵니다.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma, Yuzhi Zhao, Ruifeng She, Viet Anh Nguyen

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: 모든 학생에게 똑같은 양의 문제지를 주는 비효율

지금까지 AI 를 가르치는 방법 (GRPO 같은 기존 기술) 은 마치 수학 선생님이 100 명의 학생에게 모두 똑같이 16 문제씩 풀게 하는 것과 같습니다.

  • 쉬운 문제: 학생이 이미 100% 정답을 아는 문제입니다. 16 번이나 풀어도 새로운 배움이 없습니다. (시간 낭비)
  • 너무 어려운 문제: 학생이 100% 틀리는 문제입니다. 16 번이나 풀어도 답을 못 냅니다. (시간 낭비)
  • 적당한 문제: 학생이 50% 는 맞고 50% 는 틀리는 문제입니다. 이 문제들을 풀 때 가장 많은 배움이 일어납니다.

기존 방식은 이 '쉬운 문제'와 '어려운 문제'에도 똑같은 시간과 노력 (컴퓨터 자원) 을 써버려서, 정작 중요한 '적당한 문제'를 가르칠 시간이 부족해지는 문제가 있었습니다.

2. VIP 의 해결책: 똑똑한 자원 배분 시스템

이 논문에서 제안한 VIP(Variance-Informed Predictive allocation) 는 **"각 학생의 실력을 미리 예측해서, 필요한 만큼만 문제를 내주는 똑똑한 조교"**입니다.

1 단계: 학생의 실력을 '예측'하다 (가우시안 프로세스)

조교는 학생들의 과거 풀이 기록을 보고, "아, 이 학생은 A 문제는 90% 확률로 풀고, B 문제는 50% 확률로 풀겠구나"라고 예측합니다.

  • 여기서는 복잡한 수학 공식 대신, **구름 모양의 지도 (가우시안 프로세스)**를 그려서 학생들의 실력 변화를 부드럽게 예측합니다.

2 단계: '현금'을 가장 필요한 곳에 '투자'하다 (최적화)

조교는 총 100 개의 문제지 (컴퓨터 자원) 만 가지고 있습니다. 이걸 어떻게 나누어야 할까요? VIP 는 다음과 같이 분배합니다.

  • 이미 다 아는 학생 (쉬운 문제): 문제지를 2~3 장만 줍니다. (이미 답을 알기 때문에 더 풀 필요 없음)
  • 아예 모르는 학생 (너무 어려운 문제): 문제지를 3~4 장만 줍니다. (아무리 풀어도 안 되니 너무 많은 시간을 쓸 필요 없음)
  • 아슬아슬한 학생 (적당한 문제): 문제지를 20~30 장이나 줍니다. 이곳에서 가장 큰 성장 (학습 효과) 이 일어나기 때문입니다.

이 과정을 수학적으로 계산하여, 전체적인 학습의 '흔들림 (분산)'을 가장 작게 만드는 최적의 배분을 찾아냅니다.

3. 왜 이것이 중요한가요? (결과)

이 방식을 적용한 실험 결과, 같은 양의 컴퓨터 자원 (시간과 돈) 으로 훨씬 더 똑똑한 AI를 만들 수 있었습니다.

  • 기존 방식: 100 달러를 100 명에게 1 달러씩 나눠줌. (누구도 제대로 배움)
  • VIP 방식: 100 달러를 배울 의욕이 있고, 배울 수 있는 10 명에게 10 달러씩 집중 투자함. (그 10 명이 크게 성장하여 전체 평균이 급상승)

4. 요약: 한 줄로 정리하면?

"AI 를 가르칠 때, 모든 문제에 똑같은 시간을 쓰지 말고, AI 가 '가장 헷갈려하는 문제'에 집중해서 시간을 투자하면, 더 빠르고 똑똑하게 성장할 수 있다."

이 기술은 수학 문제 풀이뿐만 아니라, AI 가 검색 도구를 사용하거나 복잡한 작업을 수행할 때도 적용되어, 더 적은 비용으로 더 높은 성능을 내는 AI 시대를 여는 중요한 열쇠가 될 것입니다.