Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 더 똑똑하게 생각하게 만드는 새로운 훈련 방법"**에 대한 연구입니다.

기존의 AI(대형 언어 모델) 는 수학이나 논리 문제를 풀 때, 단순히 "정답을 맞히는 것"만 중요하게 생각했습니다. 하지만 이 논문은 **"어려운 문제를 얼마나 깊이 파고들었는지 (Depth)"**와 **"얼마나 많은 문제를 다양하게 연습했는지 (Breadth)"**를 동시에 조절해야 AI 의 두뇌가 진짜로 성장한다고 말합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🧠 핵심 비유: "수학 영재 반의 훈련 방식"

AI 를 수학 영재를 키우는 선생님이라고 상상해 보세요.

1. 문제점: 기존 훈련 방식의 함정 (GRPO)

기존의 훈련 방식 (GRPO 알고리즘) 은 학생들에게 문제를 풀게 할 때, **"중간 난이도 문제"**에 가장 많은 시간을 쏟았습니다.

쉬운 문제: 금방 풀리니까 시간 낭비라고 생각해서 가볍게 넘김.
어려운 문제: 학생이 계속 틀리니까 "이건 안 되겠어"라고 생각해서 시간을 아껴버림.
결과: 학생은 중간 정도는 잘 풀지만, 진짜 어려운 문제 (올림피아드 수준) 앞에서는 여전히 무너지고, 한 번에 정답을 맞히는 능력 (Pass@1) 도 떨어집니다.

2. 해결책 1: 깊이 (Depth) - "어려운 문제에 집중하는 DARS"

저자들은 **"어려운 문제를 더 많이 풀어보게 해야 한다"**는 아이디어를 냈습니다. 이를 DARS라고 부릅니다.

비유: 학생이 어려운 문제를 처음 풀 때 100% 틀린다면, 그냥 넘어가지 않고 "한 번 더, 두 번 더, 세 번 더" 시도하게 합니다.
작동 원리:
1. 먼저 가볍게 문제를 풀어보게 합니다 (1 단계).
2. 여기서 틀린 것 같으면, **추가로 더 많은 시도 (Rollout)**를 허용합니다.
3. 쉬운 문제는 1 번만 풀게 하고, 어려운 문제는 32 번까지 풀어보게 해서, 어려운 문제에서 정답을 찾을 확률을 높입니다.
효과: AI 가 "아, 이 문제는 이렇게 생각하면 될 수도 있구나"라고 깊은 통찰 (Deep Thinking) 을 얻게 되어, 아주 어려운 문제도 해결할 수 있게 됩니다.

3. 해결책 2: 넓이 (Breadth) - "한 번에 많은 학생을 가르치는 대규모 훈련"

두 번째로 중요한 것은 한 번에 얼마나 많은 문제를 다루는가입니다.

비유: 선생님이 한 학생에게만 집중하는 게 아니라, 한 번에 3,000 명의 학생을 동시에 가르치는 상황을 상상해 보세요.
효과:
- 학생 수가 많으면 (배치 크기 증가), 선생님의 판단이 더 정확해집니다. (노이즈 감소)
- AI 가 "아직 모르는 것"에 대해 더 다양한 생각을 하게 되어, **단 한 번에 정답을 맞힐 확률 (Pass@1)**이 크게 올라갑니다.
- 마치 **엔트로피 (무작위성/탐험)**를 유지시켜주어, AI 가 너무 일찍 "이 방법밖에 없어"라고 생각하며 멈추는 것을 막아줍니다.

4. 시너지 효과 (Synergy): "깊이 + 넓이 = 완전한 두뇌"

이 논문이 가장 자랑하는 점은 이 두 가지를 함께 쓸 때 효과가 극대화된다는 것입니다.

**깊이 (DARS)**만 쓰면: 어려운 문제는 잘 풀지만, 쉬운 문제나 한 번에 맞히는 능력은 떨어질 수 있음.
**넓이 (Breadth)**만 쓰면: 한 번에 맞히는 능력은 좋아지지만, 아주 어려운 문제의 한계는 넘지 못함.
둘 다 쓰면 (DARS-Breadth):
- 어려운 문제 (Depth): 추가 시도로 해결 가능.
- 한 번 정답 (Breadth): 다양한 경험을 통해 첫 시도부터 정답을 맞출 확률 증가.
- 결과: AI 는 어떤 문제든 (쉬운 건 한 번에, 어려운 건 여러 번 시도해서) 해결하는 완벽한 수학 영재가 됩니다.

📊 실제 성과: "기존 AI vs 우리 AI"

실험 결과, 이 방법을 쓴 AI(Qwen2.5-Math) 는 다음과 같은 변화를 보였습니다:

어려운 수학 경시대회 (AIME, AMC 등) 점수: 기존 방식보다 훨씬 높아졌습니다. (특히 128 번 시도했을 때 정답을 찾을 확률이 급증)
한 번에 맞히는 능력: 한 번에 정답을 맞힐 확률도 크게 향상되었습니다.
생각의 깊이: AI 가 문제를 풀 때 더 길고 복잡한 사고 과정 (Thinking Process) 을 거치게 되어, 더 똑똑한 답변을 내놓습니다.

💡 요약: 이 논문이 우리에게 주는 메시지

"AI 를 더 똑똑하게 만들려면, 어려운 문제를 피하지 말고 더 많이 시도하게 (Depth) 하고, 한 번에 많은 문제를 경험하게 (Breadth) 하세요. 이 두 가지가 만나면 AI 는 단순히 '암기'하는 것을 넘어, 진짜 '이해'하고 '추론'하는 능력을 얻게 됩니다."

이 방법은 마치 어려운 산을 오를 때, 등반가에게 더 많은 로프와 장비 (Depth) 를 주고, 동시에 더 많은 등반가들이 함께 길을 개척하게 (Breadth) 함으로써 가장 높은 정상에 도달하게 하는 전략과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: RLVR 에서의 깊이-넓이 시너지: 적응형 탐색을 통한 LLM 추론 능력 향상 (Depth-Breadth Synergy in RLVR)

이 논문은 검증 가능한 보상 (Verifiable Reward) 을 이용한 강화 학습 (RLVR) 이 대형 언어 모델 (LLM) 의 추론 능력을 향상시키는 강력한 방법임을 인정하면서도, 기존 방법론이 **탐색의 깊이 (Depth)**와 **탐색의 넓이 (Breadth)**라는 두 가지 핵심 영역에서 충분한 탐색을 하지 못해 성능이 제한받는다는 문제를 제기합니다. 저자들은 기존 GRPO (Group Relative Policy Optimization) 알고리즘의 편향을 분석하고, 이를 해결하기 위한 **DARS (Difficulty Adaptive Rollout Sampling)**와 DARS-Breadth 방법을 제안합니다.

1. 문제 정의 (Problem)

기존 RLVR 프레임워크 (특히 GRPO 및 그 변형) 는 두 가지 주요 한계를 가지고 있습니다.

깊이 (Depth) 의 부재 및 편향:
- GRPO 는 그룹 내 샘플들의 상대적 이득 (Advantage) 을 계산할 때, 중간 난이도의 문제에 과도하게 가중치를 두는 누적 이득 (Cumulative Advantage) 편향을 보입니다.
- 결과적으로 정확도가 낮고 난이도가 높은 문제 (LLM 이 추론 능력을 키우기 위해 반드시 학습해야 하는 '깊은' 샘플) 는 간과되거나 가중치가 낮아집니다. 이는 Pass@K (여러 번 시도 중 하나라도 정답일 확률) 성능의 상한을 결정짓는 주요 요인입니다.
- 단순히 롤아웃 (Rollout) 크기를 늘리는 것만으로는 Pass@K 가 일정하게 향상되지 않으며, 오히려 작은 모델의 경우 성능이 저하되기도 합니다.
넓이 (Breadth) 의 부재:
- '넓이'는 한 번의 학습 반복 (Iteration) 에서 사용하는 인스턴스 (배치 크기) 의 수를 의미합니다.
- 기존 연구들은 일반적으로 작은 배치 크기 (예: 128) 를 사용했으나, 이는 학습 중 토큰 수준의 엔트로피 (Entropy) 를 낮추어 모델이 일찍 수렴 (Premature Convergence) 하도록 만듭니다.
- Pass@1 (단일 시도로 정답을 맞출 확률) 성능을 극대화하기 위해서는 넓은 탐색 (Large Breadth) 이 필요하지만, 기존 DARS 방식의 동적 롤아웃 할당은 표준 PPO 미니배치 업데이트와 호환되지 않는 문제가 있었습니다.

2. 방법론 (Methodology)

저자들은 **DARS (Difficulty Adaptive Rollout Sampling)**와 DARS-Breadth라는 두 가지 핵심 기법을 제안합니다.

A. DARS (Difficulty Adaptive Rollout Sampling)

기존의 균일한 롤아웃 할당을 대체하여, 문제의 난이도에 따라 계산 자원을 동적으로 재분배하는 2 단계 프로세스입니다.

1 단계: 사전 롤아웃 난이도 추정 (Pre-Rollout Difficulty Estimation)
- 각 질문 $q_j$ 에 대해 가벼운 1 차 롤아웃 (예: $N_{pre}$ 개) 을 수행하여 경험적 정확도 $\hat{a}_j$ 를 추정합니다.
- 난이도 점수 $x_j = 1 - \hat{a}_j$ 를 계산합니다 (정확도가 낮을수록 난이도가 높음).
2 단계: 다단계 롤아웃 재균형화 (Multi-Stage Rollout Re-Balancing)
- 낮은 정확도 (높은 난이도) 문제에 추가적인 롤아웃 ( $\Delta n_j$ ) 을 할당하여 누적 이득을 재조정합니다.
- ET (Equal-Treatment) 스케줄: 모든 난이도 문제의 누적 이득을 중간 난이도 (정확도 0.5) 수준으로 맞춰줍니다. 이는 Log-Odds 최적화 목적을 유도합니다.
- HW (Hardness-Weighted) 스케줄: 난이도에 비례하여 더 많은 롤아웃을 할당합니다. 이는 최대 우도 (Maximum Likelihood) 최적화 목적을 유도하며, 특히 어려운 문제에 집중합니다.
- 이 방식은 희소한 보상 신호를 정량적으로 확장하여 모델이 '깊은' 추론 경로를 학습하도록 돕습니다.

B. DARS-Breadth (깊이와 넓이의 시너지)

DARS 는 동적으로 배치 크기가 변하기 때문에 표준 PPO 의 미니배치 업데이트와 호환되지 않습니다. 이를 해결하기 위해 다음과 같은 전략을 사용합니다.

풀-배치 업데이트 (Full-Batch Updates): 미니배치를 사용하는 대신, 여러 PPO 에포크에 걸쳐 풀-배치 (Full-batch) 그래디언트 하강을 수행합니다.
효과:
- 미니배치 그래디언트 노이즈를 제거합니다.
- 학습 전반에 걸쳐 높은 토큰 수준의 엔트로피를 유지하여 조기 수렴을 방지합니다.
- 이는 Pass@1 성능을 획기적으로 향상시키는 '암시적 엔트로피 정규화' 역할을 합니다.

3. 주요 기여 (Key Contributions)

누적 이득 편향의 발견: GRPO 기반 RLVR 이 고난이도/저정확도 샘플을 과소평가하여 Pass@K 성능을 제한한다는 것을 체계적으로 분석하고 증명했습니다.
DARS 알고리즘 제안: 다단계 롤아웃 샘플링을 통해 계산 자원을 어려운 문제에 재분배하는 DARS 를 도입했습니다. ET 와 HW 스케줄이 각각 Log-Odds 와 최대 우도 목적 함수를 유도함을 이론적으로 보였습니다.
깊이 - 넓이 시너지 (Depth-Breadth Synergy):
- **깊이 (DARS)**는 Pass@K(복수 시도 성능) 를 향상시키고, **넓이 (Large Batch)**는 Pass@1(단일 시도 성능) 을 향상시킵니다.
- 이 두 차원은 상호 배타적이 아니라 상호 보완적임을 증명했습니다. DARS-Breadth 를 통해 두 지표를 동시에 향상시켰습니다.

4. 실험 결과 (Results)

Qwen2.5-Math (1.5B, 7B) 및 Llama-3.1-8B 모델을 다양한 수학 벤치마크 (MATH-500, AIME24, OlympiadBench 등) 에서 평가했습니다.

Pass@1 및 Pass@128 동시 향상:
- DARS-Breadth 는 모든 모델 규모와 벤치마크에서 기존 RLVR 베이스라인, 단순 깊이 확장 (Depth-Naive), 단순 넓이 확장 (Breadth-Naive) 을 모두 능가했습니다.
- 특히 HW 스케줄을 사용한 DARS-Breadth 는 Pass@128 에서 가장 큰 개선을 보였습니다 (예: Qwen2.5-Math-7B 기준 AIME24 Pass@128 에서 16.0 포인트 상승).
학습 효율성:
- 단순히 롤아웃 크기를 늘리는 (Depth-Naive) 방식보다 DARS 는 더 적은 평균 롤아웃 수로 더 높은 성능을 달성하여 학습 효율성이 뛰어났습니다.
- Table 4 에 따르면, DARS-HW 는 Depth-Naive 대비 약 25~37% 적은 롤아웃으로 더 좋은 성능을 냈습니다.
테스트 시간 확장 (Test-Time Scaling):
- DARS 로 학습된 모델은 테스트 시 다수결 투표 (Majority Voting) 나 Pass@K 평가에서 기존 모델보다 훨씬 강력한 솔루션 공간을 보여주었습니다.
생성 길이 증가:
- DARS 를 적용한 모델은 더 어려운 문제를 해결하기 위해 더 긴 추론 과정 (Thinking Length) 을 생성하는 경향이 있었습니다 (Figure 8, 16).

5. 의의 및 결론 (Significance)

이 논문은 RLVR 기반 LLM 의 추론 능력 향상을 위한 새로운 패러다임을 제시합니다.

이론적 통찰: 단순히 데이터 양을 늘리거나 롤아웃 횟수를 무작정 증가시키는 것이 아니라, **어떤 문제에 얼마나 많은 자원을 할당할지 (깊이)**와 **한 번에 얼마나 많은 데이터를 학습할지 (넓이)**를 전략적으로 결합해야 함을 증명했습니다.
실용적 가치: DARS-Breadth 는 단일 실행 (Pass@1) 의 신뢰성과 다중 시도 (Pass@K) 의 능력을 동시에 극대화하여, 실제 배포 환경에서 LLM 의 추론 능력을 안정적으로 향상시킬 수 있는 방법을 제공합니다.
미래 방향: 학습 초기에는 높은 $N_{max}$ 로 탐색을 강조하고, 후기에는 이를 줄여 수렴을 유도하는 애닐링 (Annealing) 전략 등을 통해 Pass@K 와 Pass@1 간의 균형을 더 정교하게 조절할 수 있음을 시사합니다.

결론적으로, 이 연구는 **적응형 탐색 (Depth)**과 **대규모 배치 학습 (Breadth)**의 시너지가 RLVR 의 잠재력을 완전히 unlocking 하는 핵심 열쇠임을 입증했습니다.