Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

이 논문은 RLVR 의 잠재력을 극대화하기 위해 어려운 문제에 대한 적응적 탐색 (DARS) 과 대규모 배치 확장을 결합한 'DARS-Breadth' 방법을 제안하여, 문제의 난이도 (깊이) 와 학습 인스턴스 수 (넓이) 를 동시에 최적화함으로써 LLM 의 추론 능력을 획기적으로 향상시킨다는 것을 보여줍니다.

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Hanhui Li, Yiwei Wang, Xiaodan Liang, Jing Tang

게시일 2026-04-14
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 더 똑똑하게 생각하게 만드는 새로운 훈련 방법"**에 대한 연구입니다.

기존의 AI(대형 언어 모델) 는 수학이나 논리 문제를 풀 때, 단순히 "정답을 맞히는 것"만 중요하게 생각했습니다. 하지만 이 논문은 **"어려운 문제를 얼마나 깊이 파고들었는지 (Depth)"**와 **"얼마나 많은 문제를 다양하게 연습했는지 (Breadth)"**를 동시에 조절해야 AI 의 두뇌가 진짜로 성장한다고 말합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🧠 핵심 비유: "수학 영재 반의 훈련 방식"

AI 를 수학 영재를 키우는 선생님이라고 상상해 보세요.

1. 문제점: 기존 훈련 방식의 함정 (GRPO)

기존의 훈련 방식 (GRPO 알고리즘) 은 학생들에게 문제를 풀게 할 때, **"중간 난이도 문제"**에 가장 많은 시간을 쏟았습니다.

  • 쉬운 문제: 금방 풀리니까 시간 낭비라고 생각해서 가볍게 넘김.
  • 어려운 문제: 학생이 계속 틀리니까 "이건 안 되겠어"라고 생각해서 시간을 아껴버림.
  • 결과: 학생은 중간 정도는 잘 풀지만, 진짜 어려운 문제 (올림피아드 수준) 앞에서는 여전히 무너지고, 한 번에 정답을 맞히는 능력 (Pass@1) 도 떨어집니다.

2. 해결책 1: 깊이 (Depth) - "어려운 문제에 집중하는 DARS"

저자들은 **"어려운 문제를 더 많이 풀어보게 해야 한다"**는 아이디어를 냈습니다. 이를 DARS라고 부릅니다.

  • 비유: 학생이 어려운 문제를 처음 풀 때 100% 틀린다면, 그냥 넘어가지 않고 "한 번 더, 두 번 더, 세 번 더" 시도하게 합니다.
  • 작동 원리:
    1. 먼저 가볍게 문제를 풀어보게 합니다 (1 단계).
    2. 여기서 틀린 것 같으면, **추가로 더 많은 시도 (Rollout)**를 허용합니다.
    3. 쉬운 문제는 1 번만 풀게 하고, 어려운 문제는 32 번까지 풀어보게 해서, 어려운 문제에서 정답을 찾을 확률을 높입니다.
  • 효과: AI 가 "아, 이 문제는 이렇게 생각하면 될 수도 있구나"라고 깊은 통찰 (Deep Thinking) 을 얻게 되어, 아주 어려운 문제도 해결할 수 있게 됩니다.

3. 해결책 2: 넓이 (Breadth) - "한 번에 많은 학생을 가르치는 대규모 훈련"

두 번째로 중요한 것은 한 번에 얼마나 많은 문제를 다루는가입니다.

  • 비유: 선생님이 한 학생에게만 집중하는 게 아니라, 한 번에 3,000 명의 학생을 동시에 가르치는 상황을 상상해 보세요.
  • 효과:
    • 학생 수가 많으면 (배치 크기 증가), 선생님의 판단이 더 정확해집니다. (노이즈 감소)
    • AI 가 "아직 모르는 것"에 대해 더 다양한 생각을 하게 되어, **단 한 번에 정답을 맞힐 확률 (Pass@1)**이 크게 올라갑니다.
    • 마치 **엔트로피 (무작위성/탐험)**를 유지시켜주어, AI 가 너무 일찍 "이 방법밖에 없어"라고 생각하며 멈추는 것을 막아줍니다.

4. 시너지 효과 (Synergy): "깊이 + 넓이 = 완전한 두뇌"

이 논문이 가장 자랑하는 점은 이 두 가지를 함께 쓸 때 효과가 극대화된다는 것입니다.

  • **깊이 (DARS)**만 쓰면: 어려운 문제는 잘 풀지만, 쉬운 문제나 한 번에 맞히는 능력은 떨어질 수 있음.
  • **넓이 (Breadth)**만 쓰면: 한 번에 맞히는 능력은 좋아지지만, 아주 어려운 문제의 한계는 넘지 못함.
  • 둘 다 쓰면 (DARS-Breadth):
    • 어려운 문제 (Depth): 추가 시도로 해결 가능.
    • 한 번 정답 (Breadth): 다양한 경험을 통해 첫 시도부터 정답을 맞출 확률 증가.
    • 결과: AI 는 어떤 문제든 (쉬운 건 한 번에, 어려운 건 여러 번 시도해서) 해결하는 완벽한 수학 영재가 됩니다.

📊 실제 성과: "기존 AI vs 우리 AI"

실험 결과, 이 방법을 쓴 AI(Qwen2.5-Math) 는 다음과 같은 변화를 보였습니다:

  1. 어려운 수학 경시대회 (AIME, AMC 등) 점수: 기존 방식보다 훨씬 높아졌습니다. (특히 128 번 시도했을 때 정답을 찾을 확률이 급증)
  2. 한 번에 맞히는 능력: 한 번에 정답을 맞힐 확률도 크게 향상되었습니다.
  3. 생각의 깊이: AI 가 문제를 풀 때 더 길고 복잡한 사고 과정 (Thinking Process) 을 거치게 되어, 더 똑똑한 답변을 내놓습니다.

💡 요약: 이 논문이 우리에게 주는 메시지

"AI 를 더 똑똑하게 만들려면, 어려운 문제를 피하지 말고 더 많이 시도하게 (Depth) 하고, 한 번에 많은 문제를 경험하게 (Breadth) 하세요. 이 두 가지가 만나면 AI 는 단순히 '암기'하는 것을 넘어, 진짜 '이해'하고 '추론'하는 능력을 얻게 됩니다."

이 방법은 마치 어려운 산을 오를 때, 등반가에게 더 많은 로프와 장비 (Depth) 를 주고, 동시에 더 많은 등반가들이 함께 길을 개척하게 (Breadth) 함으로써 가장 높은 정상에 도달하게 하는 전략과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →