The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Each language version is independently generated for its own context, not a direct translation.

🍳 비유: 천재 요리사와 '단조로운' 레시피

1. 상황: 천재 요리사 (기초 모델)
처음에 우리는 다양한 재료를 가지고 여러 가지 방식으로 요리를 할 수 있는 천재 요리사 (기초 AI 모델) 를 가지고 있습니다. 그는 "불고기"를 만들 때, 매콤하게, 달게, 혹은 매운맛을 줄여서 등 수십 가지 다른 스타일로 요리할 수 있습니다. (이걸 다양성이라고 해요.)

2. 문제: "정답 하나만 찾아!" (기존 강화학습의 함정)
이제 우리는 이 요리사에게 "오늘은 오직 가장 맛있는 불고기 하나만 찾아내서 100 점 만점을 받아야 해!"라고 시켰습니다. (이게 **보상 (Reward)**을 주는 강화학습입니다.)

요리사는 열심히 노력해서 가장 맛있는 레시피 하나를 찾아냈습니다. 하지만 문제는 여기서 시작됩니다.

단점 1 (다양성 붕괴): 요리사는 "아, 이 레시피가 최고구나!"라고 생각해서 다른 모든 레시피를 버리고 오직 그 하나의 레시피만 반복해서 요리하기 시작합니다. 이제 그는 매번 똑같은 불고기만 냅니다. 만약 그날 손님이 "매콤하게 해줘"라고 요청하면 그는 당황해서 못 해냅니다. (이게 Pass@k 저하입니다. 한 번에 맞추기는 잘하지만, 여러 번 시도해서 다른 정답을 찾기는 못 합니다.)
단점 2 (기억 상실): 더 무서운 건, 요리사가 새로운 레시피를 배우는 과정에서 예전에 잘하던 다른 요리 (수학, 코딩 등) 를 잊어버린다는 점입니다. (이게 재앙적 망각입니다.)

3. 기존 해결책의 실패: "원래대로 돌아와!" (Reverse KL)
연구자들은 "너가 너무 변하지 마, 원래대로 돌아와!"라고 경고했습니다. (기존 방법은 Reverse KL이라는 수학적 장치를 썼습니다.)
하지만 이 경고는 역효과를 냈습니다. 요리사는 "원래대로 돌아간다는 건, 내가 찾은 그 '최고의 레시피'만 고수하라는 뜻이구나!"라고 오해해서, 오히려 더 좁은 레시피만 고집하게 되었습니다.

💡 이 논문의 해결책: "다양한 레시피를 기억하라!" (DPH-RL)

이 논문은 **"아니, '원래대로'라는 게 '최고의 한 가지'가 아니라, '다양한 가능성 전체'를 기억하는 거야!"**라고 말합니다.

저희는 DPH-RL이라는 새로운 방법을 제안합니다.

1. 핵심 아이디어: '리허설 (Rehearsal)'
요리사에게 "너가 원래 가지고 있던 **다양한 레시피 책 (초기 모델)**을 계속 펼쳐보면서, 그 책에 있는 모든 스타일을 잊지 말고 기억해라"라고 가르칩니다.

새로운 방법 (Forward KL / JS Divergence): 이 방법은 요리사가 "내가 만든 요리"와 "원래 레시피 책"을 비교할 때, **"책에 있는 모든 스타일을 내가 다 커버하고 있니?"**라고 묻습니다. 하나라도 빠지면 점수를 깎습니다.
효과: 요리사는 "아, 내가 매운맛 레시피를 잊어버렸네? 다시 연습해야지!"라고 생각하게 되어, 다양한 스타일을 유지하게 됩니다.

2. 똑똑한 학습 전략 (데이터 나누기)
이 방법은 모든 문제를 똑같이 처리하지 않습니다.

쉬운 문제 (이미 잘하는 것): 요리사가 이미 잘하는 문제는 "원래 레시피를 잊지 마"라고만 시키고, 새로운 시도를 강요하지 않습니다. (기존 실력을 유지)
어려운 문제 (배워야 할 것): 요리사가 잘 모르는 문제는 "자유롭게 시도해봐!"라고 시켜서 새로운 레시피를 개발하게 합니다. (새로운 능력 확장)

🏆 결과: 왜 이것이 특별한가?

이 방법을 쓰면 다음과 같은 기적이 일어납니다.

한 번에 맞추기 (Pass@1) 도 좋아집니다: 가장 맛있는 레시피를 찾는 능력은 그대로 유지됩니다.
여러 번 시도해서 맞추기 (Pass@k) 가 훨씬 좋아집니다: 다양한 레시피를 가지고 있기 때문에, 한 가지가 안 통하면 다른 방법으로 시도해서 정답을 찾을 확률이 높아집니다.
다른 분야에서도 잘합니다: "불고기"만 배우다가 "김치찌개" (다른 분야) 를 못 하는 일이 사라집니다. 원래 가지고 있던 다양한 능력을 잊지 않기 때문입니다.
컴퓨터 비용도 절약됩니다: 별도의 복잡한 모델을 돌릴 필요 없이, 요리사 (모델) 가 스스로 기억을 더듬게 하는 방식이라 빠르고 효율적입니다.

📝 한 줄 요약

"기존 AI 는 '정답 하나'에 집착하다가 모든 것을 잃어버렸다면, 이 새로운 방법은 '다양한 가능성'을 기억하게 함으로써 AI 를 더 똑똑하고 유연하게 만듭니다."

이 논문은 인공지능이 단순히 정답을 외우는 기계가 아니라, 다양한 사고방식을 가진 진정한 '지성'이 되기 위한 핵심 열쇠를 찾았다고 말합니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **검증 가능한 보상을 통한 강화 학습 (RLVR)**에서 발생하는 다양성 붕괴 (Diversity Collapse) 문제를 해결하기 위해, 기존에 간과되었던 발산 (Divergence) 의 선택에 주목한 연구입니다. 저자들은 ICLR 2026 에 제출된 이 논문에서, 표준 역 KL 발산 (Reverse-KL) 의 한계를 지적하고 이를 대체할 수 있는 새로운 프레임워크 **DPH-RL (Diversity-Preserving Hybrid RL)**을 제안합니다.

주요 내용은 다음과 같습니다.

1. 문제 정의: RLVR 의 역설과 다양성 붕괴

역설: RLVR 은 단일 시도 정확도 (Pass@1) 를 향상시키지만, 여러 시도를 허용했을 때의 성능 (Pass@k) 은 오히려 저하되거나 정체되는 모순이 발생합니다.
원인: 이는 모델이 특정 해답 경로에 과도하게 적합 (Overfitting) 되어 다양한 해결책을 생성하는 능력을 상실하기 때문입니다.
기존 방법의 한계:
- 역 KL 발산 (Reverse-KL): 현재 RLVR 의 표준인 역 KL 발산은 분포의 모드 (Mode) 를 찾는 성질 (Mode-seeking) 을 가지며, 정책이 단일 고확률 해답으로 수렴하도록 강제합니다. 이는 모델의 다양성을 억압하고, 이전 지식을 잃는 **파괴적 망각 (Catastrophic Forgetting)**을 가속화합니다.
- KL 발산 부재: KL 항을 아예 제거한 방법 (예: GRPO without KL) 역시 모델이 초기 지식 베이스에서 벗어나게 하여 다양성 붕괴를 막지 못합니다.
- 외부 일반화 저하: 역 KL 을 사용한 모델은 학습 데이터 분포에 갇혀, 학습 데이터와 다른 분포 (Out-of-Domain) 의 작업에서는 성능이 급격히 떨어집니다.

2. 제안 방법: DPH-RL (Diversity-Preserving Hybrid RL)

저자들은 발산 항을 단순한 제약이 아닌, 지식 재현 (Rehearsal) 메커니즘으로 재해석하고 Mass-covering(질량 포괄) 성질을 가진 f-발산을 도입합니다.

핵심 아이디어: 초기 정책 ( $\pi_{ref}$ ) 을 지속적으로 참조하여 모델이 다양한 해답을 포괄하도록 강제합니다. 이는 인간의 학습에서 '복습'이 망각을 방지하는 것과 유사합니다.
데이터 분할 전략:
- $D_{pef}$ (Near-perfect): 모델이 이미 잘 해결하는 데이터. 이 부분에서는 Forward-KL 또는 JS 발산을 사용하여 초기 모델의 다양성을 유지 (재현) 하도록 합니다.
- $D_{exp}$ (Exploration): 모델이 아직 해결하지 못한 어려운 데이터. 이 부분에서는 KL 패널티를 제거하여 모델이 자유롭게 탐색 (Exploration) 할 수 있도록 합니다.
사용된 발산 함수:
- Forward-KL ( $D_{KL}(\pi_{ref} || \pi_{\theta})$ ): 초기 정책이 높은 확률을 가진 해답을 새로운 정책이 놓치지 않도록 패널티를 부여하여 모든 모드를 포괄합니다.
- Jensen-Shannon (JS) Divergence: 대칭적이고 안정적이며, 양쪽 정책 ( $\pi_{ref}$ 와 $\pi_{\theta}$ ) 에서 샘플링을 통해 균형을 잡는 '정규화된 재현 (Regularized Rehearsal)' 메커니즘을 제공합니다.
구현 효율성: 'Generator' 기반 구현 방식을 사용하여, 온라인 학습 루프에서 참조 모델을 추론할 필요가 없으며 초기 정책의 샘플링만으로도 발산을 계산할 수 있어 계산 효율성이 높습니다.

3. 주요 기여

체계적 분석: RLVR 에서의 다양성 붕괴가 역 KL 발산의 '모드 찾기 (Mode-seeking)' 성질에서 기인함을 규명하고, 이것이 Pass@k 저하와 파괴적 망각의 주원인임을 증명했습니다.
새로운 프레임워크 (DPH-RL): 발산을 다양성 보존 메커니즘으로 활용하는 새로운 프레임워크를 제안했습니다. 이는 기존 엔트로피 제어나 보상 설계 방법과 직교 (Orthogonal) 하는 접근법입니다.
광범위한 실험 검증: 수학 (Math) 및 SQL 생성 작업에서 Llama 와 Qwen 시리즈 모델 (7B~32B) 을 대상으로 한 실험을 통해, 제안된 방법이 Pass@1 및 Pass@k 모두에서 기존 방법 (GRPO, DAPO, Reverse-KL) 을 능가함을 입증했습니다.

4. 실험 결과

SQL 작업 (Bird, Spider):
- Pass@k 향상: DPH-F 와 DPH-JS 는 GRPO 와 DAPO 보다 Bird 데이터셋에서 Pass@8 을 각각 4.3%, 3.3% 향상시켰습니다.
- 외부 일반화 (OOD): Spider(크로스 도메인) 및 수학 작업 (OOD) 에서 기존 방법들은 성능이 급격히 떨어졌으나, DPH-RL 은 베이스 모델의 성능 수준을 유지하거나 오히려 향상시켰습니다. 특히 DPH-F 는 Spider Pass@16 에서 DAPO 대비 9.0% 높은 점수를 기록했습니다.
수학 추론:
- Llama 모델에서 DPH-JS 는 Pass@k 를 유지하면서 Mean@k(평균 정확도) 를 크게 향상시켰습니다.
- Qwen 모델에서도 어려운 AIME 데이터셋에서는 베이스 모델의 다양성을 유지하면서, 다른 데이터셋에서는 성능을 극대화하는 균형을 이루었습니다.
파괴적 망각 방지: 기존 모델들은 학습 후 이전에 풀던 문제를 잊어버리는 현상이 발생했으나, DPH-RL 은 이를 효과적으로 방지했습니다.

5. 의의 및 결론

이 논문은 RLVR 의 성능 향상을 위해 발산 (Divergence) 측정치의 선택이 핵심 요소임을 강조합니다. 기존의 역 KL 발산이 가진 한계를 극복하고, Forward-KL 및 JS 발산과 같은 Mass-covering 특성을 가진 발산을 도입함으로써 더 일반화되고 다양한 추론 모델을 구축할 수 있음을 보였습니다.

실용성: 참조 모델 없이도 효율적으로 학습 가능한 'Generator' 방식을 제공하여 실제 적용 비용을 낮췄습니다.
미래 방향: RLVR 파이프라인에서 발산 함수의 선택이 모델의 다양성과 일반화 능력을 결정하는 중요한 축임을 제시하며, 향후 연구에 중요한 방향성을 제시합니다.

요약하자면, 이 연구는 "어떤 발산을 사용할 것인가"에 대한 질문을 통해 RLVR 의 핵심 병목 현상을 해결하고, 모델이 다양한 해결책을 유지하면서도 높은 정확도를 달성할 수 있는 새로운 패러다임을 제시했습니다.

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

🍳 비유: 천재 요리사와 '단조로운' 레시피

💡 이 논문의 해결책: "다양한 레시피를 기억하라!" (DPH-RL)

🏆 결과: 왜 이것이 특별한가?

📝 한 줄 요약

1. 문제 정의: RLVR 의 역설과 다양성 붕괴

2. 제안 방법: DPH-RL (Diversity-Preserving Hybrid RL)

3. 주요 기여

4. 실험 결과

5. 의의 및 결론

유사한 논문

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction