Each language version is independently generated for its own context, not a direct translation.

DyJR: AI 가 "과거의 실수"를 버리지 않고 "다양한 생각"을 유지하는 방법

이 논문은 인공지능 (AI) 이 복잡한 문제를 해결할 때, 어떻게 하면 더 창의적이고 다양한 사고를 할 수 있게 도와주는지에 대한 새로운 방법을 소개합니다.

기존의 AI 학습 방식은 마치 **"정답만 외우는 학생"**과 같았습니다. 하지만 이 새로운 방법 (DyJR) 은 **"다양한 시도를 해본 경험"**을 소중히 여기며, AI 가 한 가지 길만 고집하지 않도록 도와줍니다.

이해하기 쉽게 비유를 들어 설명해 드리겠습니다.

1. 문제: AI 는 왜 "한 가지 길"만 고집할까요?

AI 가 수학 문제나 복잡한 논리를 풀 때, 보통 **강화학습 (RL)**이라는 방식을 사용합니다. 이때 AI 는 수많은 시도를 해보고, 정답을 찾으면 "잘했다!"라고 칭찬받습니다.

하지만 기존 방식 (GRPO 라고 부릅니다) 에는 치명적인 약점이 있었습니다.

비효율성: AI 가 한 번 정답을 찾으면, 그 과정을 기록하고 다시 활용하지 않고 그냥 버려버립니다. (마치 시험을 보고 답안지를 바로 찢어버리는 것과 같습니다.)
사고의 경직화 (Mode Collapse): AI 가 "이런 식으로 풀면 정답이 나오네?"라고 깨닫자마자, 그 방법만 반복해서 사용합니다. 다른 가능성은 모두 무시하고, 단 하나의 정답 경로에 꽂혀버리는 것입니다.
- 비유: 요리사가 "이 레시피로 요리하면 맛이 좋구나"라고 생각하자마자, 그 레시피만 100 번 반복하고 새로운 재료를 시도하지 않는 것과 같습니다. 결국 요리는 단조로워지고 실패할 확률도 커집니다.

2. 해결책: DyJR (다이나믹 쥬센-샤논 리플레이)

이 논문은 **"과거의 데이터를 단순히 '정답'으로만 쓰지 말고, '다양한 생각'을 유지하는 데 쓰자"**고 제안합니다. 이를 위해 두 가지 핵심 장치를 도입했습니다.

① "시간에 민감한 기억장" (Dynamic Buffer)

기존 방식은 과거의 모든 데이터를 저장하려다 보니 메모리가 터지고, 너무 오래된 데이터는 현재 AI 와 맞지 않아 혼란을 줍니다.

DyJR 의 방식: AI 의 뇌는 최근의 경험을 가장 중요하게 여깁니다.
- 비유: 냉장고를 생각해보세요. DyJR 은 냉장고에 모든 음식을 영원히 보관하지 않습니다. 최근에 넣은 신선한 재료만 남기고, 너무 오래된 것은 과감히 버립니다.
- 특히 AI 학습 초기에는 "다양한 실험"이 중요하므로, 그 시기의 데이터를 더 많이 보관했다가, AI 가 안정화되면 보관량을 줄이는 유연한 저장소를 사용합니다.

② "다양성 유지 장벽" (Jensen-Shannon Regularization)

기존 방식은 과거의 정답 데이터를 AI 에게 다시 보여주고, "이렇게 다시 해봐!"라고 강요했습니다. 하지만 DyJR 은 다릅니다.

DyJR 의 방식: 과거의 정답들을 AI 에게 직접 가르치는 게 아니라, **"너의 현재 생각과 과거의 다양한 생각들이 너무 멀어지지 않게 잡아주는 줄"**로 사용합니다.
- 비유: 나침반을 생각해보세요. AI 가 미로 (문제) 를 헤매고 있을 때, 과거의 다양한 성공 사례들은 "너는 지금 너무 한쪽으로 치우치지 마, 주변을 좀 둘러봐"라고 방향만 잡아주는 나침반 역할을 합니다.
- AI 가 "정답"을 찾느라 너무 급하게 한 길로 달려가는 것을 막아주어, **다른 가능성 (Rank-2, Rank-3 답안)**도 계속 탐색하게 만듭니다.

3. 왜 이것이 중요한가요? (결과)

이 방법을 적용한 AI 는 다음과 같은 변화를 보였습니다.

더 높은 점수: 수학 문제나 데이터베이스 검색 (SQL) 같은 복잡한 작업에서 기존 방식보다 훨씬 높은 정확도를 기록했습니다.
창의성 유지: AI 가 한 가지 답만 고집하지 않고, 여러 가지 해결책을 동시에 고려할 수 있게 되었습니다.
효율성: 과거 데이터를 모두 저장하는 무거운 방식이 아니라, 필요한 데이터만 스마트하게 관리하므로 컴퓨터 자원 (메모리) 을 거의 추가로 쓰지 않습니다.

4. 한 줄 요약

"DyJR 은 AI 가 과거의 정답을 단순히 '암기'하게 하지 않고, 과거의 다양한 '시도'를 기억하게 함으로써, AI 가 한 가지 길에 갇히지 않고 더 창의적이고 강력한 해결책을 찾도록 도와주는 새로운 학습법입니다."

이처럼 DyJR 은 AI 가 유연하게 사고할 수 있도록 돕는, 마치 현명한 멘토와 같은 역할을 합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 대형 언어 모델 (LLM) 의 추론 능력을 향상시키기 위해 검증 가능한 보상 (Verifiable Rewards) 을 활용한 강화 학습 (RLVR) 이 주류가 되었습니다. 특히 GRPO(Group Relative Policy Optimization) 와 같은 온-정책 (on-policy) 알고리즘이 널리 사용되고 있습니다.
핵심 문제:
1. 샘플 비효율성: 온-정책 알고리즘은 과거의 롤아웃 (rollout) 데이터를 한 번의 업데이트 후 폐기하므로, 계산 자원이 낭비되고 과거의 성공 사례에서 학습할 기회가 제한됩니다.
2. 기존 경험 재생 (Experience Replay) 의 한계: 기존 방법들 (RLEP, Ex-GRPO 등) 은 과거의 정확한 샘플을 재사용하여 직접적인 정책 그라디언트 업데이트를 수행합니다. 그러나 이는 두 가지 심각한 문제를 초래합니다.
  - 모드 붕괴 (Mode Collapse): 특정 해답 경로에 과도하게 적합 (overfitting) 되어 모델의 탐색 (exploration) 능력이 급격히 떨어집니다.
  - 높은 계산 비용: 모든 과거 트래젝토리를 저장하고 재사용하려면 막대한 GPU 메모리와 계산 자원이 필요합니다.
3. 오해: 기존 접근법은 과거 데이터를 단순히 '정확성 (Accuracy)'을 강화하는 도구로 보지만, 저자들은 과거 데이터의 진정한 가치는 다양성 (Diversity) 유지에 있음을 주장합니다.

2. 제안 방법: DyJR (Dynamic Jensen-Shannon Replay)

저자는 정확성 최적화에서 다양성 정규화로 패러다임을 전환한 DyJR을 제안합니다. 이는 두 가지 주요 혁신을 포함합니다.

가. 시간 민감형 동적 버퍼 (Time-Sensitive Dynamic Buffer)

동적 용량 조절: 모델이 빠르게 변화하는 초기 학습 단계 (일반적으로 첫 20 스텝) 에는 버퍼 크기를 확대하여 고엔트로피 (high-entropy) 추론 패턴을 포착하고, 모델이 안정화되면 버퍼를 축소합니다.
FIFO 및 시간적 근접성: 버퍼는 FIFO(First-In-First-Out) 프로토콜을 따르며, 현재 모델과 시간적으로 가장 가까운 샘플만 유지합니다. 오래된 데이터는 정책의 분포 변화로 인해 학습에 방해가 될 수 있으므로 제거합니다.
편향 인식 데이터 선택: 단순히 정답만 고집하는 것이 아니라, 배치 내에서의 신뢰도 (Confidence, $C_{id}$ ) 를 기준으로 데이터를 선택합니다. 쉬운 작업에서는 고신뢰도 샘플을, 어려운 작업에서는 희귀한 정답을 포착할 수 있도록 '높은 신뢰도에서 낮은 신뢰도' 순으로 데이터를 수용합니다.

나. 제이슨 - 샨논 발산 정규화 (Jensen-Shannon Divergence Regularization)

직접 업데이트 대신 분포 제약: 과거 데이터를 직접적인 그라디언트 업데이트에 사용하는 대신, 버퍼에 저장된 역사적 정책들의 혼합 분포를 '동적 기준 분포 (Dynamic Reference Distribution)'로 설정합니다.
JS 발산 최소화: 현재 정책 ( $\pi_\theta$ $π_{θ}$ ) 과 이 기준 분포 사이의 제이슨 - 샨논 (JS) 발산을 정규화 항으로 추가하여 최소화합니다.
- 이유: Forward KL 발산은 모든 모드를 덮으려 하여 과도한 평활화 (over-smoothing) 를 유발할 수 있지만, JS 발산은 대칭적이고 유계 (bounded) 이므로 다양한 성공적인 경로를 유지하면서도 모델이 너무 멀리 벗어나지 않도록 균형을 잡습니다.
최종 목적 함수:
$\mathcal{L}_{total}(\theta) = \mathcal{L}_{GRPO}(\theta) + \alpha_{JS} \cdot \mathcal{L}_{JS}(\theta)$
여기서 $\mathcal{L}_{GRPO}$ 는 온라인 배치를 통한 보상 극대화, $\mathcal{L}_{JS}$ 는 버퍼 데이터의 다양성 유지 역할을 합니다.

3. 주요 기여 (Key Contributions)

리플레이 패러다임의 재정의: 경험 재생의 목적을 '정확성 강화'에서 '다양성 정규화'로 변경하여, 모델이 단일 해답에 갇히는 것을 방지하고 탐색 능력을 보존합니다.
시간적 근접성에 기반한 동적 데이터 구축 전략: 초기 학습 단계의 고엔트로피 패턴을 포착하고 모델이 안정화되면 저장 공간을 축소하는 비균일 동적 버퍼 메커니즘을 제안하여, 메모리 오버헤드를 크게 줄이면서도 최적의 성능을 달성합니다.
광범위한 실험 및 미세 분석: 수학 추론 및 Text-to-SQL 작업에서 GRPO 및 기존 리플레이 방법 (RLEP, Ex-GRPO) 보다 우수한 성능을 입증했습니다. 또한, Rank-k 토큰 확률 진화를 분석하여 DyJR 의 하위 모듈이 학습 역학에 미치는 영향을 구체적으로 규명했습니다.

4. 실험 결과 (Results)

수학 추론 벤치마크 (Math Reasoning):
- Qwen3-4B-Base 모델을 사용하여 Reinforce-Ada-Hard 데이터셋으로 학습했습니다.
- 성능: DyJR 은 평균 정확도 **34.1%**를 기록하여 GRPO(29.8%) 보다 4.3%p 향상되었고, RLEP(31.7%), Ex-GRPO(32.8%), DPH-RL(31.3%) 등 다른 베이스라인보다도 우월했습니다.
- 난이도별 효과: AMC23(쉬운 문제) 에서 +7.4%p, HMMT25(어려운 문제) 에서 +2.9%p 향상 등 모든 난이도에서 일관된 성능 향상을 보였습니다.
Text-to-SQL 벤치마크:
- Llama-3.1-8B-Instruct 모델을 사용하여 BIRD 및 Spider 데이터셋에서 평가했습니다.
- DyJR 은 GRPO 대비 BIRD 에서 Pass@1 62.7% (+3.3%), Spider 에서 77.5% (+5.0%) 를 기록하며 SOTA 성능을 달성했습니다.
효율성:
- 기존 RLEP 는 모든 정답을 저장해야 하므로 약 28k 쌍의 데이터를 저장해야 했지만, DyJR 은 약 2k 쌍만 저장하여 메모리 효율성이 월등히 높았습니다.
- 학습 속도는 GRPO 와 유사하게 유지되어 추가적인 계산 비용이 거의 없습니다.

5. 분석 및 통찰 (Analysis & Significance)

다양성 유지 메커니즘:
- GRPO: 학습 초기에 엔트로피가 급격히 떨어지고 Rank-1 토큰 확률이 90% 이상으로 고정되어 탐색 능력을 상실합니다.
- DyJR: 초기 엔트로피 감소 후에도 Rank-2, Rank-3 토큰으로 확률 질량을 재분배하여 다양성을 유지합니다. 이는 모델이 여러 추론 경로를 탐색할 수 있게 하여 국소 최적해 (local optimum) 에 갇히는 것을 방지합니다.
JS 발산의 중요성: Forward KL 발산을 사용한 변형체보다 JS 발산을 사용한 DyJR 이 성능이 더 뛰어났습니다. 이는 빠르게 진화하는 정책들의 혼합 분포를 다룰 때, JS 발산이 더 강건하고 균형 잡힌 정규화 신호를 제공하기 때문입니다.
최대 나이 (Max Age, M) 의 영향: 너무 오래된 데이터 ( $M$ 이 큰 경우) 는 성능을 저하시켰으며, $M=8$ 과 같이 비교적 짧은 시간 범위 내의 데이터만 유지하는 것이 가장 효과적이었습니다. 이는 데이터의 신선도가 학습에 중요함을 시사합니다.

6. 결론 및 의의

이 논문은 RLVR 환경에서 과거 데이터를 단순히 '정답'으로 재사용하는 것을 넘어, **학습 초기 단계의 풍부한 탐색 패턴을 보존하는 '다양성 유지 도구'**로 재정의했습니다. DyJR 은 동적 버퍼와 JS 발산 정규화를 결합하여, 추가적인 메모리 비용 없이 모델이 다양한 해답 경로를 탐색하도록 유도함으로써, 복잡한 추론 작업에서 GRPO 및 기존 리플레이 방법들을 압도하는 성능을 달성했습니다. 이는 LLM 의 강화 학습 효율성과 확장성을 높이는 중요한 이정표가 될 것으로 기대됩니다.

DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay