DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

이 논문은 과거 데이터의 정확성보다 다양성 유지에 중점을 두어, 동적 시간 민감 버퍼와 제이슨-샤논 발산 정규화를 통해 GRPO 의 샘플 비효율성과 모드 붕괴 문제를 해결하면서도 학습 효율성을 유지하는 'DyJR' 프레임워크를 제안합니다.

Long Li, Zhijian Zhou, Tianyi Wang, Weidi Xu, Zuming Huang, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

DyJR: AI 가 "과거의 실수"를 버리지 않고 "다양한 생각"을 유지하는 방법

이 논문은 인공지능 (AI) 이 복잡한 문제를 해결할 때, 어떻게 하면 더 창의적이고 다양한 사고를 할 수 있게 도와주는지에 대한 새로운 방법을 소개합니다.

기존의 AI 학습 방식은 마치 **"정답만 외우는 학생"**과 같았습니다. 하지만 이 새로운 방법 (DyJR) 은 **"다양한 시도를 해본 경험"**을 소중히 여기며, AI 가 한 가지 길만 고집하지 않도록 도와줍니다.

이해하기 쉽게 비유를 들어 설명해 드리겠습니다.


1. 문제: AI 는 왜 "한 가지 길"만 고집할까요?

AI 가 수학 문제나 복잡한 논리를 풀 때, 보통 **강화학습 (RL)**이라는 방식을 사용합니다. 이때 AI 는 수많은 시도를 해보고, 정답을 찾으면 "잘했다!"라고 칭찬받습니다.

하지만 기존 방식 (GRPO 라고 부릅니다) 에는 치명적인 약점이 있었습니다.

  • 비효율성: AI 가 한 번 정답을 찾으면, 그 과정을 기록하고 다시 활용하지 않고 그냥 버려버립니다. (마치 시험을 보고 답안지를 바로 찢어버리는 것과 같습니다.)
  • 사고의 경직화 (Mode Collapse): AI 가 "이런 식으로 풀면 정답이 나오네?"라고 깨닫자마자, 그 방법만 반복해서 사용합니다. 다른 가능성은 모두 무시하고, 단 하나의 정답 경로에 꽂혀버리는 것입니다.
    • 비유: 요리사가 "이 레시피로 요리하면 맛이 좋구나"라고 생각하자마자, 그 레시피만 100 번 반복하고 새로운 재료를 시도하지 않는 것과 같습니다. 결국 요리는 단조로워지고 실패할 확률도 커집니다.

2. 해결책: DyJR (다이나믹 쥬센-샤논 리플레이)

이 논문은 **"과거의 데이터를 단순히 '정답'으로만 쓰지 말고, '다양한 생각'을 유지하는 데 쓰자"**고 제안합니다. 이를 위해 두 가지 핵심 장치를 도입했습니다.

① "시간에 민감한 기억장" (Dynamic Buffer)

기존 방식은 과거의 모든 데이터를 저장하려다 보니 메모리가 터지고, 너무 오래된 데이터는 현재 AI 와 맞지 않아 혼란을 줍니다.

  • DyJR 의 방식: AI 의 뇌는 최근의 경험을 가장 중요하게 여깁니다.
    • 비유: 냉장고를 생각해보세요. DyJR 은 냉장고에 모든 음식을 영원히 보관하지 않습니다. 최근에 넣은 신선한 재료만 남기고, 너무 오래된 것은 과감히 버립니다.
    • 특히 AI 학습 초기에는 "다양한 실험"이 중요하므로, 그 시기의 데이터를 더 많이 보관했다가, AI 가 안정화되면 보관량을 줄이는 유연한 저장소를 사용합니다.

② "다양성 유지 장벽" (Jensen-Shannon Regularization)

기존 방식은 과거의 정답 데이터를 AI 에게 다시 보여주고, "이렇게 다시 해봐!"라고 강요했습니다. 하지만 DyJR 은 다릅니다.

  • DyJR 의 방식: 과거의 정답들을 AI 에게 직접 가르치는 게 아니라, **"너의 현재 생각과 과거의 다양한 생각들이 너무 멀어지지 않게 잡아주는 줄"**로 사용합니다.
    • 비유: 나침반을 생각해보세요. AI 가 미로 (문제) 를 헤매고 있을 때, 과거의 다양한 성공 사례들은 "너는 지금 너무 한쪽으로 치우치지 마, 주변을 좀 둘러봐"라고 방향만 잡아주는 나침반 역할을 합니다.
    • AI 가 "정답"을 찾느라 너무 급하게 한 길로 달려가는 것을 막아주어, **다른 가능성 (Rank-2, Rank-3 답안)**도 계속 탐색하게 만듭니다.

3. 왜 이것이 중요한가요? (결과)

이 방법을 적용한 AI 는 다음과 같은 변화를 보였습니다.

  • 더 높은 점수: 수학 문제나 데이터베이스 검색 (SQL) 같은 복잡한 작업에서 기존 방식보다 훨씬 높은 정확도를 기록했습니다.
  • 창의성 유지: AI 가 한 가지 답만 고집하지 않고, 여러 가지 해결책을 동시에 고려할 수 있게 되었습니다.
  • 효율성: 과거 데이터를 모두 저장하는 무거운 방식이 아니라, 필요한 데이터만 스마트하게 관리하므로 컴퓨터 자원 (메모리) 을 거의 추가로 쓰지 않습니다.

4. 한 줄 요약

"DyJR 은 AI 가 과거의 정답을 단순히 '암기'하게 하지 않고, 과거의 다양한 '시도'를 기억하게 함으로써, AI 가 한 가지 길에 갇히지 않고 더 창의적이고 강력한 해결책을 찾도록 도와주는 새로운 학습법입니다."

이처럼 DyJR 은 AI 가 유연하게 사고할 수 있도록 돕는, 마치 현명한 멘토와 같은 역할을 합니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →