DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

이 논문은 수학 추론을 위한 GRPO 의 성능을 향상시키기 위해, 유사한 추론 경로에 대한 보상을 보정하여 다양성을 확보하는 '다양성 인식 보상 조정 (DRA)' 프레임워크를 제안하고, 이를 통해 적은 데이터와 비용으로도 강력한 성능을 달성했음을 보여줍니다.

Xiwen Chen, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hao Wang, Haiyu Wu, Huayu Li, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 비유: "똑같은 점수를 받은 두 학생"

상상해 보세요. 수학 시험에서 두 학생이 정답을 맞췄습니다.

  • 학생 A: 문제를 풀면서 "어? 이거 저거 같네? 아, 아니야. 다시 생각해 보자. 오! 맞았다!"라고 혼잣말을 하며 실수하고 수정하는 과정을 길게 적었습니다. (탐구형)
  • 학생 B: 처음부터 끝까지 완벽한 공식과 논리로 깔끔하게 풀어서 정답을 냈습니다. (직관형)

기존의 AI 학습 방식 (GRPO) 은 **정답이 맞으면 두 학생 모두에게 똑같은 '만점'**을 줍니다.
하지만 여기서 문제가 생깁니다. AI 는 "어떤 방식이든 정답만 나오면 OK"라고 생각하게 되어, 가장 쉽게, 가장 많이 나오는 방식 (학생 B 스타일) 만 반복해서 배우게 됩니다.

이런 현상을 논문에서는 **"다양성과 품질의 불일치 (Diversity-Quality Inconsistency)"**라고 부릅니다.

비유: 마치 선생님이 "정답만 맞으면 뭐든 다 100 점"이라고 해서, 학생들은 창의적인 사고를 멈추고 가장 쉬운 길 (암기) 만 반복하게 되는 것과 같습니다. 결국 AI 는 다양한 해결책을 찾아내는 능력을 잃어버리고, 한 가지 방식에 갇히게 됩니다.


🚀 이 논문이 제안한 해결책: "DRA-GRPO"

이 논문은 **"정답이 맞더라도, 남들과 다르게 독특한 사고를 한 AI 에게는 더 큰 점수를 주자!"**라고 제안합니다.

이를 위해 DRA-GRPO라는 새로운 방법을 개발했습니다.

1. "복제된 답"은 점수를 깎고, "새로운 답"은 점수를 올려라!

AI 가 같은 문제를 풀 때 여러 가지 답안 (생각의 경로) 을 만들어낸다고 가정해 봅시다.

  • 만약 10 개의 답안 중 9 개가 서로 매우 비슷하다면 (중복)? → 그 답들은 점수를 조금 깎아줍니다. (왜? 이미 많이 배웠으니까.)
  • 만약 10 개 중 1 개는 완전히 새로운 방식으로 문제를 풀었다면? → 그 답은 점수를 더 올려줍니다. (왜? 이건 새로운 지식이니까!)

2. 어떻게 구분할까? (SMI 기술)

AI 가 쓴 글이 서로 얼마나 비슷한지, 혹은 얼마나 독특한지를 수학적으로 계산하는 기술 (서브모듈러 상호정보량, SMI) 을 사용합니다.

  • 비유: 마치 도서관 사서가 책을 정리할 때, "이미 책장에 100 권이나 있는 똑같은 책"은 덜 중요하게 여기고, **"아직 책장에 없는 희귀한 책"**은 더 귀하게 여기는 것과 같습니다.

💡 왜 이것이 중요한가? (결과)

이 방법을 적용한 AI 는 다음과 같은 변화를 겪습니다.

  1. 다양한 사고방식 확보: AI 는 정답을 내기 위해 단 하나의 길만 고집하지 않고, 다양한 각도에서 문제를 바라보게 됩니다.
  2. 적은 데이터로 더 큰 효과: 기존에는 엄청난 양의 데이터와 비용이 들었지만, 이 방법은 **적은 데이터 (7,000 개)**로도 기존 최고의 모델들보다 더 좋은 성적을 냈습니다.
    • 비유: "많은 양의 밥을 억지로 먹이는 것보다, 영양가 높은 특별한 식단을 먹여야 건강이 좋아진다"는 것과 같습니다.
  3. 비용 절감: 학습에 드는 비용이 매우 저렴해졌습니다. (약 55 달러, 즉 커피 몇 잔 값!)

📝 한 줄 요약

**"정답이 맞으면 무조건 칭찬하는 게 아니라, '어떻게' 그 정답에 도달했는지 (사고의 다양성) 를 평가해 주는 새로운 AI 학습법"**을 개발했습니다.

이 방법은 AI 가 단순한 암기 기계가 아니라, 창의적인 문제 해결사로 성장하도록 돕는 핵심 열쇠입니다. 마치 학생들에게 "정답만 맞으면 100 점"이 아니라, **"독창적인 풀이법을 찾으면 보너스 점수"**를 주는 시스템을 도입한 것과 같습니다.