DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

이 논문은 강화학습 기반 대형 추론 모델의 과도한 추론 문제를 해결하기 위해 정답 샘플의 길이 기반 학습 신호를 오답 샘플과 분리하여 성능 저하 없이 추론 길이를 획기적으로 단축하는 'DRPO'라는 새로운 최적화 프레임워크를 제안합니다.

Gang Li, Yan Chen, Ming Lin, Tianbao Yang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

DRPO: "지나친 생각"을 멈추게 하는 지능형 비서

이 논문은 최근 화제가 되고 있는 **거대 추론 모델 **(LRM)의 한 가지 치명적인 단점을 해결하는 새로운 방법을 소개합니다.

🤔 문제: "너무 많이 생각하는" AI

최근 AI 는 복잡한 수학 문제나 코딩을 풀 때, 마치 인간이 고민하듯이 "생각의 과정 (Chain of Thought)"을 길게 늘어놓으며 답을 찾습니다. 덕분에 어려운 문제는 잘 풀지만, **매우 간단한 문제 **(예: "2 더하기 3 은?")에서도 AI 는 수천 토큰 (단어) 분량의 긴 설명을 늘어놓습니다.

  • 비유: 친구가 "오늘 날씨가 어때?"라고 물었을 때, AI 는 "대기권 분석부터 시작해서..."라며 10 분 동안 기상학 강의를 하는 꼴입니다.
  • 결과: 계산 비용이 너무 많이 들고, 답변이 늦게 나옵니다.

기존 연구자들은 "답이 맞으면 짧을수록 점수를 더 줘라"라고 AI 에게 가르쳤습니다. 하지만 이 방법은 AI 가 "짧게 말하면 틀릴까 봐" 두려워하게 만들어, 오히려 성능이 떨어지는 부작용을 낳았습니다.


💡 해결책: DRPO (분리된 보상 최적화)

이 논문은 DRPO라는 새로운 방법을 제안합니다. 핵심 아이디어는 "옳은 답"과 "틀린 답"을 완전히 분리해서 평가하는 것입니다.

🍎 사과와 오렌지 나누기 (비유)

기존 방법 (GRPO) 은 다음과 같은 문제를 겪었습니다:

  • 상황: 6 명의 학생이 문제를 풀었습니다. 3 명은 정답을 냈지만 (긴 설명), 3 명은 오답을 냈습니다.
  • 기존 방식: "정답 중에서도 설명이 긴 학생"에게 "짧은 정답"보다 점수를 낮게 주려고 했습니다.
  • 문제: 점수 계산 방식이 "전체 학생 (정답 + 오답) 의 평균"과 비교되다 보니, 설명이 긴 정답 학생의 점수가 '오답 학생'보다도 낮아져서 마이너스 (-) 점수를 받았습니다.
  • 결과: AI 는 "아, 설명을 길게 쓰면 정답이라도 감점당하는구나!"라고 오해하고, 아예 정답을 못 찾거나 엉뚱한 답을 내놓게 됩니다.

DRPO 의 방식:

  • 새로운 규칙: "정답을 맞춘 학생들끼리만 점수를 비교해라. 오답 학생들과 섞지 마라."
  • 효과: 설명이 긴 정답 학생은 "짧은 정답 학생"보다 점수가 조금 낮아지지만, 절대 마이너스 점수를 받지 않습니다.
  • 비유: "정답을 맞춘 사람들끼리만 모여서 '누가 더 간결하게 말했나'를 경쟁하게 하고, 틀린 사람들은 그 경쟁에서 아예 제외시키는 것"입니다.

🚀 DRPO 가 가져온 변화

이 방법을 적용한 실험 결과는 놀라웠습니다.

  1. 효율성 극대화: 15 억 개 파라미터 (1.5B) 모델이 GSM8k(초등 수학) 같은 쉬운 문제를 풀 때, 답변 길이를 77% 줄였습니다. (예: 1,000 단어를 쓰던 것을 230 단어로 줄임)
  2. 성능 유지: 길이를 이렇게 줄였음에도, 정답률은 거의 떨어지지 않았습니다 (1.1% 감소).
  3. 대조군과의 비교: 기존 방법들은 길이를 68% 줄였을 때 정답률이 4.3% 나 떨어졌습니다. DRPO 는 "짧게 말하되, 정확함은 지키는" 완벽한 균형을 찾았습니다.

📝 결론

DRPO 는 AI 에게 **"생각할 때는 깊이 있게, 하지만 말할 때는 간결하게"**라는 새로운 철학을 심어줍니다.

  • 기존 AI: "정답을 찾으려면 무조건 길게 설명해야 해! 짧으면 틀릴 거야!" (과도한 생각)
  • DRPO AI: "정답을 맞췄으면, 그중에서도 가장 간결한 설명을 골라내자. 틀린 답과 섞어서 비교하지 말고!" (효율적인 생각)

이 기술은 AI 가 더 빠르고, 저렴하며, 똑똑하게 작동할 수 있는 길을 열어주었습니다. 마치 지나친 수다를 줄이되, 핵심은 정확히 전달하는 명쾌한 비서가 된 셈입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →