Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

이 논문은 기존 GRPO 의 한계를 극복하고 이질적인 사용자 선호도를 효과적으로 정렬하기 위해, 그룹별 보상 이력을 기반으로 이득을 정규화하는 새로운 프레임워크인 '개인화 GRPO(P-GRPO)'를 제안하고 그 유효성을 입증합니다.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"개인 맞춤형 그룹 상대적 정책 최적화 (P-GRPO)"**라는 새로운 기술을 소개합니다. 이를 쉽게 이해하기 위해 **'거대한 식당'**과 **'요리사'**의 비유를 들어 설명해 보겠습니다.

🍽️ 비유: 거대한 식당과 요리사

1. 문제 상황: "모두에게 같은 맛을 내는 요리사"
지금까지의 AI(대형 언어 모델) 는 'RLHF'라는 기술을 통해 훈련되었습니다. 이는 마치 한 명의 요리사가 수천 명의 손님이 보낸 "맛있는 음식"에 대한 피드백을 모두 섞어서, **가장 많은 사람이 좋아하는 '평균적인 맛'**만 연구하는 것과 같습니다.

  • 문제점: 어떤 손님은 "매운 걸 좋아해!"라고 하고, 어떤 손님은 "매우 달콤한 걸 원해!"라고 합니다. 하지만 요리사가 모든 의견을 섞어 평균을 내면, **매운 맛도 달콤한 맛도 아닌 '중립적이고 밋밋한 맛'**만 나오게 됩니다.
  • 결과: 소수인 '매운 맛'을 좋아하는 손님은 실망하고, '달콤한 맛'을 원하는 사람도 만족하지 못합니다. AI 는 다수 의견 (주류) 에만 맞춰져 소수 의견은 무시당하게 됩니다.

2. 기존 기술 (GRPO) 의 한계
기존의 '그룹 상대적 정책 최적화 (GRPO)'는 요리사가 한 번에 여러 요리를 만들어 보고, 그중에서 "이 요리가 저 요리보다 더 맛있네?"라고 비교하는 방식입니다. 하지만 이때 한 번에 나온 요리들끼리만 비교합니다.

  • 만약 오늘 나온 요리들이 모두 '매운 맛' 위주라면, 그중에서 가장 덜 매운 요리가 '최고'로 평가받게 됩니다.
  • 반대로 '달콤한 맛' 위주라면, 그중에서 가장 덜 달콤한 요리가 '최고'가 됩니다.
  • 핵심 문제: 이렇게 하면 요리사는 '매운 맛'을 좋아하는 손님과 '달콤한 맛'을 좋아하는 손님의 기준을 구분하지 못합니다. 그냥 그날 나온 요리들끼리만 비교하다 보니, 소수 의견은 계속 뒤처지게 됩니다.

3. 새로운 해결책: P-GRPO (개인 맞춤형 요리사)
이 논문이 제안한 P-GRPO는 요리사의 사고방식을 완전히 바꿉니다.

  • 새로운 방식: 요리사는 이제 **"이 손님이 평소 어떤 맛을 좋아하는지"**를 기억합니다.
    • 매운 맛을 좋아하는 손님이 오면, 그 손님의 **과거 기록 (역사적 데이터)**을 보고 "오늘 요리가 평소보다 더 매운가? 아니면 덜 매운가?"를 비교합니다.
    • 달콤한 맛을 좋아하는 손님이 오면, 그 손님의 과거 기록을 보고 "오늘 요리가 평소보다 더 달콤한가?"를 비교합니다.
  • 비유: 마치 각 손님마다 별도의 점수판을 두는 것과 같습니다.
    • 매운 맛을 좋아하는 손님이 "이거 너무 맵다!"라고 해도, 그 손님의 기준 (역사적 평균) 에 비추어 보면 "아, 이 손님은 평소보다 덜 매운 걸 원했구나"라고 판단할 수 있습니다.
    • 반대로 달콤한 맛을 좋아하는 손님이 "이거 너무 달다!"라고 해도, 그 손님의 기준에 비추어 "아, 이 손님은 평소보다 덜 달콤한 걸 원했구나"라고 판단합니다.

✨ 왜 이것이 중요한가요?

  1. 소수 의견도 소중하게: 다수 의견 (주류) 에만 맞춰져 소수 의견이 사라지는 것을 막아줍니다. 모든 손님이 자신의 취향에 맞는 요리를 받을 수 있습니다.
  2. 더 빠른 학습: 요리사가 혼란스러워하지 않고, 각 손님의 기준에 맞춰 명확하게 "무엇을 고쳐야 할지" 알 수 있어 더 빨리 실력이 늡니다.
  3. 일반적인 능력 유지: 개인 취향에 맞춰진다고 해서, 요리사의 기본 실력 (문법, 논리, 일반 지식 등) 이 떨어지지 않습니다. 여전히 똑똑한 요리사입니다.

📝 한 줄 요약

"모두에게 같은 맛을 강요하던 AI 가, 이제는 각자 취향에 맞는 '나만의 요리사'가 되어 모든 손님을 행복하게 해줍니다."

이 기술은 AI 가 단순히 '평균적인 사람'을 위해 존재하는 것이 아니라, 서로 다른 취향을 가진 모든 개인을 위해 진정으로 맞춤형 서비스를 제공할 수 있는 길을 열어줍니다.