Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"개인 맞춤형 그룹 상대적 정책 최적화 (P-GRPO)"**라는 새로운 기술을 소개합니다. 이를 쉽게 이해하기 위해 **'거대한 식당'**과 **'요리사'**의 비유를 들어 설명해 보겠습니다.

🍽️ 비유: 거대한 식당과 요리사

1. 문제 상황: "모두에게 같은 맛을 내는 요리사"
지금까지의 AI(대형 언어 모델) 는 'RLHF'라는 기술을 통해 훈련되었습니다. 이는 마치 한 명의 요리사가 수천 명의 손님이 보낸 "맛있는 음식"에 대한 피드백을 모두 섞어서, **가장 많은 사람이 좋아하는 '평균적인 맛'**만 연구하는 것과 같습니다.

문제점: 어떤 손님은 "매운 걸 좋아해!"라고 하고, 어떤 손님은 "매우 달콤한 걸 원해!"라고 합니다. 하지만 요리사가 모든 의견을 섞어 평균을 내면, **매운 맛도 달콤한 맛도 아닌 '중립적이고 밋밋한 맛'**만 나오게 됩니다.
결과: 소수인 '매운 맛'을 좋아하는 손님은 실망하고, '달콤한 맛'을 원하는 사람도 만족하지 못합니다. AI 는 다수 의견 (주류) 에만 맞춰져 소수 의견은 무시당하게 됩니다.

2. 기존 기술 (GRPO) 의 한계
기존의 '그룹 상대적 정책 최적화 (GRPO)'는 요리사가 한 번에 여러 요리를 만들어 보고, 그중에서 "이 요리가 저 요리보다 더 맛있네?"라고 비교하는 방식입니다. 하지만 이때 한 번에 나온 요리들끼리만 비교합니다.

만약 오늘 나온 요리들이 모두 '매운 맛' 위주라면, 그중에서 가장 덜 매운 요리가 '최고'로 평가받게 됩니다.
반대로 '달콤한 맛' 위주라면, 그중에서 가장 덜 달콤한 요리가 '최고'가 됩니다.
핵심 문제: 이렇게 하면 요리사는 '매운 맛'을 좋아하는 손님과 '달콤한 맛'을 좋아하는 손님의 기준을 구분하지 못합니다. 그냥 그날 나온 요리들끼리만 비교하다 보니, 소수 의견은 계속 뒤처지게 됩니다.

3. 새로운 해결책: P-GRPO (개인 맞춤형 요리사)
이 논문이 제안한 P-GRPO는 요리사의 사고방식을 완전히 바꿉니다.

새로운 방식: 요리사는 이제 **"이 손님이 평소 어떤 맛을 좋아하는지"**를 기억합니다.
- 매운 맛을 좋아하는 손님이 오면, 그 손님의 **과거 기록 (역사적 데이터)**을 보고 "오늘 요리가 평소보다 더 매운가? 아니면 덜 매운가?"를 비교합니다.
- 달콤한 맛을 좋아하는 손님이 오면, 그 손님의 과거 기록을 보고 "오늘 요리가 평소보다 더 달콤한가?"를 비교합니다.
비유: 마치 각 손님마다 별도의 점수판을 두는 것과 같습니다.
- 매운 맛을 좋아하는 손님이 "이거 너무 맵다!"라고 해도, 그 손님의 기준 (역사적 평균) 에 비추어 보면 "아, 이 손님은 평소보다 덜 매운 걸 원했구나"라고 판단할 수 있습니다.
- 반대로 달콤한 맛을 좋아하는 손님이 "이거 너무 달다!"라고 해도, 그 손님의 기준에 비추어 "아, 이 손님은 평소보다 덜 달콤한 걸 원했구나"라고 판단합니다.

✨ 왜 이것이 중요한가요?

소수 의견도 소중하게: 다수 의견 (주류) 에만 맞춰져 소수 의견이 사라지는 것을 막아줍니다. 모든 손님이 자신의 취향에 맞는 요리를 받을 수 있습니다.
더 빠른 학습: 요리사가 혼란스러워하지 않고, 각 손님의 기준에 맞춰 명확하게 "무엇을 고쳐야 할지" 알 수 있어 더 빨리 실력이 늡니다.
일반적인 능력 유지: 개인 취향에 맞춰진다고 해서, 요리사의 기본 실력 (문법, 논리, 일반 지식 등) 이 떨어지지 않습니다. 여전히 똑똑한 요리사입니다.

📝 한 줄 요약

"모두에게 같은 맛을 강요하던 AI 가, 이제는 각자 취향에 맞는 '나만의 요리사'가 되어 모든 손님을 행복하게 해줍니다."

이 기술은 AI 가 단순히 '평균적인 사람'을 위해 존재하는 것이 아니라, 서로 다른 취향을 가진 모든 개인을 위해 진정으로 맞춤형 서비스를 제공할 수 있는 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 언어 모델 (LLM) 은 일반적인 작업에서 뛰어난 성능을 보이지만, **RLHF(Reinforcement Learning from Human Feedback)**와 같은 표준 정렬 (Alignment) 기법들은 단일한 전역 목적 함수 (Global Objective) 를 최적화하도록 설계되어 있습니다. 이로 인해 다음과 같은 한계가 발생합니다.

이질적 선호도의 무시: 사용자의 선호도는 문화, 성격, 상황에 따라 다양하게 존재하지만, 기존 방법은 이를 하나의 동질적인 분포로 가정합니다.
GRPO 의 한계: 최근 널리 사용되는 **Group Relative Policy Optimization (GRPO)**은 동일한 프롬프트에 대한 여러 생성 결과 (Group) 를 비교하여 이득 (Advantage) 을 추정합니다. 그러나 이 방법은 **그룹 내 정규화 (Group-based Normalization)**를 수행하며, 이는 모든 샘플이 교환 가능하다는 가정을 내포합니다.
다수결 편향 (Majority Bias): 이 가정은 소수 사용자 그룹의 선호 신호를 억제하고, 데이터에서 우세한 (Dominant) 선호도 분포로 학습을 편향시킵니다. 결과적으로 모델은 일반적인 사용자에는 잘 작동하지만, 소수 또는 특정 선호도를 가진 사용자에게는 성능이 저하됩니다.

2. 제안 방법: P-GRPO (Methodology)

저자들은 이 문제를 해결하기 위해 **개인화된 그룹 상대 정책 최적화 (Personalized GRPO, P-GRPO)**를 제안합니다. 핵심 아이디어는 이득 (Advantage) 추정을 즉각적인 배치 (Batch) 통계가 아닌 선호도 그룹별 역사적 통계에 기반하여 정규화하는 것입니다.

핵심 메커니즘

선호도 그룹 분리: 사용자들을 명시적 식별자 (User ID) 또는 상호작용 신호의 클러스터링을 통해 의미 있는 선호도 그룹 ( $p$ ) 으로 나눕니다.
그룹별 통계 유지: 각 선호도 그룹 $p$ $p$ 에 대해 과거의 모든 보상 (Reward) 데이터에 대한 **평균 ( $\mu_p$ $μ_{p}$ )**과 **표준편차 ( $\sigma_p$ $σ_{p}$ )**를 온라인으로 유지합니다.
- 이를 위해 메모리 효율이 높고 수치적으로 안정적인 Welford 의 온라인 알고리즘을 사용합니다.
개인화된 이득 (Personalized Advantage) 계산:
- 기존 GRPO: $A = \frac{R - \mu_{Batch}}{\sigma_{Batch}}$ (현재 생성 그룹 내 평균/분산 기준)
- P-GRPO: $\tilde{A} = \frac{R - \mu_p}{\sigma_p + \epsilon}$ (해당 사용자의 선호도 그룹 역사적 평균/분산 기준)
효과:
- 쉬운 선호도 (높은 보상 분포) 를 가진 사용자와 어려운 선호도 (낮은 보상 분포) 를 가진 사용자 모두, 자신의 기준선 (Baseline) 에 비해 얼마나 잘 수행했는지에 따라 공정한 학습 신호를 받습니다.
- 소수 그룹의 신호가 다수 그룹의 통계에 의해 희석되거나 억제되는 것을 방지합니다.

3. 주요 기여 (Key Contributions)

새로운 정렬 프레임워크: 이질적인 사용자 선호도 하에서 GRPO 의 편향을 해결하는 P-GRPO 알고리즘을 제안했습니다.
이론적 분석: 그룹 내 정규화가 이질적 보상 분포 하에서 어떻게 통계적 수축 (Statistical Shrinkage) 을 일으키고 소수 신호를 억제하는지 분석했습니다.
효율적인 구현: 전체 역사적 데이터를 저장하지 않고도 $O(1)$ 메모리 복잡도로 그룹별 통계를 업데이트하는 온라인 알고리즘을 구현했습니다.
일반성 유지: 개인화 성능을 향상시키면서도 모델의 일반적 추론 능력 (MMLU 벤치마크 등) 을 유지함을 입증했습니다.

4. 실험 결과 (Results)

저자들은 MovieLens-1M(콘텐츠 추천), 합성 선호도 데이터, Goodreads(도서 리뷰), KGRec(음악 추천) 등 다양한 태스크와 모델 (Gemma-2B, Qwen3-1.7B, Qwen3-8B) 을 사용하여 실험했습니다.

수렴 속도 및 보상: P-GRPO 는 표준 GRPO 에 비해 더 빠른 수렴 속도와 높은 평균 보상을 달성했습니다.
성능 비교:
- MovieLens: P-GRPO 는 테스트 정확도 (Top-1 Accuracy) 에서 GRPO 를 일관되게 상회했습니다 (예: Qwen3-8B 기준 65.77% vs 63.79%).
- 생성 태스크 (Goodreads, KGRec, Synthetic): ROUGE 점수와 코사인 유사도 (Cosine Similarity) 에서 P-GRPO 가 GRPO 및 GDPO(기존 그룹 기반 DPO) 보다 우수한 성능을 보였습니다.
LLM-as-Judge 평가: 생성된 텍스트의 품질, 일관성, 사용자 선호도 정렬 정도를 평가한 결과, P-GRPO 는 모든 선호도 클러스터에서 GRPO 보다 높은 승리율 (Win Rate) 을 기록했습니다.
클러스터링 품질 영향: 의미 있는 클러스터링 (K-Means) 이 무작위 할당보다 훨씬 중요한 성능 향상을 가져오며, 클러스터의 세분화 (Granularity) 가 높을수록 개인화 효과가 증대됨을 확인했습니다.
일반 능력 보존: P-GRPO 로 미세 조정된 모델은 MMLU 벤치마크에서 사전 학습된 모델과 유사한 성능을 유지하여, 개인화가 일반 능력을 해치지 않음을 증명했습니다.

5. 의의 및 중요성 (Significance)

공정한 AI 시스템: P-GRPO 는 소수 사용자 그룹의 선호 신호가 학습 과정에서 체계적으로 억제되는 문제를 해결하여, 모든 사용자에게 공정한 서비스를 제공하는 AI 시스템 구축에 기여합니다.
개인화의 새로운 패러다임: 기존 개인화 기법이 입력 프롬프트나 표현 (Embedding) 에 의존하는 것과 달리, P-GRPO 는 학습 최적화 (Optimization) 단계 자체를 수정하여 선호도 이질성을 처리합니다. 이는 더 근본적이고 효율적인 접근법입니다.
실용적 적용 가능성: 대규모 분산 학습 환경에서도 Welford 알고리즘을 통해 메모리 부담 없이 적용 가능하므로, 실제 서비스 환경에서의 개인화 LLM 배포에 실용적입니다.

이 논문은 LLM 의 정렬 과정에서 발생하는 편향을 해결하고, 다양한 사용자 집단에 대해 공정하고 효과적인 개인화를 달성하기 위한 중요한 기술적 진전을 제시합니다.

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

🍽️ 비유: 거대한 식당과 요리사

✨ 왜 이것이 중요한가요?

📝 한 줄 요약

1. 문제 정의 (Problem Statement)

2. 제안 방법: P-GRPO (Methodology)

핵심 메커니즘

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 중요성 (Significance)

유사한 논문

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers