Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 누구의 말을 들어야 할까?"**라는 아주 중요한 질문에 대한 새로운 해법을 제시합니다.

기존의 AI 학습 방식 (RLHF, NLHF) 은 마치 **"다수결 투표"**처럼 작동했습니다. 즉, 많은 사람이 좋아하는 의견을 AI 가 따라가게 만들었죠. 하지만 이 방식에는 치명적인 문제가 있습니다. 소수 의견이 완전히 무시당하거나, 특정 그룹이 전략적으로 목소리를 키워 AI 를 조종할 수 있기 때문입니다.

이 논문은 **"인구 비율에 비례하여 모든 목소리를 공정하게 반영하자"**는 새로운 원칙을 제안합니다. 마치 의회 선거에서 각 지역구의 인구 수에 비례해 의석을 배분하듯, AI 도 평가자들의 실제 인구 분포에 맞춰 답변을 만들어내야 한다는 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 방식의 문제: "목소리가 큰 사람만 듣는 AI"

상상해 보세요. 한 식당에서 메뉴를 정하려고 합니다.

A 그룹 (90 명): "피자가 최고야!"
B 그룹 (10 명): "샐러드가 최고야!"

기존 AI (RLHF) 는 "피자가 90% 의 지지를 받았으니 피자를 먹자!"라고 결정합니다. B 그룹은 아예 무시당했죠.
또는, 만약 A 그룹과 B 그룹이 50 대 50 으로 팽팽하게 맞서는데, A 그룹이 "우리가 더 많다고 거짓말을 하거나" 혹은 "약간의 차이로 이기려고" 전략을 쓴다면, AI 는 그 미세한 차이에 휘둘려 B 그룹의 의견을 완전히 배제할 수 있습니다.

이것은 "승자 독식 (Winner-takes-all)" 시스템입니다. 소수의 의견은 사라지고, AI 는 특정 그룹의 편향된 취향만 따르게 됩니다.

2. 새로운 해결책: "인구 비율에 따른 의석 배분"

이 논문은 **"인구 비율에 비례한 정렬 (Population-Proportional Alignment)"**을 제안합니다.

비유: 식당 메뉴를 정할 때, 피자를 좋아하는 90% 에게는 피자 90% 를, 샐러드를 좋아하는 10% 에게는 샐러드 10% 를 제공하는 것입니다.
핵심: AI 는 "어떤 메뉴가 1 등인가?"를 찾는 것이 아니라, **"각 그룹의 인구 비율만큼 다양한 메뉴를 섞어서 제공"**해야 합니다.

하지만 여기서 큰 난관이 있습니다. AI 는 평가자들이 **어떤 그룹에 속하는지 (인구 분포)**를 알 수 없습니다. 오직 "A 와 B 중 뭐가 더 좋아?"라는 두 가지 선택지 비교 데이터만 있을 뿐입니다.

3. 이 논문의 핵심 기술: "수수께끼를 푸는 추리"

이 논문은 **"두 가지 선택지 비교 데이터만으로도, 숨겨진 인구 분포를 추리해낼 수 있다"**는 놀라운 사실을 증명했습니다.

비유: 경찰이 범인을 잡을 때, 범인의 얼굴을 직접 보지 못하더라도 지문이나 발자국 (비교 데이터) 을 분석해서 범인의 신원 (인구 분포) 을 유추해내는 것과 같습니다.
방법: AI 는 "어떤 그룹이 어떤 선택지를 100% 지지할 수 있는가?"를 수학적으로 계산해냅니다. 이를 통해 "아, 이 데이터는 아마도 A 그룹이 60%, B 그룹이 40% 인 상황에서 나온 것 같아"라고 가능성 있는 인구 분포의 범위를 찾아냅니다.

4. 새로운 규칙 (공리) 과 "조종 방지"

이 논문은 AI 가 지켜야 할 4 가지 규칙을 정했습니다.

공정성 (Monotonicity): 어떤 메뉴의 인기가 올라가면, 그 메뉴가 선택될 확률도 올라가야 합니다. (당연하죠!)
합의 (Pareto Efficiency): 모든 사람이 "피자가 최고"라고 한다면, AI 는 무조건 피자를 골라야 합니다.
인구 비례 (PPA): 위에서 말한 대로, 각 그룹의 인구 비율만큼 AI 가 그 그룹의 취향을 반영해야 합니다.
조종 방지 (PBM): 이게 가장 중요합니다. 특정 그룹이 "우리가 더 많다고 거짓말을 하거나" 전략적으로 데이터를 조작해도, AI 는 그 그룹의 실제 인구 비율을 넘어서는 영향력을 행사하지 못하게 막습니다.
- 비유: 10 명짜리 소수 그룹이 "우리는 90 명이야!"라고 거짓말을 해도, AI 는 "아니야, 너네는 10 명짜리 그룹이야. 너네 의견은 10% 만 반영될 거야"라고 딱 잘라 말합니다.

5. "최적의 균형"을 찾는 마법 (Softmax)

그런데 여기서 딜레마가 생깁니다.

완벽한 인구 비례를 지키면, "대다수가 좋아하는 것 (Condorcet Winner)"을 선택하는 데 실패할 수 있습니다.
대다수의 의견을 따르려면, 소수 의견이 무시될 수 있습니다.

이 논문은 **"스마트한 타협 (Softmax Relaxation)"**을 제안합니다.

비유: 요리사가 "소수 의견 (샐러드) 을 얼마나 반영할지"와 "대다수의 취향 (피자) 을 얼마나 따를지"를 조절하는 **레버 (β)**를 가지고 있습니다.
레버를 한쪽으로 당기면 소수 의견이 더 반영되고, 다른 쪽으로 당기면 다수 의견이 더 반영됩니다. 사용자는 이 레버를 조절하여 상황에 맞는 가장 좋은 균형을 찾을 수 있습니다.

6. 실험 결과: 영화 추천과 AI 챗봇

이론만 있는 게 아니라, 실제 실험에서도 효과가 입증되었습니다.

영화 추천: 20 개의 영화 중 어떤 영화를 추천할지 결정할 때, 기존 방식은 특정 취향만 반영했지만, 이 방식은 다양한 취향을 가진 사람들의 비율에 맞춰 영화를 골라냈습니다.
AI 챗봇 (LLM): 거대한 언어 모델을 훈련시킬 때도, 이 방식을 적용하면 특정 그룹 (예: 전문가 vs 일반인, 친절한 톤 vs 무뚝뚝한 톤) 의 의견이 왜곡되지 않고 공정하게 반영됨을 확인했습니다.

요약: 이 논문이 우리에게 주는 메시지

이 논문은 **"AI 는 다수결만 따르는 것이 아니라, 사회의 모든 구성원이 자신의 목소리를 낼 수 있도록 설계되어야 한다"**고 말합니다.

기존의 AI 는 "가장 인기 있는 의견"을 찾아내는 투표기였다면, 이 논문이 제안하는 AI 는 "모든 사람의 목소리가 인구 비율만큼 들리는 공정한 의회"와 같습니다. 또한, 특정 집단이 AI 를 속이거나 조종하는 것을 원천적으로 차단하여, 더 안전하고 공정한 AI 시대를 열어갈 수 있는 길을 제시합니다.

한 줄 요약:

"AI 가 소수의 목소리까지 무시하지 않고, 실제 인구 비율만큼 공정하게 반영하며, 누구도 AI 를 속일 수 없는 새로운 학습 방식을 제안합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 인간 피드백을 통한 강화학습 (RLHF) 과 내쉬 학습 (NLHF) 은 인간 선호도를 정렬하는 데 널리 사용되지만, 다음과 같은 근본적인 한계를 가지고 있습니다.

편향된 집계 (Biased Aggregation): RLHF 는 단일 스칼라 보상 (Bradley-Terry 모델) 을 추정하여 최적화하는 경향이 있어, 소수 그룹의 의견이 무시되거나 특정 그룹의 선호도가 과대평가될 수 있습니다. NLHF 는 내쉬 균형을 찾지만, 이 역시 평가자 집단의 전체적인 분포를 비례적으로 반영하지 못할 수 있습니다.
전략적 조작에 취약 (Strategic Manipulation): 기존 방법론은 평가자 그룹이 자신의 선호도를 조작하여 정책이 자신에게 유리하도록 유도할 수 있는 취약점을 가집니다.
평가자 그룹 정보의 부재: 기존 다원적 정렬 (Pluralistic Alignment) 연구들은 평가자 그룹의 레이블 (예: 전문가/일반인) 을 명시적으로 알고 있다고 가정하지만, 실제 세계에서는 그룹 정체성이 암묵적이거나 관찰 불가능한 경우가 많습니다.

이 논문은 평가자 그룹에 대한 추가 정보 없이, 오직 쌍대 비교 (Pairwise Comparison) 데이터만으로 인구 분포에 비례하는 정책 (Policy) 을 학습하고, 이를 통해 조작에 강건한 정렬을 달성하는 것을 목표로 합니다.

2. 방법론 (Methodology)

저자들은 사회 선택 이론 (Social Choice Theory) 에 기반한 **공리적 프레임워크 (Axiomatic Framework)**를 제안합니다.

2.1 핵심 공리 (Axioms)

제안된 프레임워크는 다음 네 가지 공리를 만족해야 합니다.

단조성 (Monotonicity): 대안의 순위가 상승하면 해당 대안이 선택될 확률도 감소하지 않아야 함.
파레토 효율성 (Pareto Efficiency): 모든 평가자가 한 대안을 다른 대안보다 선호하면, 정책은 그 대안을 선호해야 함.
인구 비례 정렬 (Population-Proportional Alignment, PPA): 정책이 각 평가자 그룹의 인구 비율에 비례하여 그들의 최선 선택을 반영해야 함.
인구 경계 조작성 (Population-Bounded Manipulability, PBM): 특정 그룹이 선호하는 대안을 조작을 통해 선택할 확률은 해당 그룹의 실제 인구 비율에 선형적으로 제한되어야 함 (과도한 조작 방지).

2.2 알고리즘적 프레임워크

인구 분포 복원 (Population Distribution Recovery): 쌍대 비교 데이터 $P$ $P$ 로부터 실제 인구 분포 $w_\sigma$ $w_{σ}$ 를 직접 복원하는 것은 불가능하지만, **실행 가능한 인구 분포의 집합 (Feasible Set, $\mathcal{W}(P)$ $W (P)$ )**을 추정할 수 있음을 증명합니다.
- 각 대안 $y_i$ 에 대해, 다른 모든 대안보다 선호되는 확률의 최솟값인 $u_i = \min_{y \neq y_i} P(y_i \succ y)$ 를 계산합니다.
- 이론적으로 $w_i \le u_i$ 가 성립하므로, $u_i$ 는 해당 그룹의 인구 비율에 대한 보수적인 상한선 (Upper Bound) 으로 작용합니다.
정책 구성 (Policy Construction):
- 기본 알고리즘 ( $F^*$ ): 각 대안의 확률을 상한선 $u_i$ 에 비례하게 할당합니다 ( $\pi(y_i) \propto u_i$ ). 이는 정보 손실로 인한 최악의 경우 오정렬을 최소화하는 보수적 전략입니다.
- 소프트맥 완화 (Softmax Relaxation, $F_\beta$ ): PPA 와 콘도르세 승자 (Condorcet Winner, 모든 다른 대안을 이기는 대안) 선택 간의 균형을 조절하기 위해 파라미터 $\beta$ $β$ 를 도입합니다.
  $\pi(y_i) = \frac{u_i \exp(\beta u_i)}{\sum_j u_j \exp(\beta u_j)}$
  - $\beta=0$ : 완전한 비례 정렬 (PPA 최대화).
  - $\beta \to \infty$ : 콘도르세 일관성 (Condorcet Consistency) 달성.

3. 주요 기여 (Key Contributions)

쌍대 비교 데이터로부터의 인구 분포 추론: 평가자 그룹 레이블 없이도 쌍대 비교 데이터만으로 실행 가능한 인구 분포 집합을 추론할 수 있음을 수학적으로 증명했습니다.
새로운 공리 체계의 제안: 기존 RLHF/NLHF가 만족하지 못하는 PPA와 PBM이라는 두 가지 새로운 공리를 도입하고, 이를 만족하는 알고리즘을 설계했습니다.
이론적 보장: 제안된 프레임워크가 단조성, 파레토 효율성, PPA, PBM 을 모두 만족함을 증명했습니다. 특히, PPA 의 하한값을 인구 분포의 특성에 따라 정량화했습니다.
확장성 및 실증 검증:
- 표형 (Tabular) 실험: 영화 추천 (MovieLens) 데이터셋에서 제안된 알고리즘이 RLHF/NLHF 대비 조작에 훨씬 강건하며, PPA 수준을 조절할 수 있음을 보였습니다.
- 대규모 언어 모델 (LLM) 실험: Qwen2.5-3B 모델을 사용하여 고차원 설정 (Instruction-tuning) 에서도 알고리즘이 확장 가능함을 입증했습니다.

4. 실험 결과 (Results)

성능 트레이드오프: $\beta$ 파라미터를 조절함으로써 **승률 (Win Rate)**과 PPA 수준 사이의 균형을 취할 수 있음을 확인했습니다. $\beta$ 가 증가하면 승률은 높아지지만 PPA 는 감소하는 경향을 보였습니다.
조작 방지 (Robustness): 기존 RLHF 는 약 6% 의 평균 정책 이득 (Manipulation Gain) 을 보인 반면, 제안된 방법 ( $F_\beta$ ) 은 $\beta=100$ 일 때 약 $0.09\%$ 수준으로 조작 이득을 극도로 낮췄습니다.
LLM 적용: Alpaca-GPT4 데이터셋과 합성 데이터셋에서 제안된 방법이 DPO(직접 선호 최적화) 대비 PPA 수준을 유지하면서도 경쟁력 있는 성능을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 AI 정렬 (Alignment) 분야에서 다음과 같은 중요한 전환점을 제시합니다.

RLHF/NLHF 의 한계 극복: 단일 보상 모델이나 내쉬 균형만으로는 해결되지 않는 '인구 비례성' 문제를 공리적 접근법으로 해결했습니다.
실용적 적용 가능성: 평가자 그룹의 레이블이 없는 실제 시나리오에서도 적용 가능한 알고리즘을 제공하여, 다원적 (Pluralistic) 인 인간 가치를 AI 시스템에 반영하는 새로운 길을 열었습니다.
사회 선택 이론과 AI 의 융합: 사회 선택 이론의 공리 (Monotonicity, Pareto, etc.) 를 현대적인 LLM 정렬 문제에 체계적으로 적용하여 이론적 엄밀성과 실용성을 동시에 확보했습니다.

결론적으로, 이 연구는 인간 피드백 기반 학습이 단순히 "승률"을 높이는 것을 넘어, 인구 통계학적 분포를 공정하게 반영하고 조작에 견고한 정책을 학습할 수 있는 새로운 패러다임을 제시합니다.