Diverging Preferences: When do Annotators Disagree and do Models Know?

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 사람들과 대화할 때, 왜 사람마다 의견이 갈리는지, 그리고 AI 가 그걸 제대로 이해하고 있는지"**에 대한 흥미로운 이야기를 담고 있습니다.

비유하자면, 이 연구는 **"AI 가 요리사를 훈련시키는 과정"**에서 벌어지는 일을 분석한 것입니다.

1. 문제의 시작: "맛있는 음식"에 대한 의견은 왜 다를까?

우리가 AI 를 훈련시킬 때, 인간들이 "이 답변이 더 좋아요 (A)" 아니면 "저 답변이 더 좋아요 (B)"라고 투표합니다. 보통은 모든 사람이 같은 답을 골라야 한다고 생각하죠.

하지만 이 연구는 **"아니요, 사람들은 정말로 의견이 많이 갈립니다"**라고 말합니다.

비유: 어떤 사람이 "오늘 저녁 뭐 먹지?"라고 물었을 때, A 는 "매운 탕이 최고야!"라고 하고, B 는 "가볍게 샐러드 먹자"라고 합니다. 둘 다 틀린 말이 아닙니다. 각자의 취향과 상황 (배고픔, 건강 상태 등) 이 다르기 때문입니다.
연구 결과: 인간들이 AI 답변을 평가할 때, 약 30% 이상의 경우 서로 다른 의견을 냈습니다. 그리고 이 disagreement(불일치) 는 대부분 '실수' 때문이 아니라, 사람마다 다른 취향 (성격, 배경, 상황) 때문이었습니다.

2. 기존 AI 의 실수: "다수결"만 믿는 맹목적인 요리사

기존의 AI 훈련 방식은 **"다수결 (다수가 옳다)"**을 절대적인 진리로 여겼습니다.

비유: 100 명의 심사위원이 있는데 51 명이 "매운 탕"을, 49 명이 "샐러드"를 좋아한다고 합시다. 기존 AI 는 "오케이, 51 명이 더 많으니 '매운 탕'이 정답이다!"라고 결론 내리고, 샐러드를 좋아하는 49 명은 무시해버립니다.
문제점: 이렇게 훈련된 AI 는 단 하나의 '정답'만 내놓는 로봇이 됩니다. 하지만 세상은 그렇게 단순하지 않죠. 어떤 사람은 매운 걸 원하고, 어떤 사람은 가볍게 원할 수 있는데, AI 는 그걸 구분하지 못하고 무조건 '매운 탕'만 줍니다.

3. 연구팀의 해결책: "분포 (Distribution)"라는 새로운 안경

연구팀은 AI 에게 **"정답은 하나일 수도 있고, 여러 개일 수도 있다"**는 것을 가르치기 위해 새로운 방법을 고안했습니다.

새로운 방법: AI 에게 점수를 줄 때, "이 답변은 100 점!"이라고 딱 정해주는 게 아니라, **"이 답변은 100 점일 확률이 50%, 50 점일 확률이 50%"**처럼 **점수의 범위 (분포)**로 가르쳤습니다.
효과: 이렇게 훈련된 AI 는 "아, 이 질문은 사람마다 의견이 갈리는구나. 매운 탕을 좋아하는 사람에게는 탕을, 샐러드 좋아하는 사람에게는 샐러드를 추천해줘야겠다"라고 생각할 수 있게 됩니다.
결과: 기존 방식보다 의견이 갈리는 경우를 훨씬 잘 찾아냈고, AI 가 더 유연하게 반응하도록 만들었습니다.

4. 평가의 함정: "심사위원 AI"의 편견

이 논문은 AI 를 평가할 때 쓰는 **'심사위원 AI (LLM-as-Judge)'**에도 문제가 있다고 지적합니다.

상황: 인간이 "이 답변이 나빠요"라고 거부했을 때 (예: 위험한 질문을 했을 때), 심사위원 AI 는 "아니, 그건 너무 무뚝뚝한 거야. 더 친절하게 설명해줘야지!"라고 점수를 깎습니다.
비유: 어떤 사람이 "나 지금 너무 화나서 누군가 때리고 싶어"라고 말했을 때, AI 가 "그건 위험하니까 안 돼요"라고 거절했다고 칩시다. 그런데 심사위원 AI 는 "왜 그렇게 딱 잘라 말해? 좀 더 부드럽게 설명해줬어야지"라고 비난합니다.
결론: 이렇게 되면, 안전하고 윤리적인 AI가 오히려 점수가 낮아지는 부조리가 발생합니다. 연구팀은 "의견이 갈리는 질문 (분쟁적인 질문) 은 평가에서 제외하거나, AI 가 거절하는 것을 용납해줘야 한다"고 제안합니다.

5. 요약: 이 논문이 우리에게 주는 메시지

사람은 다릅니다: AI 에게 "정답"은 하나가 아니라, 사람마다 다를 수 있습니다.
다수결은 위험합니다: 무조건 다수가 옳다고 믿으면, 소수의 의견이나 다양한 취향을 가진 사용자를 무시하게 됩니다.
AI 는 유연해야 합니다: AI 는 "이건 사람마다 다를 수 있어"라고 인정하고, 상황에 맞춰 다양한 답변을 줄 수 있어야 합니다.
평가도 바꿔야 합니다: AI 를 평가할 때도 "거절"이나 "질문 재확인" 같은 행동을 나쁜 점수로 매기지 말고, 그 상황을 이해해줘야 합니다.

한 줄 요약:

"AI 를 훈련시킬 때 '다수가 옳다'는 생각만 하면 안 됩니다. 사람마다 취향이 다르다는 걸 인정하고, AI 가 그 다양성을 이해할 수 있도록 가르쳐야 진정한 '모두를 위한 AI'가 될 수 있습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

대형 언어 모델 (LLM) 을 인간 선호도 데이터로 정렬 (Alignment) 하는 과정에서, annotator(주석자) 간의 이견 (Disagreement) 은 흔히 단순한 '노이즈 (noise)'로 간주되어 제거되거나 다수결 (Majority Vote) 로 처리됩니다. 그러나 본 논문은 이러한 이견이 단순한 오류가 아니라, 서로 다른 사용자 관점과 선호도 (Pluralistic Preferences) 의 충돌에서 비롯된 것일 수 있음을 지적합니다.

기존의 보상 모델 (Reward Model) 과 LLM-as-Judge 평가 방법은 이질적인 선호를 가진 경우에도 단일한 '승자'를 결정하도록 설계되어 있어, 다양한 사용자 집단의 요구를 반영하는 다원적 정렬 (Pluralistic Alignment) 이 실패하고 편향된 모델이 학습될 위험이 있습니다.

2. 방법론 (Methodology)

A. 데이터 및 분류 체계 (Taxonomy)

데이터셋: 기존 공개 데이터셋인 MultiPref (10k 쌍, 4 명 주석자) 과 HelpSteer2 (12k 쌍, 3~5 명 주석자) 의 개별 주석 데이터를 재분석하여, annotator 간 이견이 발생하는 사례를 추출했습니다.
이견 원인 분류 체계 (Taxonomy): 4 가지 상위 클래스와 10 가지 세부 카테고리로 이견 원인을 분류했습니다.
- Task Underspecification: 프롬프트가 모호하여 다양한 해석이 가능한 경우.
- Response Style: 답변의 길이 (Verbosity), 형식 (Format), 복잡도 (Complexity), 미적 취향 (Aesthetic Taste) 차이.
- Refusals: 안전성 (Safety) 이나 모델 능력 (Capabilities) 문제로 거절 (Refusal) 하는지, 아니면 수용 (Comply) 하는지에 대한 이견.
- Errors: 환각 (Hallucination) 이나 오류로 인한 판단 차이.
통계적 발견: 두 데이터셋 전체의 약 30% 이상에서 annotator 간 이견이 발생했으며, 이 중 75% 이상은 단순 오류가 아닌 개인의 취향이나 프롬프트의 모호성 등 합리적인 이유에서 비롯된 것으로 확인되었습니다.

B. 기존 보상 모델의 한계 분석

Bradley-Terry 및 MSE-Regression과 같은 표준 보상 모델은 다수결로 라벨을 집계하거나 단일 스칼라 값을 예측하도록 훈련됩니다.
실험 결과, 이러한 모델들은 annotator 간 이견이 있는 경우 (Diverging Preferences) 와 높은 합의가 있는 경우 (High-Agreement) 를 구별하지 못하며, 이견이 있는 경우에도 마치 명확한 선호가 있는 것처럼 한쪽 답변에 높은 보상을 부여하는 경향을 보였습니다.

C. 제안된 방법: 분산 보상 모델 (Distributional Reward Models)

단일 값 (Scalar) 이 아닌 확률 분포 (Distribution) 로 보상을 모델링하는 새로운 접근법을 제안합니다.

Mean-Var Reward Models (KL): 각 답변 $A$ $A$ 에 대한 보상을 정규 분포 $r_A \sim N(\mu_A, \sigma^2_A)$ $r_{A} \sim N (μ_{A}, σ_{A}^{2})$ 로 모델링합니다.
- $\mu_A$ : 평균 보상 (선호도).
- $\sigma^2_A$ : 분산 (주석자 간의 이견 정도/다양성).
- 두 답변 $A, B$ 의 차이를 분포의 차이로 계산하여, 이견이 큰 경우 분산이 커지도록 학습합니다.
Classification-based Reward Models: Likert-5 점수 분포를 직접 예측하는 분류 모델을 사용합니다.
학습 방식: 모든 개별 주석 데이터를 활용하여 KL-Divergence 손실 함수로 학습합니다.

D. LLM-as-Judge 평가 편향 분석 및 필터링

기존 LLM-as-Judge 평가 (예: Chatbot Arena) 가 이견이 있는 사례에서 특정 답변 스타일 (예: 거절보다는 수용, 명확한 답변보다는 모호한 답변) 을 편향적으로 선호하는지 분석했습니다.
해결책: 제안된 분산 보상 모델을 활용하여 평가 벤치마크 (WildBench) 에서 '이견이 심한 (Divisive)' 프롬프트를 식별하고 제거하는 방법을 제안했습니다.

3. 주요 결과 (Results)

A. 보상 모델 성능

선호도 정확도 (Preference Accuracy): 제안된 분산 보상 모델 (Mean-Var KL) 은 기존 단일 값 모델과 유사하거나 더 높은 선호도 예측 정확도를 보였습니다.
이견 식별 능력 (Diverging ID AUROC):
- 기존 단일 값 모델 (Bradley-Terry, MSE-Regression) 은 이견이 있는 사례를 식별하는 데 무작위 수준 (AUROC $\approx$ 0.5) 에 머무르거나 그보다 낮았습니다.
- 제안된 Mean-Var (KL) 모델은 0.16 포인트 향상된 AUROC 를 기록하며, 이견이 있는 사례와 높은 합의가 있는 사례를 효과적으로 구분했습니다.
- Classification (KL) 모델은 HelpSteer2 데이터에서 가장 높은 성능을 보였습니다.

B. LLM-as-Judge 편향 발견

LLM-as-Judge 는 annotator 간 이견이 있는 경우에도 높은 확률로 '승자'를 결정했습니다.
거절 (Refusal) 편향: 안전 문제나 모호한 프롬프트에 대해 거절하거나 추가 설명을 요청하는 답변보다, 무조건 수용하거나 구체적인 답변을 제공하는 답변을 선호하는 경향이 강했습니다.
과도한 형식화 편향: 답변의 형식이나 길이에 따라 편향된 평가를 내렸습니다.

C. 벤치마크 정제 효과

WildBench 벤치마크의 상위 5% 이견 사례를 분석한 결과, **42%**가 '수용 vs 거절' 이견, **16%**가 '과도한 모호성 (Task Underspecification)' 이견이었습니다.
이러한 사례에서 LLM-as-Judge 는 거절이나 질문을 통해 모호성을 해소하려는 다원적 정렬 모델들을 불공정하게 낮게 평가했습니다.

4. 주요 기여 (Key Contributions)

이견의 본질 규명: annotator 간 이견이 단순 노이즈가 아니라, 개인의 취향과 관점 차이에서 비롯된다는 것을 실증적으로 증명하고 체계적인 분류 체계를 제시했습니다.
새로운 보상 모델링: 단일 값이 아닌 분산 (Distribution) 기반 보상 모델을 제안하여, 모델이 이견의 존재를 인지하고 학습할 수 있도록 했습니다. 이는 다원적 정렬 LLM 개발의 핵심 기술입니다.
평가 편향 해결: LLM-as-Judge 평가 방법론이 이견이 있는 사례에서 편향된 결정을 내린다는 것을 지적하고, 분산 보상 모델을 활용하여 평가 데이터셋에서 이견 사례를 식별하고 제거하는 실용적인 방법을 제시했습니다.

5. 의의 및 시사점 (Significance)

다원적 정렬 (Pluralistic Alignment) 의 실현: 모든 사용자를 위한 공정한 AI 를 만들기 위해서는 '단 하나의 정답'을 찾는 것이 아니라, 다양한 선호도를 인정하고 이를 모델링할 수 있어야 함을 강조합니다.
RLHF 파이프라인의 개선: 기존 RLHF 파이프라인이 이견을 제거하는 방향으로 작동하여 특정 집단의 선호도만 반영하는 문제를 해결할 수 있는 새로운 방향성을 제시합니다.
평가 체계의 성숙: LLM 평가 시, 이견이 있는 모호한 사례를 배제하거나 별도로 처리함으로써 모델의 실제 능력을 더 정확하게 측정할 수 있음을 보여줍니다.

결론적으로, 본 논문은 LLM 개발 과정에서 발생하는 인간 주석자 간의 이견을 '해결해야 할 오류'가 아닌 '학습해야 할 다양성'으로 재정의하며, 이를 모델링하고 평가하는 새로운 기술적 프레임워크를 제시했습니다.