Each language version is independently generated for its own context, not a direct translation.

"이기는 것"보다 "얼마나 이겼는지"가 중요합니다: AI 를 가르치는 새로운 방법

이 논문은 인공지능 (AI) 을 인간과 더 잘 어울리게 만드는 '보상 모델 (Reward Model)'을 훈련시키는 방식을 혁신적으로 바꾼 연구입니다. 기존 방식의 문제점을 지적하고, 더 정교하고 수학적으로 확실한 새로운 방법을 제안합니다.

1. 문제: "이겼다/졌다"만 보는 구식 방식

지금까지 AI 를 훈련시킬 때, 인간이 AI 의 답변을 평가하는 방식은 주로 **이진법 (Binary)**이었습니다.

상황: 두 개의 답변 (A 와 B) 을 보여줍니다.
평가: "A 가 더 좋아요" (이긴 것) 아니면 "B 가 더 좋아요" (진 것).
한계: 이 방식은 차이의 크기를 무시합니다.

🍎 비유: 사과와 오렌지
만약 AI 가 사과를 고르고, 인간이 "사과가 오렌지보다 훨씬 더 맛있다"고 했다고 칩시다.

기존 방식: "사과가 이겼다!"라고만 기록합니다. "얼마나 더 맛있는지"는 기록하지 않죠.
문제점: 만약 AI 가 "사과가 오렌지보다 아주 조금 더 맛있다"고 판단했을 때와 "사과가 오렌지보다 천하의 미식가도 놀랄 정도로 더 맛있다"고 판단했을 때, 기존 AI 는 두 경우를 똑같이 "이겼다"고만 처리합니다. 이는 AI 가 미묘한 차이를 이해하는 능력을 키워주지 못합니다.

2. 해결책: "리커트 척도 (Likert Scale)"를 활용한 새로운 방식

이 논문은 인간이 실제로는 단순히 "이겼다/졌다"가 아니라, **"약간 더 좋음", "보통으로 좋음", "매우 좋음"**과 같이 **단계 (Ordinal)**로 평가한다는 점에 주목합니다.

저자들은 이를 **순서 회귀 (Ordinal Regression)**라는 통계학적 프레임워크로 해결했습니다.

🎯 비유: 고등학교 시험 성적

기존 방식: 100 점 만점에 60 점 이상이면 '합격 (이긴 것)', 60 점 미만이면 '불합격 (진 것)'.
새로운 방식: 60 점, 70 점, 80 점, 90 점, 100 점으로 구체적인 점수대를 매깁니다.
- "약간 더 좋음" = 70 점
- "매우 좋음" = 90 점
- "완전 차이" = 100 점

이제 AI 는 단순히 "누가 이겼는지"가 아니라, **"얼마나 이겼는지"**를 학습하게 됩니다.

3. 핵심 기술: "가상의 문 (Thresholds)"을 스스로 찾다

기존 연구자들은 "약간 더 좋음"과 "매우 좋음"의 기준을 사람이 임의로 정해주거나 (예: 점수 차이를 1 점, 2 점, 3 점으로 고정), 복잡한 수식 (휴리스틱) 을 붙여서 해결하려 했습니다. 이는 마치 사람이 직접 "이 정도 차이가 나면 3 점이다"라고 정해놓고 AI 를 가르치는 것과 같습니다.

이 논문의 혁신은 AI 가 스스로 그 기준 (문) 을 찾게 한다는 점입니다.

🚪 비유: 문이 있는 복도
AI 의 판단 (점수) 이 흐르는 긴 복도가 있다고 상상해 보세요.

기존 방식: 사람이 "이 문은 10 점, 저 문은 20 점"이라고 스티커를 붙여놓고 AI 를 훈련시킵니다. 만약 스티커가 잘못 붙으면 AI 도 엉뚱한 것을 배웁니다.
이 논문의 방식: 문 (기준) 의 위치를 AI 가 데이터를 보며 스스로 이동시킵니다.
- "아, 사람들이 '약간 더 좋음'이라고 할 때는 점수가 대략 15 점 사이인가?"
- "그럼 이 문을 15 점 위치에 두자."
- "매우 좋음"은 30 점 사이인가? 문은 30 점으로 이동!

이렇게 하면 AI 는 인간의 평가 기준을 데이터에서 자연스럽게 학습하게 되어, 훨씬 더 정교하고 유연한 판단을 내릴 수 있습니다.

4. 왜 이것이 중요한가? (실제 효과)

이 새로운 방식을 적용한 결과, 놀라운 변화가 일어났습니다.

실수할 때도 덜 실수한다: 기존 방식은 AI 가 틀릴 때 "완전 엉뚱한 것"을 확신하며 틀리는 경우가 많았습니다. 하지만 이 새로운 방식은 틀릴 때도 "아, 이건 애매하구나"라고 약하게 틀립니다.
- 비유: 기존 AI 는 "이게 정답이다!"라고 소리치며 틀리면 큰일 나지만, 새로운 AI 는 "음... 아마도 이건 아닐 것 같은데?"라고 속삭이며 틀립니다. 이는 AI 가 **자신의 한계를 알고 있다 (Calibration)**는 뜻입니다.
수학적으로 확실하다: 임의의 규칙을 붙이는 게 아니라, 수학적으로 증명된 프레임워크를 사용하므로 더 안정적이고 예측 가능합니다.
다양한 상황에 강함: 인간이 실수하거나 (노이즈), 평가 기준이 조금씩 달라져도 AI 는 이를 잘 견디며 학습합니다.

5. 결론: 더 똑똑한 AI 를 위한 필수 조건

이 논문은 **"인간의 평가는 단순한 이기/지기가 아니라, 그 강도와 정도를 가진 복잡한 신호"**임을 깨닫게 해줍니다.

기존의 "이기면 1 점, 지면 0 점" 방식은 너무 단순했습니다. 이제 우리는 **"얼마나 이겼는지"**를 수학적으로 정확하게 학습하는 방식을 통해, AI 가 인간의 미세한 감정과 선호도를 더 잘 이해하고, 더 안전하고 신뢰할 수 있는 답변을 내놓도록 만들 수 있게 되었습니다.

한 줄 요약:

"AI 에게 '누가 이겼는지'만 알려주는 게 아니라, **'얼마나 이겼는지'**를 스스로 배울 수 있게 가르쳐서, 더 똑똑하고 안전한 AI 를 만들자!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 을 인간 선호도와 정렬 (Alignment) 하는 과정에서 **보상 모델 (Reward Modeling)**은 핵심적인 역할을 합니다. 현재 대부분의 방법론 (RLHF, DPO 등) 은 브래들리 - 테리 (Bradley-Terry, BT) 모델에 기반하여 이진 (Binary) 선호도 데이터 (A 가 B 보다 낫다/나쁘다) 를 학습합니다.

그러나 실제 인간 주석자들은 **리커트 척도 (Likert scale)**와 같은 서열 (Ordinal) 피드백을 제공합니다. (예: "훨씬 더 좋음", "조금 더 좋음", "약간 더 좋음" 등).

현재의 한계: 기존 연구들은 이러한 서열 정보를 활용하기 위해 BT 손실 함수에 **임의의 휴리스틱 (Ad-hoc heuristics)**을 적용합니다. (예: 선호도 강도에 따른 마진 (margin) 추가, 손실 가중치 스케일링, 소프트 라벨 처리 등).
근본적 문제: 이러한 방법들은 인간이 어떻게 서열 라벨을 부여하는지에 대한 수학적 모델이 부재하며, 마진 크기나 스케일링 계수 등의 하이퍼파라미터를 수동으로 조정해야 합니다. 이는 데이터셋에 따라 민감하고, 일관된 이론적 근거가 부족합니다.

2. 제안 방법론 (Methodology)

저자들은 보상 모델링 문제를 이산 서열 회귀 (Discrete Ordinal Regression) 문제로 재정의하고, 이를 위한 원칙 있는 (Principled) 프레임워크를 제안합니다.

가. 핵심 아이디어: 서열 회귀 프레임워크 적용

잠재 변수 및 임계값 (Thresholds): 보상 차이 $s_\phi(x, y, y') = r_\phi(x, y) - r_\phi(x, y')$ 가 연속적인 공간에서 정의되고, 이를 $2K+1$ 개의 구간으로 나누는 **학습 가능한 임계값 (Thresholds, $\zeta$ )**을 도입합니다.
서열 구조: 주석자가 "약간 더 좋음"이라고 한 경우, 보상 차이가 특정 임계값 구간 내에 있음을 의미합니다.

나. 손실 함수 (Loss Functions)

두 가지 이론적으로 엄밀한 손실 함수를 유도했습니다:

음의 로그 가능도 손실 (Negative Log-Likelihood, NLL):
- 확률적 접근: 인간이 순서형 로짓 모델 (Ordered Logit Model) 을 따른다고 가정합니다.
- 특정 선호도 레벨 $z$ 가 관찰될 확률을 누적 분포 함수 (CDF) 로 모델링하고, 이를 최대화합니다.
- $P(z|x)$ 를 명시적으로 모델링하여 확률적 해석이 가능합니다.
모든 임계값 손실 (All-Threshold, AT Loss):
- 마진 기반 접근: 확률적 가정을 하지 않고, 마진 기반 (Large-margin) 최적화 기법을 차용합니다.
- 예측된 보상 차이가 올바른 임계값 구간 내에 들어오도록 모든 임계값 위반에 대해 페널티를 부과합니다.
- 오분류의 심각도에 따라 페널티가 증가하도록 설계되었습니다.

다. 최적화 및 정규화 (Optimization & Regularization)

정규화의 필요성 (Theorem 3.1): 임계값과 보상 파라미터를 동시에 학습할 때, 정규화 (Regularization) 가 없으면 손실이 0 에 수렴하기 위해 임계값과 보상이 무한히 커지는 비유계 (Unbounded) 해가 존재함을 증명했습니다. 이를 방지하기 위해 임계값에 L2 정규화를 적용합니다.
대칭성 vs 비대칭성 (Symmetric vs Asymmetric):
- 대칭 모델: "A 가 B 보다 $k$ 만큼 좋음"과 "B 가 A 보다 $k$ 만큼 나쁨"이 대칭적이라는 가정을 통해 $\zeta_{-k} = -\zeta_k$ 를 강제합니다. 파라미터 수를 줄이고 과적합을 방지합니다.
- 비대칭 모델: 인간의 인지 편향 (Loss aversion 등) 을 고려하여 모든 임계값을 독립적으로 학습합니다.
재파라미터화 (Reparameterization): 임계값의 순서 제약 ( $\zeta_{-K} < \dots < \zeta_K$ ) 을 만족시키기 위해 지수 함수를 이용한 변환을 통해 제약 없는 최적화 문제로 변환합니다.

3. 주요 기여 (Key Contributions)

첫 번째 원칙 있는 프레임워크: 이진 선호도 모델의 임의적 수정을 넘어, Likert 척도 기반의 서열 피드백을 통합하는 수학적으로 엄밀한 프레임워크를 처음 제시했습니다.
이론적 분석:
- 정규화 없이는 최적화 문제가 해를 갖지 않음을 증명 (Theorem 3.1).
- 인간 선호도가 대칭적일 경우, 학습된 임계값이 자연스럽게 대칭이 됨을 증명 (Theorem 3.2).
휴리스틱 제거: 마진 크기나 스케일링 계수 같은 수동 하이퍼파라미터를 제거하고, 모든 파라미터를 데이터에서 직접 학습하도록 설계했습니다.
DPO 확장 가능성: 제안된 프레임워크가 직접 선호도 최적화 (DPO) 알고리즘에도 자연스럽게 확장 가능함을 보였습니다.

4. 실험 결과 (Results)

HelpSteer2, HelpSteer3 데이터셋과 Llama-3.1, Mistral, Zephyr 모델을 사용하여 RewardBench 및 RM-Bench 에서 평가했습니다.

성능 우위: 제안된 NLL-Symmetric 방법이 모든 벤치마크에서 기존 휴리스틱 방법 (Margin BT, Scaled BT, Soft Label) 보다 일관되게 우월하거나 경쟁력 있는 성능을 보였습니다. 평균적으로 2~5% 향상.
서열 예측 정확도: 단순 이진 분류 정확도를 넘어, 선호도 강도 예측에서도 탁월한 성능을 보였습니다.
- 정확도 (Exact Accuracy): 약 55%
- 1 단계 이내 정확도 (Acc@1): 약 85% (즉, 실제 선호도 강도와 1 단계 이내로 예측하는 비율이 매우 높음).
오류 심각도 (Error Severity):
- 기존 BT 모델은 큰 마진 (예: 20) 으로 잘못된 예측을 하는 경우가 많았으나, 제안 방법은 오류 발생 시에도 **매우 낮은 마진 (평균 0.501)**을 보였습니다. 이는 모델이 불확실한 경우에만 낮은 신뢰도로 예측함을 의미하며, RL 단계에서 정책 최적화를 잘못 이끄는 위험을 크게 줄입니다.
정규화 효과: 정규화 없이는 임계값이 발산하여 불안정해지지만, L2 정규화를 적용하면 안정적인 수렴을 확인했습니다.
노이즈 강인성:
- 체계적 시프트 노이즈 (Systematic Shift): 주석자가 일관되게 편향된 경우에도 모델은 학습된 임계값을 통해 편향을 보정하여 성능이 거의 저하되지 않았습니다.
- 무작위 노이즈 (Random Noise): 50% 까지 노이즈가 섞여도 성능이 점진적으로만 저하되는 Graceful Degradation을 보였습니다.

5. 의의 및 결론 (Significance)

이론적 기반 마련: 인간 피드백의 풍부한 서열 정보를 활용하기 위해 '임의의 수정'이 아닌 '통계적 모델링'을 기반으로 한 새로운 표준을 제시했습니다.
해석 가능성: 학습된 임계값을 통해 주석자가 선호도 레벨을 어떻게 구분하는지 (예: '약간 좋음'과 '매우 좋음'의 경계) 에 대한 인사이트를 제공합니다.
실용적 가치: RLHF 파이프라인에서 더 정교하고 신뢰할 수 있는 보상 신호를 제공하여, 최종 생성 모델의 품질과 안전성을 높이는 데 기여합니다.
미래 지향성: 이 프레임워크는 다중 측면 평가 (Multi-aspect ratings) 나 불확실성 추정 등 더 복잡한 피드백 형태로 자연스럽게 확장 가능하여, 향후 LLM 정렬 연구의 기초가 될 것으로 기대됩니다.

요약하자면, 이 논문은 인간의 서열적 선호도 데이터를 이진 분류의 단순 확장이 아닌, 독립적인 통계적 모델 (서열 회귀) 로 접근함으로써, 더 정확하고 안정적이며 해석 가능한 보상 모델을 구축하는 방법을 제시했습니다.

Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback