Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

이 논문은 이진 선호도 모델의 임의적 수정을 넘어, 리커트 척도 기반의 서열적 인간 피드백을 체계적으로 활용하기 위한 이론적으로 정립된 보상 모델링 프레임워크를 제안하고, 이를 통해 다양한 평가 기준에서 기존 방법보다 우수한 성능을 입증했습니다.

Amirhossein Afsharrad, Ruida Zhou, Luca Viano, Sanjay Lall, Mohammad Ghavamzadeh

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

"이기는 것"보다 "얼마나 이겼는지"가 중요합니다: AI 를 가르치는 새로운 방법

이 논문은 인공지능 (AI) 을 인간과 더 잘 어울리게 만드는 '보상 모델 (Reward Model)'을 훈련시키는 방식을 혁신적으로 바꾼 연구입니다. 기존 방식의 문제점을 지적하고, 더 정교하고 수학적으로 확실한 새로운 방법을 제안합니다.

1. 문제: "이겼다/졌다"만 보는 구식 방식

지금까지 AI 를 훈련시킬 때, 인간이 AI 의 답변을 평가하는 방식은 주로 **이진법 (Binary)**이었습니다.

  • 상황: 두 개의 답변 (A 와 B) 을 보여줍니다.
  • 평가: "A 가 더 좋아요" (이긴 것) 아니면 "B 가 더 좋아요" (진 것).
  • 한계: 이 방식은 차이의 크기를 무시합니다.

🍎 비유: 사과와 오렌지
만약 AI 가 사과를 고르고, 인간이 "사과가 오렌지보다 훨씬 더 맛있다"고 했다고 칩시다.

  • 기존 방식: "사과가 이겼다!"라고만 기록합니다. "얼마나 더 맛있는지"는 기록하지 않죠.
  • 문제점: 만약 AI 가 "사과가 오렌지보다 아주 조금 더 맛있다"고 판단했을 때와 "사과가 오렌지보다 천하의 미식가도 놀랄 정도로 더 맛있다"고 판단했을 때, 기존 AI 는 두 경우를 똑같이 "이겼다"고만 처리합니다. 이는 AI 가 미묘한 차이를 이해하는 능력을 키워주지 못합니다.

2. 해결책: "리커트 척도 (Likert Scale)"를 활용한 새로운 방식

이 논문은 인간이 실제로는 단순히 "이겼다/졌다"가 아니라, **"약간 더 좋음", "보통으로 좋음", "매우 좋음"**과 같이 **단계 (Ordinal)**로 평가한다는 점에 주목합니다.

저자들은 이를 **순서 회귀 (Ordinal Regression)**라는 통계학적 프레임워크로 해결했습니다.

🎯 비유: 고등학교 시험 성적

  • 기존 방식: 100 점 만점에 60 점 이상이면 '합격 (이긴 것)', 60 점 미만이면 '불합격 (진 것)'.
  • 새로운 방식: 60 점, 70 점, 80 점, 90 점, 100 점으로 구체적인 점수대를 매깁니다.
    • "약간 더 좋음" = 70 점
    • "매우 좋음" = 90 점
    • "완전 차이" = 100 점

이제 AI 는 단순히 "누가 이겼는지"가 아니라, **"얼마나 이겼는지"**를 학습하게 됩니다.

3. 핵심 기술: "가상의 문 (Thresholds)"을 스스로 찾다

기존 연구자들은 "약간 더 좋음"과 "매우 좋음"의 기준을 사람이 임의로 정해주거나 (예: 점수 차이를 1 점, 2 점, 3 점으로 고정), 복잡한 수식 (휴리스틱) 을 붙여서 해결하려 했습니다. 이는 마치 사람이 직접 "이 정도 차이가 나면 3 점이다"라고 정해놓고 AI 를 가르치는 것과 같습니다.

이 논문의 혁신은 AI 가 스스로 그 기준 (문) 을 찾게 한다는 점입니다.

🚪 비유: 문이 있는 복도
AI 의 판단 (점수) 이 흐르는 긴 복도가 있다고 상상해 보세요.

  • 기존 방식: 사람이 "이 문은 10 점, 저 문은 20 점"이라고 스티커를 붙여놓고 AI 를 훈련시킵니다. 만약 스티커가 잘못 붙으면 AI 도 엉뚱한 것을 배웁니다.
  • 이 논문의 방식: 문 (기준) 의 위치를 AI 가 데이터를 보며 스스로 이동시킵니다.
    • "아, 사람들이 '약간 더 좋음'이라고 할 때는 점수가 대략 15 점 사이인가?"
    • "그럼 이 문을 15 점 위치에 두자."
    • "매우 좋음"은 30 점 사이인가? 문은 30 점으로 이동!

이렇게 하면 AI 는 인간의 평가 기준을 데이터에서 자연스럽게 학습하게 되어, 훨씬 더 정교하고 유연한 판단을 내릴 수 있습니다.

4. 왜 이것이 중요한가? (실제 효과)

이 새로운 방식을 적용한 결과, 놀라운 변화가 일어났습니다.

  1. 실수할 때도 덜 실수한다: 기존 방식은 AI 가 틀릴 때 "완전 엉뚱한 것"을 확신하며 틀리는 경우가 많았습니다. 하지만 이 새로운 방식은 틀릴 때도 "아, 이건 애매하구나"라고 약하게 틀립니다.
    • 비유: 기존 AI 는 "이게 정답이다!"라고 소리치며 틀리면 큰일 나지만, 새로운 AI 는 "음... 아마도 이건 아닐 것 같은데?"라고 속삭이며 틀립니다. 이는 AI 가 **자신의 한계를 알고 있다 (Calibration)**는 뜻입니다.
  2. 수학적으로 확실하다: 임의의 규칙을 붙이는 게 아니라, 수학적으로 증명된 프레임워크를 사용하므로 더 안정적이고 예측 가능합니다.
  3. 다양한 상황에 강함: 인간이 실수하거나 (노이즈), 평가 기준이 조금씩 달라져도 AI 는 이를 잘 견디며 학습합니다.

5. 결론: 더 똑똑한 AI 를 위한 필수 조건

이 논문은 **"인간의 평가는 단순한 이기/지기가 아니라, 그 강도와 정도를 가진 복잡한 신호"**임을 깨닫게 해줍니다.

기존의 "이기면 1 점, 지면 0 점" 방식은 너무 단순했습니다. 이제 우리는 **"얼마나 이겼는지"**를 수학적으로 정확하게 학습하는 방식을 통해, AI 가 인간의 미세한 감정과 선호도를 더 잘 이해하고, 더 안전하고 신뢰할 수 있는 답변을 내놓도록 만들 수 있게 되었습니다.

한 줄 요약:

"AI 에게 '누가 이겼는지'만 알려주는 게 아니라, **'얼마나 이겼는지'**를 스스로 배울 수 있게 가르쳐서, 더 똑똑하고 안전한 AI 를 만들자!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →