Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

이 논문은 실제 환경에 더 부합하는 승률 (win-rate) 지표를 분석 대상으로 삼아, 적절히 조정된 Best-of-N 방법이 통계적 최적성을 가지며 reward hacking 을 방지하는 개선된 변형을 제안함으로써 기존 연구의 한계를 극복하고 이 방법론의 실용적 성공을 이론적으로 설명합니다.

Ved Sriraman, Adam Block

게시일 2026-03-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍎 핵심 비유: "과일 장터와 맛없는 사과"

생각해 보세요. 당신은 사과를 사러 장터에 갔습니다. 하지만 당신은 사과가 정말 맛있는지 직접 맛볼 수 없습니다. 대신, **가짜 맛 평가원 (학습된 보상 모델)**이 사과 하나하나를 보고 "이건 100 점, 저건 90 점"이라고 점수를 매겨줍니다.

당신의 목표는 이 가짜 평가원의 점수를 믿고, **가장 맛있는 사과 (진짜 보상)**를 고르는 것입니다.

1. 기존 방법: "Best-of-N (N 개 중 최고)"

기존의 일반적인 방법은 다음과 같습니다.

  1. 장터에서 사과 N 개를 무작위로 줍습니다.
  2. 가짜 평가원이 이 N 개 사과를 모두 검사해서 점수를 매깁니다.
  3. 점수가 가장 높은 사과 하나를 골라 구매합니다.

문제점 (보상 해킹):
만약 N 이 너무 많다면, 가짜 평가원의 실수를 이용해 속는 사과를 고를 확률이 생깁니다.

  • 상황: 진짜 맛있는 사과 (진짜 보상) 는 90 점인데, 가짜 평가원은 95 점이라고 합니다. 반면, 진짜 맛없는 사과 (보상 해킹) 는 80 점인데, 가짜 평가원은 실수로 99 점이라고 매길 수도 있습니다.
  • 결과: N 이 아주 많으면, 가짜 평가원이 실수해서 99 점이라고 한 '맛없는 사과'를 골라낼 확률이 높아집니다. 즉, 점수는 높지만 실제로는 맛없는 사과를 고르게 되는 것입니다. 이를 논문에서는 **'보상 해킹 (Reward Hacking)'**이라고 부릅니다.

2. 이전 연구의 결론 (Huang et al.)

이전 연구자들은 "N 을 늘리면 보상을 해킹할 수 있으므로, Best-of-N 방법은 통계적으로 최적이 아니다. 더 복잡하고 어려운 수학적 방법을 써야 한다"고 주장했습니다. 마치 "가장 맛있는 사과를 고르려면 단순히 많이 고르면 안 되고, 복잡한 계산기를 써야 한다"는 뜻입니다.

3. 이 논문의 발견: "우리가 잘못 생각했다!"

이 논문은 **"아니요, Best-of-N 은 사실 매우 훌륭합니다!"**라고 반박합니다. 하지만 조건이 하나 있습니다.

  • 기존의 기준: "점수 (Expected Reward) 가 얼마나 높은가?"
  • 이 논문의 기준: "다른 사과와 비교했을 때 **이 사과가 이길 확률 (Win-rate)**이 높은가?"

비유로 설명하면:

  • 기존 기준: "이 사과가 100 점 만점에 몇 점일까?" (정확한 점수 측정)
  • 이 논문의 기준: "이 사과를 다른 사과와 싸우게 하면 몇 번 이길까?" (승률)

실제 AI 평가에서는 "이 답변이 저 답변보다 낫다"는 **승률 (Win-rate)**이 더 중요합니다. 논문은 **"승률을 기준으로 볼 때, Best-of-N 은 실제로 최적의 방법"**이라고 증명했습니다.

왜 그랬을까요?
이전 연구는 '점수'에 너무 집착했습니다. 하지만 '승률' 관점에서는, 가짜 평가원이 약간의 실수를 하더라도 N 개를 많이 뽑으면 결국 진짜 맛있는 사과를 찾을 확률이 가장 높다는 것이 수학적으로 증명되었습니다. 즉, 복잡한 수식을 쓸 필요 없이, 단순히 많이 뽑고 좋은 걸 고르는 게 가장 효율적이라는 것입니다.


🛡️ 새로운 해결책: "EM-정규화 Best-of-N"

하지만 여전히 '보상 해킹' (N 이 너무 많으면 점수만 높은 맛없는 사과를 고르는 문제) 은 존재합니다. 이 논문은 이를 해결하면서도 Best-of-N 의 장점을 살리는 새로운 방법을 제안합니다.

새로운 방법의 비유: "신뢰할 수 있는 장터 가이드"

가짜 평가원의 점수만 믿고 N 개를 다 뽑는 대신, **"원래 장터 (참고 모델) 에서 나올 법한 사과"**만 골라내되, 그중에서 점수가 높은 것을 고르는 것입니다.

  • 기존 Best-of-N: "점수가 가장 높은 사과를 고르세요." (N 이 많으면 장터에 없는 이상한 사과도 고를 수 있음)
  • 새로운 방법 (EM-정규화): "장터에서 나올 법한 사과들 중에서, 점수가 상위 10% 에 드는 사과만 고르세요."

이 방법은 두 마리 토끼를 다 잡습니다.

  1. 보상 해킹 방지: 장터에서 나올 법한 범위 (Reference Model) 를 벗어나지 않으므로, 점수만 높고 실체가 없는 '괴상한 사과'를 고를 확률이 줄어듭니다.
  2. 최적 성능 유지: 여전히 Best-of-N 과 같은 통계적 효율성을 가지며, N 을 늘려도 성능이 떨어지지 않습니다.

💡 요약: 이 논문이 우리에게 주는 메시지

  1. Best-of-N 은 나쁘지 않습니다: 복잡한 수학적 분석을 거친 이전 연구와 달리, 실제 AI 평가에서 중요한 '승률 (Win-rate)' 기준으로는 Best-of-N 이 이미 최고의 방법 중 하나입니다.
  2. 단순함이 승리합니다: 복잡한 정규화나 추가 학습 없이, 단순히 "많이 뽑고 좋은 걸 고르는" 방식이 실제로 매우 효과적입니다.
  3. 해킹 방지법 발견: 하지만 N 을 무한정 늘리면 '보상 해킹'이 일어날 수 있습니다. 이를 막기 위해 "원래 모델의 범위를 벗어나지 않으면서 상위 점수를 고르는" 아주 간단하고 실용적인 변형 방법을 제안했습니다.

결론적으로, 이 논문은 AI 개발자들이 "복잡한 알고리즘을 만들려고 애쓰지 말고, 잘 다듬어진 단순한 Best-of-N 방법을 쓰되, 약간의 규칙 (정규화) 만 추가하면 된다"는 것을 수학적으로 증명해 주었습니다. 마치 **"복잡한 요리 레시피보다, 신선한 재료를 많이 사서 가장 좋은 것을 고르는 게 더 맛있는 요리를 만드는 길"**이라는 뜻입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →