Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

이 논문은 OXRL 프레임워크를 통해 51 가지 후학습 정렬 알고리즘을 대규모로 비교한 결과, 모델 규모에 따라 알고리즘 성능 순위가 역전되고 손실 함수 변경의 효과는 미미하며 알고리즘 선택의 영향력은 학습 데이터 분포에 국한됨을 규명했습니다.

Xiaoyi Li

게시일 2026-03-23
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "요리사 (알고리즘) vs. 주방 크기 (모델 규모)"

이 연구는 "어떤 요리법이 가장 맛있는 요리를 만드는가?"를 묻는 실험입니다. 하지만 연구자들은 단순히 요리법만 비교한 게 아니라, **작은 주방 (작은 모델)**과 **거대한 주방 (큰 모델)**에서 같은 요리법들이 어떻게 다른 결과를 내는지 관찰했습니다.

1. 놀라운 발견: "작은 주방의 천재는 큰 주방에서 실패한다"

  • 작은 주방 (15 억 파라미터 모델): 여기서 가장 잘한 요리법은 **'SGRPO(온라인 RL)'**였습니다. 마치 작은 식당에서 즉흥적으로 재료를 써서 최고의 요리를 만드는 천재 요리사 같았죠.
  • 큰 주방 (70 억 파라미터 모델): 그런데 주방이 커지자 상황이 완전히 뒤집혔습니다. 작은 주방에서는 꼴찌였던 **'SimPO'**라는 요리법이 갑자기 최고의 요리사가 되었습니다. 반면, 작은 주방에서 1 위였던 SGRPO 는 그 자리에 없었습니다.
  • 교훈: "어떤 요리법이 좋은지는 주방 (모델) 의 크기에 따라 완전히 바뀝니다." 작은 모델에서 좋은 방법이 큰 모델에서도 좋은 것은 아닙니다.

2. "요리 레시피의 미세한 수정은 소용없다" (DPO 변형들)

연구진은 'DPO'라는 기본 레시피를 20 가지나 변형해 봤습니다. (예: 소금 양을 조금 줄이기, 양념을 다르게 섞기 등).

  • 결과: 20 가지 변형 중 단 하나도 기본 레시피 (Vanilla DPO) 보다 맛있게 만든 경우가 없었습니다. 오히려 'SimPO'라는 변형은 기본 레시피보다 훨씬 맛이 떨어졌습니다.
  • 비유: 요리사들이 "소금 대신 간장을 넣으면 더 맛있을 거야!"라고 주장하지만, 실제로는 기본 레시피가 가장 좋다는 뜻입니다. 연구자들은 "레시피 (손실 함수) 를 고치느라 시간을 낭비하지 말고, **더 좋은 재료 (데이터)**나 **더 큰 주방 (모델 규모)**에 투자하세요"라고 말합니다.

3. "요리법은 특정 메뉴에만 통한다" (과제별 차이)

  • 수학 문제 (GSM8K): 요리법 (알고리즘) 에 따라 점수 차이가 19 점이나 났습니다. (어떤 요리법은 80 점, 어떤 건 60 점).
  • 난이도 높은 수학 (MATH) & 일반 대화: 같은 요리법들을 다른 메뉴에 적용하자 점수 차이가 0.5 점으로 줄어든 채로, 거의 차이가 없었습니다.
  • 비유: "이 요리사는 '불고기'를 만들 때는 천재지만, '스파게티'나 '샐러드'를 만들 때는 아무나나 마찬가지다"라는 뜻입니다. 특정 과제 (수학) 에 맞춰 훈련된 모델은 다른 일반적인 대화에서는 어떤 방법을 쓰든 큰 차이가 없습니다.

📊 연구자가 정리한 '성공의 우선순위'

이 연구는 AI 개발자들이 무엇을 먼저 신경 써야 하는지 순서를 알려줍니다. (점수 차이는 모델 성능을 얼마나 높이는지 나타냅니다)

  1. 🥇 모델의 크기 (Scale): 약 50 점 차이! (가장 중요)
    • 작은 모델에서 최고의 방법을 쓰느니, 차라리 더 큰 모델을 쓰는 게 훨씬 낫습니다.
  2. 🥈 학습 방식 (Paradigm): 약 10 점 차이.
    • '온라인 학습 (실시간 피드백)'과 '오프라인 학습 (기존 데이터)' 중 어떤 방식을 쓰느냐의 차이입니다.
  3. 🥉 온라인 vs 오프라인: 약 9 점 차이.
  4. 🏅 손실 함수 (Loss Function): 약 1 점 차이.
    • 우리가 가장 많이 논의하는 '어떤 알고리즘을 쓸까?'는 사실 가장 영향력이 작은 부분입니다.

💡 일반인을 위한 결론 (실천 가이드)

이 논문을 읽는 여러분 (AI 개발자나 관심 있는 분) 에게 연구자가 주는 조언은 다음과 같습니다:

  1. 작은 모델에서 결과를 믿지 마세요: 작은 모델 (15 억~30 억) 에서 1 위인 방법이 큰 모델 (70 억 이상) 에서도 1 위일 거라고 생각하지 마세요. 순위가 뒤집힐 수 있습니다.
  2. 기본에 충실하세요: DPO 같은 기본 알고리즘을 쓰세요. 20 가지 변형 중 더 좋은 건 없습니다.
  3. 큰 모델과 LoRA 를 쓰세요: 70 억 파라미터 이상의 큰 모델을 LoRA(효율적인 학습 기술) 와 함께 쓰면서 'SimPO' 방법을 사용하면 가장 좋은 결과를 얻을 수 있습니다.
  4. 데이터와 규모가 왕이다: 새로운 복잡한 수식을 개발하기보다, 더 큰 모델을 쓰고 더 좋은 데이터를 모으는 데 투자하세요. 그게 훨씬 더 큰 효과를 줍니다.

한 줄 요약:

"AI 를 더 똑똑하게 만드는 비결은 '새로운 요리법 (알고리즘)'을 찾는 게 아니라, **'더 큰 주방 (모델 규모)'**을 마련하고 **'좋은 재료 (데이터)'**를 쓰는 것입니다. 작은 주방에서 통하던 방법이 큰 주방에서는 통하지 않을 수 있으니, 규모에 맞춰 방법을 선택하세요!"

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →