Scaling Reward Modeling without Human Supervision

이 논문은 인간 감독 없이 대규모 웹 코퍼스를 기반으로 선호도 학습을 수행하는 '보상 기반 확장 (RBS)' 기법을 제안하여, 인간 주석 없이도 RewardBench 점수를 크게 향상시키고 하류 작업의 성능을 개선할 수 있음을 입증합니다.

Jingxuan Fan, Yueying Li, Zhenting Qi, Dinghuai Zhang, Kianté Brantley, Sham M. Kakade, Hanlin Zhang

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인간이 일일이 가르치지 않아도 AI 가 스스로 더 똑똑하고 안전한 말을 배울 수 있을까?"**라는 질문에 대한 흥미로운 답을 제시합니다.

기존의 AI 학습 방식은 마치 엄마가 아이에게 "이건 좋은 말, 이건 나쁜 말"이라고 일일이 알려주는 것과 비슷합니다. 하지만 이 방식은 비용이 너무 많이 들고, 사람마다 기준이 달라서 일관성이 없다는 문제가 있었습니다.

이 연구팀은 **"인터넷에 떠도는 수천만 개의 글만으로도 AI 가 스스로 '옳음'과 '그름'을 구분하는 법을 배울 수 있다"**는 것을 증명했습니다.


🍕 비유로 이해하는 이 연구의 핵심

1. 기존 방식: "엄마의 지도" (기존 RLHF)

기존에는 AI 에게 답변을 여러 개 만들어내고, 인간이 "이게 더 좋아요"라고 표시해주면 AI 가 그걸 배웠습니다.

  • 문제점: 인간이 일일이 표시해주려면 돈도 많이 들고, 사람마다 취향이 달라서 AI 가 혼란을 겪기도 합니다. 마치 100 명 이상의 엄마가 아이에게 서로 다른 규칙을 가르쳐서 아이가 미쳐버리는 상황과 같습니다.

2. 이 연구의 방식: "자연스러운 흐름" (RBS - Reward-Based Scaling)

연구팀은 인간이 개입하지 않고, 인터넷에 있는 수학 문제와 해설 글을 이용했습니다.

  • 비유: imagine 완성된 요리책을 보세요.
    • 전체 문장 (Prefix): "계란을 3 개 깨서..."
    • 자연스러운 다음 문장 (Suffix): "...볼에 넣고 휘저어 주세요." (이건 정답, AI 가 선택한 '좋은' 답변)
    • 어색한 다음 문장 (Negative): "...그냥 먹어 버리세요." (이건 오답, AI 가 배척한 '나쁜' 답변)

AI 는 수많은 요리책 (인터넷 데이터) 을 읽으면서, "자연스러운 흐름 (정답)"과 "어색한 흐름 (오답)"을 스스로 구별하는 법을 배웁니다. 인간이 "이게 좋아!"라고 말해주지 않아도, 글의 흐름이 자연스럽게 이어지는지만 보면 AI 는 스스로 "아, 이게 맞는 말이구나"라고 깨닫는 것입니다.

3. 핵심 기술: "동일한 반 (Batch) 의 친구들"

AI 는 한 번에 여러 개의 문장 조각을 보고 비교합니다.

  • 상황: "계란을 3 개 깨서..."라는 문장이 주어졌을 때, 같은 반에 있는 다른 문장들 ("...그냥 먹어 버리세요", "...냉장고에 넣으세요") 과 비교합니다.
  • 학습: AI 는 "아, '휘저어 주세요'가 가장 자연스럽게 이어지네. 나머지는 어색하구나"라고 스스로 판단하며 점수를 매깁니다. 이를 수백만 번 반복하면 AI 는 인간이 가르치지 않아도 '옳은 말'을 알아내는 **감 (Reward Model)**을 갖게 됩니다.

🚀 이 연구가 가져온 놀라운 결과

  1. 비용 절감: 인간이 일일이 표시해 줄 필요 없이, 무료로 구할 수 있는 인터넷 데이터만으로도 훌륭한 AI 평가자가 만들어졌습니다.
  2. 범용성: 이 방법은 수학 문제에만 국한되지 않습니다. 수학 데이터로 훈련된 AI 평가자가 **안전성 (폭력적인 말 거부)**이나 일반적인 대화에서도 잘 작동했습니다. 마치 수학 문제를 잘 푸는 아이가 논리력을 바탕으로 다른 과목도 잘 푸는 것과 같습니다.
  3. 성능: 이 '스스로 배운 AI 평가자'는 인간이 만든 데이터로 훈련된 최신 AI 평가자들과 비슷하거나 더 좋은 성능을 보여주었습니다.

💡 결론: 왜 이것이 중요한가요?

이 연구는 **"인간의 개입 없이도 AI 는 거대한 데이터 속에서 스스로 '선 (善)'과 '악 (惡)', '옳음'과 '그름'을 학습할 수 있다"**는 것을 보여줍니다.

앞으로 AI 를 더 안전하고 똑똑하게 만들기 위해 수천억 원의 비용이 드는 인간 평가자를 고용할 필요가 줄어들 수 있습니다. 대신 인터넷에 쌓인 방대한 지식을 활용하여, AI 가 스스로 성장할 수 있는 길을 연 것입니다.

한 줄 요약:

"엄마 (인간) 가 일일이 가르치지 않아도, 아이 (AI) 가 도서관 (인터넷) 에 가서 책 (데이터) 을 읽으며 스스로 옳고 그름을 배울 수 있다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →