Reward Models Inherit Value Biases from Pretraining

이 논문은 보상 모델이 인간 가치 정렬을 위해 설계되었음에도 불구하고, 사전 학습된 기반 모델 (예: Llama 의 '주체성' 선호, Gemma 의 '교감성' 선호) 의 내재적 가치 편향을 계승하여 동일한 학습 과정에서도 일관된 편향이 발생함을 입증함으로써, 안전 및 정렬 노력의 중요성과 기반 모델 선택이 성능 이상으로 가치 판단에 미치는 영향을 강조합니다.

Brian Christian, Jessica A. F. Thompson, Elle Michelle Yang, Vincent Adam, Hannah Rose Kirk, Christopher Summerfield, Tsvetomira Dumbalska

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 의 '선생님'과 '학생'

인공지능을 인간과 비슷하게 만드는 과정은 보통 두 단계로 나뉩니다.

  1. 예비 학습 (Pretraining): AI 가 책, 뉴스, 인터넷 글 등 방대한 데이터를 읽으며 세상을 배우는 단계입니다. 이때 AI 는 **'기초 체력'**을 기릅니다.
  2. 보상 학습 (RLHF): 인간이 "이 답변은 좋네, 저 답변은 나쁘네"라고 피드백을 주며 AI 를 가르치는 단계입니다. 여기서 **'보상 모델 (Reward Model)'**이라는 도구가 등장합니다. 이 도구는 AI 가 만든 답변이 인간에게 얼마나 좋은지 점수를 매겨주는 '심판' 역할을 합니다.

핵심 질문: 이 '심판 (보상 모델)'은 정말로 중립적인가, 아니면 그 심판이 처음에 배운 '기초 체력 (예비 학습)'의 영향을 그대로 받고 있는가?

2. 연구의 발견: 심판도 '선생님'의 영향을 받는다

연구진은 10 개의 유명한 AI 보상 모델들을 분석했습니다. 결과는 놀라웠습니다.

  • 리라마 (Llama) 기반 AI: "자유의지", "성공", "능력" 같은 **개인의 독립성과 성취 (Agency)**를 매우 중요하게 여깁니다.
  • 젬마 (Gemma) 기반 AI: "사랑", "가족", "우정" 같은 **타인과의 관계와 유대 (Communion)**를 훨씬 더 높게 평가합니다.

비유하자면:
두 명의 요리사 (AI) 가 같은 레시피 (데이터) 를 가지고 같은 요리를 하려고 합니다. 하지만 한 명은 이탈리아 요리 학교에서, 다른 한 명은 한국 요리 학교에서 기초를 배웠습니다.

  • 이탈리아 학교 출신은 "재료의 개성 (자유)"을 강조하는 요리를 만들고,
  • 한국 학교 출신은 "함께 나누는 정 (사랑)"을 강조하는 요리를 만듭니다.
    심지어 두 요리사가 같은 재료와 같은 레시피를 사용해도, 기초를 배운 학교 (예비 학습 모델) 의 영향이 너무 커서 결국 서로 다른 맛의 요리를 내놓는 것입니다.

3. 실험: "물"을 많이 부어도 "술"은 사라지지 않는다

연구진은 "그럼 데이터를 더 많이 주면, 즉 더 많이 가르치면 이 성향이 바뀌지 않을까?"라고 생각했습니다. 그래서 두 가지 다른 AI 모델을 같은 데이터로 훈련시켰습니다.

  • 결과: 훈련을 시작하자마자 두 모델은 서로 다른 성향을 보였습니다. 훈련을 계속할수록 그 차이는 조금씩 줄어들었지만, 완전히 사라지지는 않았습니다.
  • 비유: 마치 술에 물을 섞는 것과 같습니다. 처음엔 술 (기초 학습의 편향) 이 강하지만, 물을 (학습 데이터) 많이 부으면 술기운이 조금은 약해집니다. 하지만 아무리 물을 많이 부어도, 그릇에 담겨 있던 **술의 본질 (기초 학습의 성격)**이 완전히 물로 변하지는 않는 것처럼, AI 의 근본적인 가치관은 쉽게 바뀌지 않습니다.

4. 중요한 시사점: "무엇을 먹었느냐"가 "누구냐"를 결정한다

이 연구는 AI 개발자들에게 중요한 메시지를 줍니다.

  • 기초 학습 (Pretraining) 이 가장 중요합니다: AI 의 안전성과 가치관을 맞추는 작업은 인간이 피드백을 주는 단계 (RLHF) 에서만 해결되는 것이 아닙니다. AI 가 태어날 때 (예비 학습 단계) 어떤 데이터를 먹었느냐가 그 AI 의 '인격'과 '가치관'을 결정합니다.
  • 오픈소스 개발자의 선택: 개발자가 어떤 AI 모델을 '기반 (Base Model)'으로 선택하느냐는 단순히 성능 (속도, 정확도) 의 문제가 아니라, 그 AI 가 어떤 가치를 중요하게 여길지 결정하는 윤리적 선택입니다.

5. 결론: AI 의 '등뼈'는 태어날 때부터 있다

논문 제목인 "Reward Models Inherit Value Biases from Pretraining"을 한 문장으로 요약하면 다음과 같습니다.

"AI 의 심판 (보상 모델) 은 중립적이지 않다. 그들이 태어난 곳 (예비 학습) 에서 물려받은 '성격'을 그대로 가지고 있다."

우리는 AI 를 만들 때, 단순히 "더 똑똑하게" 만드는 것만 생각하지 말고, **"어떤 가치를 가진 AI 로 만들어야 할지"**를 태어날 때부터 (데이터를 모으는 단계) 신중하게 고민해야 한다는 교훈을 줍니다. AI 의 등뼈 (Base Model) 가 곧 그 AI 의 도덕적 척추이기 때문입니다.