Each language version is independently generated for its own context, not a direct translation.
1. 배경: AI 의 '선생님'과 '학생'
인공지능을 인간과 비슷하게 만드는 과정은 보통 두 단계로 나뉩니다.
- 예비 학습 (Pretraining): AI 가 책, 뉴스, 인터넷 글 등 방대한 데이터를 읽으며 세상을 배우는 단계입니다. 이때 AI 는 **'기초 체력'**을 기릅니다.
- 보상 학습 (RLHF): 인간이 "이 답변은 좋네, 저 답변은 나쁘네"라고 피드백을 주며 AI 를 가르치는 단계입니다. 여기서 **'보상 모델 (Reward Model)'**이라는 도구가 등장합니다. 이 도구는 AI 가 만든 답변이 인간에게 얼마나 좋은지 점수를 매겨주는 '심판' 역할을 합니다.
핵심 질문: 이 '심판 (보상 모델)'은 정말로 중립적인가, 아니면 그 심판이 처음에 배운 '기초 체력 (예비 학습)'의 영향을 그대로 받고 있는가?
2. 연구의 발견: 심판도 '선생님'의 영향을 받는다
연구진은 10 개의 유명한 AI 보상 모델들을 분석했습니다. 결과는 놀라웠습니다.
- 리라마 (Llama) 기반 AI: "자유의지", "성공", "능력" 같은 **개인의 독립성과 성취 (Agency)**를 매우 중요하게 여깁니다.
- 젬마 (Gemma) 기반 AI: "사랑", "가족", "우정" 같은 **타인과의 관계와 유대 (Communion)**를 훨씬 더 높게 평가합니다.
비유하자면:
두 명의 요리사 (AI) 가 같은 레시피 (데이터) 를 가지고 같은 요리를 하려고 합니다. 하지만 한 명은 이탈리아 요리 학교에서, 다른 한 명은 한국 요리 학교에서 기초를 배웠습니다.
- 이탈리아 학교 출신은 "재료의 개성 (자유)"을 강조하는 요리를 만들고,
- 한국 학교 출신은 "함께 나누는 정 (사랑)"을 강조하는 요리를 만듭니다.
심지어 두 요리사가 같은 재료와 같은 레시피를 사용해도, 기초를 배운 학교 (예비 학습 모델) 의 영향이 너무 커서 결국 서로 다른 맛의 요리를 내놓는 것입니다.
3. 실험: "물"을 많이 부어도 "술"은 사라지지 않는다
연구진은 "그럼 데이터를 더 많이 주면, 즉 더 많이 가르치면 이 성향이 바뀌지 않을까?"라고 생각했습니다. 그래서 두 가지 다른 AI 모델을 같은 데이터로 훈련시켰습니다.
- 결과: 훈련을 시작하자마자 두 모델은 서로 다른 성향을 보였습니다. 훈련을 계속할수록 그 차이는 조금씩 줄어들었지만, 완전히 사라지지는 않았습니다.
- 비유: 마치 술에 물을 섞는 것과 같습니다. 처음엔 술 (기초 학습의 편향) 이 강하지만, 물을 (학습 데이터) 많이 부으면 술기운이 조금은 약해집니다. 하지만 아무리 물을 많이 부어도, 그릇에 담겨 있던 **술의 본질 (기초 학습의 성격)**이 완전히 물로 변하지는 않는 것처럼, AI 의 근본적인 가치관은 쉽게 바뀌지 않습니다.
4. 중요한 시사점: "무엇을 먹었느냐"가 "누구냐"를 결정한다
이 연구는 AI 개발자들에게 중요한 메시지를 줍니다.
- 기초 학습 (Pretraining) 이 가장 중요합니다: AI 의 안전성과 가치관을 맞추는 작업은 인간이 피드백을 주는 단계 (RLHF) 에서만 해결되는 것이 아닙니다. AI 가 태어날 때 (예비 학습 단계) 어떤 데이터를 먹었느냐가 그 AI 의 '인격'과 '가치관'을 결정합니다.
- 오픈소스 개발자의 선택: 개발자가 어떤 AI 모델을 '기반 (Base Model)'으로 선택하느냐는 단순히 성능 (속도, 정확도) 의 문제가 아니라, 그 AI 가 어떤 가치를 중요하게 여길지 결정하는 윤리적 선택입니다.
5. 결론: AI 의 '등뼈'는 태어날 때부터 있다
논문 제목인 "Reward Models Inherit Value Biases from Pretraining"을 한 문장으로 요약하면 다음과 같습니다.
"AI 의 심판 (보상 모델) 은 중립적이지 않다. 그들이 태어난 곳 (예비 학습) 에서 물려받은 '성격'을 그대로 가지고 있다."
우리는 AI 를 만들 때, 단순히 "더 똑똑하게" 만드는 것만 생각하지 말고, **"어떤 가치를 가진 AI 로 만들어야 할지"**를 태어날 때부터 (데이터를 모으는 단계) 신중하게 고민해야 한다는 교훈을 줍니다. AI 의 등뼈 (Base Model) 가 곧 그 AI 의 도덕적 척추이기 때문입니다.