Diverging Preferences: When do Annotators Disagree and do Models Know?

이 논문은 인간 어노테이터 간의 불일치가 단순한 노이즈가 아니라 작업의 미명시나 응답 스타일 등 다양한 요인에 기인함을 규명하고, 이를 고려하지 않은 기존 보상 모델링 및 평가 방법의 한계를 지적하며, 이러한 이질적인 선호도를 식별하고 완화하는 새로운 방법론을 제시합니다.

Michael JQ Zhang, Zhilin Wang, Jena D. Hwang, Yi Dong, Olivier Delalleau, Yejin Choi, Eunsol Choi, Xiang Ren, Valentina Pyatkin

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 사람들과 대화할 때, 왜 사람마다 의견이 갈리는지, 그리고 AI 가 그걸 제대로 이해하고 있는지"**에 대한 흥미로운 이야기를 담고 있습니다.

비유하자면, 이 연구는 **"AI 가 요리사를 훈련시키는 과정"**에서 벌어지는 일을 분석한 것입니다.

1. 문제의 시작: "맛있는 음식"에 대한 의견은 왜 다를까?

우리가 AI 를 훈련시킬 때, 인간들이 "이 답변이 더 좋아요 (A)" 아니면 "저 답변이 더 좋아요 (B)"라고 투표합니다. 보통은 모든 사람이 같은 답을 골라야 한다고 생각하죠.

하지만 이 연구는 **"아니요, 사람들은 정말로 의견이 많이 갈립니다"**라고 말합니다.

  • 비유: 어떤 사람이 "오늘 저녁 뭐 먹지?"라고 물었을 때, A 는 "매운 탕이 최고야!"라고 하고, B 는 "가볍게 샐러드 먹자"라고 합니다. 둘 다 틀린 말이 아닙니다. 각자의 취향과 상황 (배고픔, 건강 상태 등) 이 다르기 때문입니다.
  • 연구 결과: 인간들이 AI 답변을 평가할 때, 약 30% 이상의 경우 서로 다른 의견을 냈습니다. 그리고 이 disagreement(불일치) 는 대부분 '실수' 때문이 아니라, 사람마다 다른 취향 (성격, 배경, 상황) 때문이었습니다.

2. 기존 AI 의 실수: "다수결"만 믿는 맹목적인 요리사

기존의 AI 훈련 방식은 **"다수결 (다수가 옳다)"**을 절대적인 진리로 여겼습니다.

  • 비유: 100 명의 심사위원이 있는데 51 명이 "매운 탕"을, 49 명이 "샐러드"를 좋아한다고 합시다. 기존 AI 는 "오케이, 51 명이 더 많으니 '매운 탕'이 정답이다!"라고 결론 내리고, 샐러드를 좋아하는 49 명은 무시해버립니다.
  • 문제점: 이렇게 훈련된 AI 는 단 하나의 '정답'만 내놓는 로봇이 됩니다. 하지만 세상은 그렇게 단순하지 않죠. 어떤 사람은 매운 걸 원하고, 어떤 사람은 가볍게 원할 수 있는데, AI 는 그걸 구분하지 못하고 무조건 '매운 탕'만 줍니다.

3. 연구팀의 해결책: "분포 (Distribution)"라는 새로운 안경

연구팀은 AI 에게 **"정답은 하나일 수도 있고, 여러 개일 수도 있다"**는 것을 가르치기 위해 새로운 방법을 고안했습니다.

  • 새로운 방법: AI 에게 점수를 줄 때, "이 답변은 100 점!"이라고 딱 정해주는 게 아니라, **"이 답변은 100 점일 확률이 50%, 50 점일 확률이 50%"**처럼 **점수의 범위 (분포)**로 가르쳤습니다.
  • 효과: 이렇게 훈련된 AI 는 "아, 이 질문은 사람마다 의견이 갈리는구나. 매운 탕을 좋아하는 사람에게는 탕을, 샐러드 좋아하는 사람에게는 샐러드를 추천해줘야겠다"라고 생각할 수 있게 됩니다.
  • 결과: 기존 방식보다 의견이 갈리는 경우를 훨씬 잘 찾아냈고, AI 가 더 유연하게 반응하도록 만들었습니다.

4. 평가의 함정: "심사위원 AI"의 편견

이 논문은 AI 를 평가할 때 쓰는 **'심사위원 AI (LLM-as-Judge)'**에도 문제가 있다고 지적합니다.

  • 상황: 인간이 "이 답변이 나빠요"라고 거부했을 때 (예: 위험한 질문을 했을 때), 심사위원 AI 는 "아니, 그건 너무 무뚝뚝한 거야. 더 친절하게 설명해줘야지!"라고 점수를 깎습니다.
  • 비유: 어떤 사람이 "나 지금 너무 화나서 누군가 때리고 싶어"라고 말했을 때, AI 가 "그건 위험하니까 안 돼요"라고 거절했다고 칩시다. 그런데 심사위원 AI 는 "왜 그렇게 딱 잘라 말해? 좀 더 부드럽게 설명해줬어야지"라고 비난합니다.
  • 결론: 이렇게 되면, 안전하고 윤리적인 AI가 오히려 점수가 낮아지는 부조리가 발생합니다. 연구팀은 "의견이 갈리는 질문 (분쟁적인 질문) 은 평가에서 제외하거나, AI 가 거절하는 것을 용납해줘야 한다"고 제안합니다.

5. 요약: 이 논문이 우리에게 주는 메시지

  1. 사람은 다릅니다: AI 에게 "정답"은 하나가 아니라, 사람마다 다를 수 있습니다.
  2. 다수결은 위험합니다: 무조건 다수가 옳다고 믿으면, 소수의 의견이나 다양한 취향을 가진 사용자를 무시하게 됩니다.
  3. AI 는 유연해야 합니다: AI 는 "이건 사람마다 다를 수 있어"라고 인정하고, 상황에 맞춰 다양한 답변을 줄 수 있어야 합니다.
  4. 평가도 바꿔야 합니다: AI 를 평가할 때도 "거절"이나 "질문 재확인" 같은 행동을 나쁜 점수로 매기지 말고, 그 상황을 이해해줘야 합니다.

한 줄 요약:

"AI 를 훈련시킬 때 '다수가 옳다'는 생각만 하면 안 됩니다. 사람마다 취향이 다르다는 걸 인정하고, AI 가 그 다양성을 이해할 수 있도록 가르쳐야 진정한 '모두를 위한 AI'가 될 수 있습니다."