Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

본 논문은 LLM 을 자동 평가자로 활용할 때 동일한 입력에도 모델, 온도 설정, 평가 기준에 따라 점수 일관성이 크게 달라질 수 있음을 실증적으로 분석하여, 기업 환경에서의 신뢰성 있는 도입을 위해 모니터링과 인간-LLM 하이브리드 평가 전략의 필요성을 강조합니다.

Fiona Lau

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍎 비유: "동일한 사과를 평가하는 5 명의 다른 심사위원"

상상해 보세요. 여러분이 동일한 사과 5 개를 가지고 있습니다. 이 사과들의 품질을 점수 (0~1 점) 로 매겨달라고 5 명의 다른 심사위원에게 부탁했습니다.

  1. 심사위원 A (GPT-4o): 오늘 컨디션이 좋으면 0.9 점, 조금만 피곤하면 0.6 점을 줍니다.
  2. 심사위원 B (Gemini): 아주 엄격해서 0.1 점만 줍니다.
  3. 심사위원 C (Claude): 점수를 매길 때마다 생각이 바뀌어서, 같은 사과를 보는데도 0.8 점과 0.2 점을 번갈아 줍니다.

이 논문은 바로 **"이 심사위원들이 얼마나 일관성 있게 점수를 매기는가?"**를 조사한 것입니다.


🔍 연구의 핵심 내용 (3 가지 질문)

연구진은 5 가지 최신 AI 모델 (GPT, Gemini, Claude 등) 을 이용해 실제 기업에서 쓰이는 질문과 답변을 평가하게 했습니다. 그리고 세 가지를 확인했습니다.

1. 같은 심사위원이 같은 문제를 봐도 점수가 달라질까? (일관성)

  • 결과: 네, 많이 달라집니다.
  • 비유: 같은 심사위원이 아침에 커피를 마시고 문제를 풀면 0.9 점을 주지만, 오후에 피곤하면 0.5 점을 줍니다.
  • 특이점: "완전성 (Completeness)"이라는 항목을 평가할 때 특히 점수 차이가 컸습니다. "이 답변이 질문을 다 해결했나?"를 볼 때 AI 들은 매번 생각이 달라서 점수가 들쑥날쑥했습니다.
  • 중요한 사실: 보통 "온도 (Temperature)"라는 설정을 0 으로 맞추면 AI 가 기계처럼 똑같은 답을 낼 것이라고 생각하지만, 이 연구에서는 온도를 0 으로 해도 점수가 여전히 들쑥날쑥했습니다.

2. 서로 다른 심사위원이 같은 문제를 보면 점수가 다를까? (모델 간 차이)

  • 결과: 엄청나게 다릅니다.
  • 비유: 어떤 AI 는 "이 답변은 완벽해! 1 점!"이라고 하고, 다른 AI 는 "이건 틀렸어. 0 점!"이라고 합니다.
  • 이유: 각 AI 가 "완벽한 답변"을 정의하는 기준이 다릅니다. 예를 들어, 답변이 "모르겠습니다"라고 했을 때, 어떤 AI 는 정직하다고 점수를 주고, 다른 AI 는 쓸모없다고 점수를 깎습니다.

3. "온도 (Temperature)" 설정을 바꾸면 점수가 안정적일까?

  • 결과: 모델마다 다릅니다.
  • 비유:
    • GPT 와 Gemini: 온도를 낮추니 (창의성을 줄이니) 점수가 훨씬 안정적이 되었습니다.
    • Claude: 온도를 낮춰도 여전히 점수가 들쑥날쑥했습니다. 마치 "오늘 기분 따라 점수 매기는 사람"처럼 변하지 않았습니다.

⚠️ 왜 이것이 문제일까요? (실생활 영향)

이 연구는 단순히 "AI 가 점수를 다르게 매긴다"는 것을 넘어, 실제 비즈니스에 큰 위험이 될 수 있음을 보여줍니다.

  • 고객 서비스: 같은 문의를 했을 때, AI 가 오늘 1 점 (우선 처리) 을 주면 해결되고, 내일 0 점 (대기) 을 주면 해결되지 않을 수 있습니다.
  • 공정성: 같은 실수를 했어도, AI 가 매기는 점수에 따라 처벌이 달라질 수 있습니다.
  • 신뢰성: "AI 가 점수를 매겼으니 믿자"라고 할 수 없게 됩니다. 점수가 매번 바뀌면 우리는 그 점수를 믿을 수 없기 때문입니다.

💡 결론 및 조언

이 논문은 우리에게 이렇게 말합니다:

"AI 심판관을 쓸 때는 '평균 점수'만 보지 마세요. '점수가 얼마나 들쑥날쑥한지 (불안정성)'도 꼭 확인하세요."

  • 비유: 만약 여러분이 주사위를 굴려서 점수를 매긴다면, 평균이 5 점이라도 매번 1 점과 9 점이 나올 수 있으니 그 주사위는 신뢰할 수 없습니다.
  • 해결책: 기업에서는 AI 점수만 믿지 말고, 사람이 다시 한번 확인하거나 (Human-in-the-loop), 점수가 들쑥날쑥하지 않는 모델을 선택해야 합니다.

한 줄 요약:
"AI 가 심판관으로 일할 때, 같은 문제를 봐도 매번 점수가 달라질 수 있으니, 기업은 이 '불안정성'을 반드시 관리하고 감시해야 합니다."