Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions

이 논문은 LLM 을 평가자로 활용할 때 상세한 프롬프트 지시사항이 인간 평가와의 정렬에 미치는 영향이 제한적이며, 때로는 프롬프팅보다 모델의 퍼플렉시티가 텍스트 품질 평가에서 인간 판단과 더 잘 일치할 수 있음을 규명했습니다.

Bhuvanashree Murugadoss, Christian Poelitz, Ian Drosos, Vu Le, Nick McKenna, Carina Suzana Negreanu, Chris Parnin, Advait Sarkar

게시일 2026-02-27
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

"심사위원을 심사한다": AI 가 스스로를 평가할 때, 정말 잘할까?

이 논문은 최근 화두가 되고 있는 **"AI 가 AI 의 답을 평가하는 것 (LLM-as-a-judge)"**에 대해 깊이 있게 분석한 연구입니다. 쉽게 말해, "시험지를 채점하는 선생님 (AI) 이 정말 잘 채점할까? 그리고 선생님에게 채점 기준을 얼마나 자세히 알려줘야 할까?"를 실험해 본 이야기입니다.

이 복잡한 연구를 일상적인 비유로 풀어보겠습니다.


1. 배경: 왜 AI 가 채점을 할까?

과거에는 사람의 답을 사람이 채점했습니다. 하지만 AI 가 글을 쓰거나 문제를 풀게 되면서, 이 답들을 사람이 일일이 채점하는 건 너무 비싸고 느립니다. 그래서 GPT-4 나 Llama3 같은 똑똑한 AI 를 '심사위원'으로 세웠습니다.

사람들은 "AI 는 인간과 비슷한 감수성을 가지고 있으니, 인간이 채점한 것과 비슷하게 채점할 거야"라고 믿었습니다. 하지만 연구진은 의문을 품었습니다.

"AI 가 좋은 점수를 주는 건, 실제로 우리가 준 '채점 기준 (지시사항)'을 잘 따랐기 때문일까? 아니면 그냥 자신이 훈련받았던 '고급 데이터'를 좋아해서, 비슷한 좋은 글을 자동으로 좋아해 주는 걸까?"

2. 실험: "선생님"에게 얼마나 알려줄까?

연구진은 다양한 AI 모델 (심사위원) 을 불러와서 4 가지 다른 방식으로 채점을 시켰습니다.

  1. 아무 말도 안 해줌 (Perplexity): 지시사항 없이 AI 가 글을 읽었을 때 "이 글이 내 훈련 데이터와 얼마나 잘 어울리는지"만 수치로 측정합니다. (비유: 심사위원이 글을 읽으며 "어? 이 스타일 내 거네"라고 느끼는 직감)
  2. 간단한 지시: "이 글의 품질을 1~5 점으로 매겨줘." (비유: "맛있으면 5 점, 맛없으면 1 점"이라고만 알려줌)
  3. 기준 이름만 알려줌: "이 글의 '논리성'을 평가해 줘." (비유: "논리성이라는 게 뭐지? 너가 알아서 판단해.")
  4. 완벽한 채점표 (Rubric) 제공: "논리성이 1 점인 경우는 말도 안 되는 이야기, 5 점인 경우는 상식과 완벽히 부합하는 이야기야." (비유: 아주 상세한 채점 가이드북을 건네줌)

3. 핵심 발견: 놀라운 결과들

📉 "자세한 설명은 오히려 방해가 될 수도 있어"

가장 놀라운 점은, 가장 똑똑한 AI (GPT-4 등) 에게는 상세한 채점표가 크게 도움이 되지 않았다는 것입니다.

  • 비유: 이미 요리 실력이 천재인 셰프에게 "소금 3g, 후추 2g"이라고 자세히 알려주지 않아도, 그 사람의 입맛 (훈련 데이터) 이 이미 완벽해서 맛있는 요리를 골라냅니다.
  • 오히려 너무 상세한 지시를 주면, AI 가 혼란을 겪거나 기존에 알고 있던 좋은 기준을 망각해서 점수가 떨어지기도 했습니다.

📉 "직감 (Perplexity) 이 더 나을 때도 있어"

글의 문법, 흐름, 자연스러움 같은 '텍스트 품질'을 평가할 때는, 복잡한 지시사항 없이 AI 가 "이 글이 내 훈련 데이터와 얼마나 잘 어울리는가?"를 수치화한 것 (Perplexity) 이 오히려 인간의 평가와 더 잘 맞았습니다.

  • 비유: "이 노래가 내 취향에 맞나?"를 묻는 것보다, "이 노래가 내 플레이리스트에 얼마나 잘 들어맞는지"를 수치로 재는 게 더 정확할 때가 있다는 뜻입니다.

📈 "하지만 어려운 문제는 '가이드북'이 필요해"

반면, 논리적 오류 찾기, 사실 확인, 특정 과제 완성도 같은 복잡한 평가에서는 상세한 채점표 (Full Rubric) 가 필수적이었습니다.

  • 비유: "맛있는 음식"을 고르는 건 직감으로 되지만, "수학 문제 풀이 과정이 정확한지"를 채점하려면 '정답과 오답의 기준'이 명확히 적힌 가이드북이 필요합니다. 특히 GPT-4 같은 큰 모델은 이 가이드북을 잘 활용했습니다.

4. 결론: 어떻게 해야 할까?

이 연구는 우리에게 다음과 같은 교훈을 줍니다.

  1. 똑똑한 AI 는 이미 알고 있다: GPT-4 같은 최상위 모델에게는 복잡한 지시사항 없이도, 그 자체의 '감' (훈련 데이터) 으로 인간과 유사한 평가를 할 수 있습니다.
  2. 단순한 글 평가는 '직감'이 낫다: 문법이나 흐름 같은 기본적인 글쓰기 실력을 평가할 때는, 지시사항을 줄이고 AI 의 '직감 (Perplexity)'을 믿는 게 나을 수 있습니다.
  3. 복잡한 문제는 '가이드북'이 필수: 논리성이나 사실 관계처럼 복잡한 평가는, AI 가 무엇을 기준으로 판단해야 할지 **상세한 채점표 (Rubric)**를 꼭 제공해야 합니다.
  4. 모델의 크기가 중요하다: 작은 모델은 가이드북이 없으면 헷갈리지만, 큰 모델 (GPT-4, Llama3-70b 등) 은 가이드북을 잘 활용하거나 아예 가이드북 없이도 잘해냅니다.

🎯 한 줄 요약

"AI 심사위원에게 너무 많은 지시를 주지 않아도, 이미 똑똑한 모델은 잘해냅니다. 하지만 논리나 사실 확인 같은 어려운 문제는 '채점 기준서'를 꼭 줘야 합니다. 그리고 간단한 글쓰기 실력 평가는 AI 의 '직감'을 믿는 게 더 나을 수도 있어요!"