What Is Missing: Interpretable Ratings for Large Language Model Outputs

이 논문은 LLM 출력의 품질을 평가할 때 주관적인 수치 점수 대신 '무엇이 부족한지'에 대한 자연어 피드백과 임베딩 유사도를 기반으로 한 해석 가능한 WIM(WIM) 평가 시스템을 제안하여, 기존 선호도 학습 파이프라인에 통합 가능한 더 명확하고 학습 신호가 풍부한 평가 방식을 제시합니다.

Nicholas Stranges, Yimin Yang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "점수만 매기는 것은 불충분하다"

지금까지 AI 를 가르칠 때, 인간이나 다른 AI 가 답변을 보고 **"1 점부터 10 점까지 점수를 매기거나, A 와 B 중 무엇이 더 나은지 순위를 정하는 방식"**을 썼습니다.

  • 비유: 마치 요리사가 만든 요리를 심사위원이 **"맛있다/없다" 혹은 "7 점/8 점"**이라고만 평가하는 상황입니다.
  • 한계:
    • 모호함: 7 점과 8 점의 차이가 정확히 무엇인지 알 수 없습니다. (소금기가 부족했을까? 양념이 과했을까?)
    • 동점의 문제: 두 답변이 모두 '8 점'을 받으면, AI 는 "어느 것이 더 나은지"를 배울 수 없습니다. (학습 신호가 사라짐)
    • 이해 불가: 왜 8 점인지 그 이유를 알 수 없으니, 실수를 고치기 어렵습니다.

2. 해결책: "WIM (무엇이 빠졌나) 방식"

이 논문은 점수를 매기는 대신, **"이 답변에 무엇이 빠져 있는지"**를 문장으로 적어달라고 요청합니다.

  • 비유: 요리사가 만든 요리를 심사위원이 **"이 요리는 소금기가 부족하고, 고기가 너무 질겨서 씹히지 않네요"**라고 구체적으로 지적하는 상황입니다.
  • 작동 원리:
    1. AI 가 답변을 작성합니다.
    2. 심사위원 (사람이나 더 똑똑한 AI) 이 **"이 답변에서 빠진 내용 (Missing)"**을 문장으로 적습니다.
    3. 컴퓨터는 AI 의 답변과 심사위원의 지적 내용을 비교합니다.
      • 지적 내용이 적고 답변이 완벽하다면? -> 높은 점수 (두 문장이 매우 비슷함)
      • 지적 내용이 많고 답변이 엉망이라면? -> 낮은 점수 (두 문장이 많이 다름)
    4. 이 점수를 바탕으로 AI 를 다시 훈련시킵니다.

3. 왜 이 방법이 더 좋은가? (핵심 장점)

A. "동점"이 거의 없다 (학습 신호 강화)

  • 기존 방식: 두 답변 모두 '8 점'을 받으면, AI 는 "어느 게 더 좋은지"를 구분할 수 없습니다. (학습이 안 됨)
  • WIM 방식: "소금기 부족"과 "양념 과다"는 서로 다른 문제입니다. 따라서 점수 차이가 명확하게 나옵니다.
    • 비유: 100 점 만점에 99 점과 99.5 점처럼 미세한 차이를 만들어내서, AI 가 "아, 이 부분이 조금 더 좋아야구나"라고 정확히 배울 수 있게 합니다.

B. "해석 가능"하다 (투명한 피드백)

  • 기존 방식: "8 점"이라는 숫자만 보면 왜 8 점인지 알 수 없습니다.
  • WIM 방식: "소금기가 부족해서 8 점"이라고 적혀있으니, AI 는 "다음엔 소금기를 더 넣어야지"라고 명확하게 이해합니다.
    • 비유: 시험에서 '80 점'만 받으면 왜 틀렸는지 모르지만, **'1 번 문제에서 소금기를 빼먹어서 감점'**이라고 적혀 있으면 바로 고칠 수 있습니다.

C. 기존 시스템과 호환된다

  • 이 방법은 AI 학습 알고리즘을 완전히 바꾸지 않아도 됩니다. 기존에 쓰던 학습 도구 (PPO, DPO 등) 에 이 새로운 '점수 계산기'만 끼워 넣으면 됩니다.

4. 실험 결과

연구진은 이 방법을 적용했을 때 다음과 같은 결과가 나왔다고 합니다.

  • 학습 속도: AI 가 실수를 더 빠르게 깨닫고 점수가 더 빠르게 떨어졌습니다 (손실 감소).
  • 성능: 실제 테스트에서 다른 AI 들보다 더 좋은 답변을 내놓는 비율이 약간 증가했습니다.
  • 안정성: "고정된 심사위원 (Fixed Judge)"이 평가할 때 가장 좋은 결과가 나왔습니다. (심사위원이 계속 변하면 기준이 흔들릴 수 있기 때문입니다.)

5. 결론

이 논문은 **"AI 를 가르칠 때, 단순히 '점수'를 매기는 것보다 '무엇이 부족했는지'를 말로 지적해주는 것이 훨씬 효과적이다"**라고 말합니다.

이는 마치 학생에게 "80 점 맞았어"라고만 하는 대신, "이 부분 개념이 부족해서 감점받았어"라고 구체적으로 알려주는 것과 같습니다. 이렇게 하면 AI 는 더 빠르고 정확하게 인간이 원하는 방향으로 성장할 수 있게 됩니다.