What Is Missing: Interpretable Ratings for Large Language Model Outputs

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "점수만 매기는 것은 불충분하다"

지금까지 AI 를 가르칠 때, 인간이나 다른 AI 가 답변을 보고 **"1 점부터 10 점까지 점수를 매기거나, A 와 B 중 무엇이 더 나은지 순위를 정하는 방식"**을 썼습니다.

비유: 마치 요리사가 만든 요리를 심사위원이 **"맛있다/없다" 혹은 "7 점/8 점"**이라고만 평가하는 상황입니다.
한계:
- 모호함: 7 점과 8 점의 차이가 정확히 무엇인지 알 수 없습니다. (소금기가 부족했을까? 양념이 과했을까?)
- 동점의 문제: 두 답변이 모두 '8 점'을 받으면, AI 는 "어느 것이 더 나은지"를 배울 수 없습니다. (학습 신호가 사라짐)
- 이해 불가: 왜 8 점인지 그 이유를 알 수 없으니, 실수를 고치기 어렵습니다.

2. 해결책: "WIM (무엇이 빠졌나) 방식"

이 논문은 점수를 매기는 대신, **"이 답변에 무엇이 빠져 있는지"**를 문장으로 적어달라고 요청합니다.

비유: 요리사가 만든 요리를 심사위원이 **"이 요리는 소금기가 부족하고, 고기가 너무 질겨서 씹히지 않네요"**라고 구체적으로 지적하는 상황입니다.
작동 원리:
1. AI 가 답변을 작성합니다.
2. 심사위원 (사람이나 더 똑똑한 AI) 이 **"이 답변에서 빠진 내용 (Missing)"**을 문장으로 적습니다.
3. 컴퓨터는 AI 의 답변과 심사위원의 지적 내용을 비교합니다.
  - 지적 내용이 적고 답변이 완벽하다면? -> 높은 점수 (두 문장이 매우 비슷함)
  - 지적 내용이 많고 답변이 엉망이라면? -> 낮은 점수 (두 문장이 많이 다름)
4. 이 점수를 바탕으로 AI 를 다시 훈련시킵니다.

3. 왜 이 방법이 더 좋은가? (핵심 장점)

A. "동점"이 거의 없다 (학습 신호 강화)

기존 방식: 두 답변 모두 '8 점'을 받으면, AI 는 "어느 게 더 좋은지"를 구분할 수 없습니다. (학습이 안 됨)
WIM 방식: "소금기 부족"과 "양념 과다"는 서로 다른 문제입니다. 따라서 점수 차이가 명확하게 나옵니다.
- 비유: 100 점 만점에 99 점과 99.5 점처럼 미세한 차이를 만들어내서, AI 가 "아, 이 부분이 조금 더 좋아야구나"라고 정확히 배울 수 있게 합니다.

B. "해석 가능"하다 (투명한 피드백)

기존 방식: "8 점"이라는 숫자만 보면 왜 8 점인지 알 수 없습니다.
WIM 방식: "소금기가 부족해서 8 점"이라고 적혀있으니, AI 는 "다음엔 소금기를 더 넣어야지"라고 명확하게 이해합니다.
- 비유: 시험에서 '80 점'만 받으면 왜 틀렸는지 모르지만, **'1 번 문제에서 소금기를 빼먹어서 감점'**이라고 적혀 있으면 바로 고칠 수 있습니다.

C. 기존 시스템과 호환된다

이 방법은 AI 학습 알고리즘을 완전히 바꾸지 않아도 됩니다. 기존에 쓰던 학습 도구 (PPO, DPO 등) 에 이 새로운 '점수 계산기'만 끼워 넣으면 됩니다.

4. 실험 결과

연구진은 이 방법을 적용했을 때 다음과 같은 결과가 나왔다고 합니다.

학습 속도: AI 가 실수를 더 빠르게 깨닫고 점수가 더 빠르게 떨어졌습니다 (손실 감소).
성능: 실제 테스트에서 다른 AI 들보다 더 좋은 답변을 내놓는 비율이 약간 증가했습니다.
안정성: "고정된 심사위원 (Fixed Judge)"이 평가할 때 가장 좋은 결과가 나왔습니다. (심사위원이 계속 변하면 기준이 흔들릴 수 있기 때문입니다.)

5. 결론

이 논문은 **"AI 를 가르칠 때, 단순히 '점수'를 매기는 것보다 '무엇이 부족했는지'를 말로 지적해주는 것이 훨씬 효과적이다"**라고 말합니다.

이는 마치 학생에게 "80 점 맞았어"라고만 하는 대신, "이 부분 개념이 부족해서 감점받았어"라고 구체적으로 알려주는 것과 같습니다. 이렇게 하면 AI 는 더 빠르고 정확하게 인간이 원하는 방향으로 성장할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

현재 대규모 언어 모델 (LLM) 의 선호도 학습 (Preference Learning) 은 주로 **직접적인 순위 매기기 (Direct Rankings)**나 **수치적 평점 (Numerical Ratings, 예: 1~10 점)**에 의존합니다. 이러한 기존 방식에는 다음과 같은 근본적인 한계가 존재합니다.

해석 불가능성 (Lack of Interpretability): 단일 숫자 평점이나 순위는 왜 그 평가가 내려졌는지에 대한 맥락을 제공하지 못합니다. 이는 모델의 오류를 디버깅하거나 평가 기준을 일관되게 유지하는 것을 어렵게 만듭니다.
학습 신호의 부재 (Weak Learning Signal): 수치적 평점 시스템은 이산적 (discrete) 인 특성으로 인해, 서로 다른 두 응답이 동일한 점수를 받는 '동점 (Tie)'이 빈번하게 발생합니다. 선호도 학습 알고리즘 (예: DPO, PPO) 은 '승자 (winning)'와 '패자 (losing)' 응답 간의 명확한 차이를 기반으로 학습하므로, 동점이 발생하면 학습 신호 (gradient) 가 생성되지 않아 모델 개선이 저해됩니다.
복잡한 언어의 단순화: 자연어의 복잡성을 단일 숫자로 환원하는 것은 본질적으로 정보 손실을 초래합니다.

2. 제안된 방법론: WIM (What Is Missing)

저자들은 기존 평점 방식을 대체하거나 보완할 수 있는 새로운 피드백 시스템인 **WIM (What Is Missing)**을 제안합니다. 이 방법은 자연어 피드백을 활용하여 해석 가능한 평점을 생성합니다.

핵심 프로세스

피드백 생성: 인간 또는 LLM 판정자 (Judge) 가 모델의 출력 ( $s_1$ $s_{1}$ ) 을 검토하고, **"무엇이 부족한가 (What is missing)"**에 대한 자연어 설명 ( $s_2$ $s_{2}$ ) 을 작성합니다.
- 예: "주요 논점을 누락했다", "코드에서 특정 기능 구현이 빠졌다" 등.
임베딩 (Embedding): 모델 출력 ( $s_1$ ) 과 '부족한 점'에 대한 피드백 ( $s_2$ ) 을 모두 **문장 임베딩 모델 (Sentence Embedding Model, 예: all-mpnet-base-v2)**을 통해 고차원 벡터 ( $S_1, S_2$ ) 로 변환합니다.
코사인 유사도 계산: 두 벡터 간의 **코사인 유사도 (Cosine Similarity)**를 계산하여 최종 점수를 도출합니다.
- 수식: $WIM = \frac{S_1 \cdot S_2}{\|S_1\|\|S_2\|}$
- 논리: 모델의 출력과 '부족한 점'에 대한 설명이 의미적으로 유사할수록 (즉, 피드백이 출력의 맥락과 잘 맞을수록) 점수가 낮아집니다. 반대로, 피드백이 거의 없거나 (Nothing missing) 출력과 피드백이 완전히 일치하는 경우 (이상적인 상태) 점수는 1 에 수렴합니다.
- 보정: 피드백이 전혀 없는 경우 (완벽한 응답) 를 위해 점수를 1 로 고정하는 설계가 적용됩니다.

수학적 해석

벡터 $S_2$ 를 $S_1$ 에 평행한 성분 (Parallel feedback) 과 수직인 성분 (Orthogonal feedback) 으로 분해할 수 있습니다.
**수직 성분 ( $S_2^\perp$ )**은 모델이 누락한 정보 (Missingness) 를 나타냅니다. 이 성분이 클수록 코사인 유사도는 낮아지고, WIM 점수는 낮아집니다.
이 방식은 연속적인 분포를 따르므로, 기존 이산적 수치 평점보다 동점 발생 확률이 현저히 낮습니다.

3. 주요 기여 (Key Contributions)

해석 가능한 평점 (Interpretable Ratings): 각 스칼라 점수에 대응하는 자연어 피드백 ('무엇이 부족한가') 을 제공하여, 평가의 근거를 투명하게 하고 모델의 실패 모드를 정성적으로 디버깅할 수 있게 합니다.
강화된 학습 신호 (Enhanced Learning Signal): WIM 은 연속적인 점수 분포를 생성하여, 기존 수치 평점 시스템 대비 동점 (Tie) 발생률을 42.78% 에서 2.00% 로 획기적으로 감소시켰습니다. 이는 선호도 학습 알고리즘이 더 명확한 학습 신호를 얻을 수 있음을 의미합니다.
알고리즘 독립성 (Algorithm Agnostic): WIM 은 DPO, PPO, GRPO 등 기존 선호도 학습 알고리즘의 구조를 변경하지 않고도, 기존 파이프라인에 통합되어 사용할 수 있습니다.
자기 평가 (Self-Judging) 가능성: 훈련 중인 모델이 스스로 자신의 출력을 비판하는 '이동형 판정자 (Moving Judge)' 또는 고정된 참조 모델인 '고정형 판정자 (Fixed Judge)'로 활용 가능합니다.

4. 실험 결과 (Results)

저자들은 Meta-Llama-3-8B-Instruct 모델을 UltraFeedback 데이터셋으로 미세 조정 (Fine-tuning) 하며 WIM 의 효과를 검증했습니다.

학습 손실 (Training Loss): WIM (고정형 판정자) 을 사용한 모델은 수치 평점 시스템을 사용한 모델 대비 약 2.95 배 더 낮은 학습 손실을 기록했습니다. 이는 더 효율적인 학습 수렴을 의미합니다.
평균 엔트로피 (Mean Entropy): WIM 모델은 훈련 후 엔트로피 감소 폭이 더 컸으며, 이는 모델이 학습된 작업에 대해 더 확신 있게 (Confident) 행동함을 시사합니다.
보상 우위 (Reward Advantage): WIM 을 사용한 모델은 학습 과정에서 승자와 패자 응답 간의 보상 차이를 더 크게 확장시켰습니다.
성능 평가 (Win Rate): 테스트 데이터셋에서 WIM 고정형 판정자 모델은 수치 평점 모델 대비 **3.79% 높은 승리율 (Win Rate)**을 보였습니다. (통계적 유의성은 미약했으나, 추세는 긍정적임).
동점 감소: 수치 평점 시스템에서 42.78% 의 쌍이 동일한 점수를 받은 반면, WIM 은 2.00% 로 감소하여 학습 신호의 가용성을 크게 높였습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 LLM 의 후속 훈련 (Post-training) 단계에서 데이터의 품질과 표현 방식이 알고리즘 자체만큼 중요함을 강조합니다.

실용적 가치: WIM 은 복잡한 자연어 피드백을 단일 스칼라 값으로 변환하면서도 그 근거를 유지하므로, 기존 RLHF (Reinforcement Learning from Human Feedback) 파이프라인을 변경 없이 적용할 수 있어 엔지니어링 비용을 절감합니다.
안전성 및 정렬 (Safety & Alignment): 모델의 오작동이나 편향을 '무엇이 부족한가'라는 구체적인 텍스트로 파악할 수 있어, 모델 정렬 (Alignment) 과 안전성 보장에 중요한 통찰력을 제공합니다.
미래 전망: WIM 은 추론 모델 (Reasoning Models) 훈련이나 RLVR(Verifiable Rewards) 과의 결합 등 다양한 방향으로 확장 가능하며, LLM 평가 및 학습의 새로운 패러다임을 제시합니다.

요약하자면, WIM은 LLM 평가에서 "얼마나 좋은가 (How good)"라는 질문 대신 **"무엇이 부족한가 (What is missing)"**라는 질문을 통해 더 풍부하고 해석 가능하며, 학습에 유리한 피드백을 생성하는 혁신적인 방법론입니다.