From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 자신의 실수를 얼마나 잘 인지하고, 그 불확실성을 정확하게 표현하도록 훈련시키는 방법"**에 대한 연구입니다.

기존의 AI 는 "정답을 모를 때"에도 자신만만하게 엉뚱한 말을 하는 경우가 많습니다 (이를 '할루시네이션'이라고 부릅니다). 이 논문은 AI 가 "이건 잘 모르겠어"라고 말할 때, 그 확신이 실제로 얼마나 맞는지 (보정된 불확실성) 를 가르치는 새로운 시스템을 제안합니다.

이 복잡한 내용을 세 가지 단계로 나누어, 일상적인 비유로 쉽게 설명해 드릴게요.

🎓 핵심 비유: "수학 시험을 보는 학생"

이 논문의 방법론은 수학 시험을 보는 학생을 훈련시키는 과정과 같습니다.

1 단계: "혼란스러운 답안지 분석하기" (엔트로피 계산)

상황: 학생이 문제를 풀 때, 머릿속에서 여러 가지 답안을 떠올려 봅니다. (예: "A 일까? B 일까? 아니면 C 일까?")
문제: 만약 학생이 A, B, C 모두를 매우 비슷하게 생각한다면, 그 학생은 정말 혼란스럽고 (불확실성이 높음) 정답을 모를 가능성이 큽니다. 반대로 A 만 확신한다면 확실한 (불확실성이 낮음) 상태입니다.
이 연구의 방법: 연구진은 AI 가 한 번에 여러 번 답을 내게 한 뒤, 그 답들이 서로 얼마나 다른지 (혼란스러운지) 수학적으로 계산합니다. 이를 **'엔트로피 (Entropy)'**라고 하는데, 쉽게 말해 **"답안지들의 혼란도 점수"**입니다.

2 단계: "점수를 '확률'로 바꾸기" ( Platt Scaling)

상황: 위 단계에서 나온 '혼란도 점수'는 그냥 숫자일 뿐입니다. "점수가 5.2 점이다"라고 하면, 이게 50% 확률인지 90% 확률인지 알 수 없습니다.
해결: 연구진은 이 점수를 사람이 이해할 수 있는 '확률 (%)'로 변환합니다. 마치 "이 점수는 80% 확률로 틀릴 것이다"라고 번역하는 과정입니다. 이렇게 하면 AI 가 "내가 80% 틀릴 것 같아"라고 말할 때, 실제로 80% 정도 틀리는지 검증할 수 있게 됩니다. 이를 **보정 (Calibration)**이라고 합니다.

3 단계: "스스로를 훈련시키는 AI 코치" (강화 학습)

상황: 이제 AI 는 "내가 틀릴 확률이 80% 라"라고 말해야 합니다. 하지만 AI 는 처음에 이걸 잘 못합니다.
훈련: 연구진은 AI 에게 **코치 (강화 학습)**를 붙입니다.
- AI 가 "틀릴 확률 80%"라고 말했는데, 실제로 틀렸다면 **"잘했다!" (보상)**를 줍니다.
- AI 가 "틀릴 확률 10%"라고 말했는데, 실제로 틀렸다면 **"아니야, 너는 그 정도는 틀릴 수 있어" (페널티)**를 줍니다.
결과: AI 는 이 과정을 반복하며, 자신의 능력에 맞춰 "얼마나 불확실한지"를 정확히 말하도록 스스로를 훈련시킵니다.

💡 왜 이것이 중요한가요? (기존 방법과의 차이)

기존의 방법들은 AI 가 정답을 맞히는지 틀리는지 확인하기 위해 수십 번, 수백 번 같은 질문을 반복해서 물어보는 방식을 썼습니다.

비유: 시험을 보기 전에 학생에게 같은 문제를 100 번 물어보고, 그 답들이 얼마나 다른지 세어보는 꼴입니다. 시간도 많이 들고 비용도 매우 비쌉니다.

이 논문의 방법은 한 번만 물어보고도 AI 가 스스로 "나는 이 정도는 모른다"라고 판단하게 만듭니다.

비유: 학생이 문제를 풀면서 머릿속에서 자연스럽게 고민하는 과정을 학습시켜, 한 번의 시험으로 자신의 실력을 정확히 파악하게 만든 것입니다. 빠르고, 저렴하며, 신뢰할 수 있습니다.

🏆 이 연구의 성과

실험 결과, 이 방법으로 훈련된 AI 는 다음과 같은 장점을 가졌습니다:

정확한 자기 인식: "내가 모른다"라고 말할 때, 실제로는 정말 모르는 경우가 많았습니다. (보정 오류 감소)
새로운 문제에도 적용 가능: 훈련받지 않은 새로운 유형의 문제 (예: 수학 문제) 가 나와도, 자신의 불확실성을 잘 판단했습니다.
효율성: 무거운 계산을 반복하지 않아도 되므로, 실제 의료나 법률 같은 중요한 분야에서 빠르게 사용할 수 있습니다.

📝 한 줄 요약

"이 연구는 AI 가 '내가 모른다'라고 말할 때, 그 말이 얼마나 진실에 가까운지 스스로 배워, 신뢰할 수 있는 AI 를 만드는 새로운 훈련법을 제안합니다."

이처럼 AI 가 자신의 한계를 정확히 알고 표현할 수 있다면, 의료 진단이나 법률 자문처럼 실수가 치명적인 분야에서 AI 를 더 안전하게 활용할 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 은 다양한 자연어 처리 작업에서 뛰어난 성능을 보이지만, "확신에 차 있지만 틀린 답변" (할루시네이션) 을 생성하는 경향이 있습니다. 특히 의료, 금융, 법률과 같은 고위험 (high-stakes) 분야에서 LLM 을 활용할 때는 모델의 답변이 얼마나 신뢰할 수 있는지, 즉 보정된 불확실성 (Calibrated Uncertainty) 을 정확히 표현하는 것이 필수적입니다.

기존의 불확실성 추정 방법은 다음과 같은 한계가 있었습니다:

사후적 (Post-hoc) 접근 및 계산 비용: 샘플링 기반 방법 (여러 번의 응답 생성 후 엔트로피 계산 등) 은 계산 비용이 매우 높고 실시간 추론에 비효율적입니다.
보정 부재 (Lack of Calibration): 샘플링 기반 방법의 불확실성 점수는 순위 기반 지표 (AUROC 등) 에서는 잘 작동하지만, 실제 확률 (0~1) 로 해석 가능한 보정된 값으로 변환되지 않아 신뢰도가 낮습니다.
언어화 불확실성의 한계: 모델에게 직접 "신뢰도"를 말하게 하는 프롬프트 기반 방법은 모델의 크기에 의존적이며, 작은 모델에서는 신뢰할 수 없는 결과를 낳습니다.

2. 제안 방법론 (Methodology)

저자들은 LLM 이 추론 시 효율적으로 보정된 불확실성을 추정할 수 있도록 하는 3 단계 파이프라인을 제안합니다.

1 단계: 정밀한 엔트로피 기반 불확실성 점수 계산

훈련 데이터에서 모델의 여러 응답을 샘플링하여 임베딩 공간 (embedding space) 에 매핑합니다.
생성된 응답 간의 쌍대 유사성을 캡처하기 위해 커널 행렬을 구성하고, 이를 기반으로 폰 노이만 엔트로피 (von Neumann entropy) 를 계산합니다.
- $H_{VN} = -\sum \lambda_i \log \lambda_i$
이 과정은 단순한 토큰 수준의 예측 엔트로피를 넘어, 의미 공간에서의 분포적 변동성 (distributional variability) 을 포착하는 정밀한 불확실성 지표 ( $S(x)$ ) 를 제공합니다.

2 단계: Platt Scaling 을 통한 보정 (Calibration)

위 단계에서 얻은 엔트로피 점수 $S(x)$ 는 확률적이지 않고 해석이 어렵습니다.
Platt Scaling을 사용하여 이 점수를 보정된 확률 값으로 변환합니다.
- 시그모이드 함수 $p = \sigma(As+B)$ 를 학습시켜, 검증 세트에서의 이진 정답 여부 (Correct/Incorrect) 와 엔트로피 점수를 매핑합니다.
이를 통해 모델이 "정답일 확률" 또는 "오답일 확률"로 직접 해석 가능한 보정된 불확실성 신호 ( $u_{cal}$ ) 를 생성합니다.

3 단계: 강화 학습을 통한 정렬 (Reinforcement Learning)

목표 LLM 을 Group Relative Policy Optimization (GRPO) 알고리즘을 사용하여 보정된 신호에 맞게 미세 조정 (Post-training) 합니다.
매개변수 효율성: 전체 모델 가중치 대신 LoRA (Low-Rank Adaptation) 를 사용하여 메모리 오버헤드를 줄이고 파기 (Catastrophic Forgetting) 를 방지합니다.
보상 함수 (Reward Function): 모델이 예측한 불확실성 ( $u_\theta$ $u_{θ}$ ) 과 보정된 타겟 ( $u_{cal}$ $u_{c a l}$ ) 간의 오차를 최소화하도록 설계된 보상 함수를 사용합니다.
- $R_{entropy} = 1 - \max(0.05, |u_\theta - u_{cal}|)$
모델은 체인 오브 씽킹 (CoT) 형식으로 불확실성에 대한 추론 과정을 먼저 생성한 후, 최종 스칼라 불확실성 값을 출력하도록 훈련됩니다.

3. 주요 기여 (Key Contributions)

새로운 보정 보상 메커니즘: 최신 샘플링 기반 불확실성 측정치와 언어화된 불확실성을 정렬시키면서, 명시적으로 보정된 확률 출력을 목표로 하는 새로운 보상 함수를 도입했습니다.
높은 순위 상관관계와 보정 성능: 제안된 방법은 샘플링 기반 측정치와 높은 순위 상관관계를 유지하면서도 (AUROC 등), 기존 방법들보다 훨씬 우수한 보정 성능 (Calibration) 을 달성했습니다.
비교 실험 및 일반화: 기존 문헌에서 널리 사용되는 Brier 점수 기반 보상과 비교하여, 분포 내 (In-distribution) 및 분포 외 (Out-of-distribution) 모든 환경에서 더 우수한 성능을 보임을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: TriviaQA, Natural Questions (분포 내), GSM8K (분포 외).
모델: Qwen2.5-7B-Instruct.
주요 지표:
- ECE (Expected Calibration Error): 제안된 방법 (Entropy-based) 은 7.2% (분포 내) 및 3.15% (분포 외) 로, 베이스 모델 (41.99%, 32.22%) 및 Brier 기반 방법 (15.70%, 33.28%) 보다 압도적으로 낮은 오차를 기록했습니다. 이는 모델의 예측 불확실성이 실제 오류율과 매우 잘 일치함을 의미합니다.
- AUROC: 순위 기반 성능도 Brier 방법 (83.36%) 과 유사하게 높은 수준 (81.53%) 을 유지하며, 베이스 모델 대비 크게 향상되었습니다.
- Spearman Correlation: 보정된 타겟과의 순위 상관관계가 0.67로 가장 높았습니다.
결론: CoT 프롬프팅이나 Brier 기반 최적화는 순위 성능을 일부 개선할 수 있으나, 제안된 엔트로피 기반 강화 학습은 보정성과 순위 품질을 동시에 극대화하며, 추가 처리 없이도 분포 외 데이터에 강력하게 일반화됩니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 불확실성 추정을 사후 계산 (post-hoc) 이나 비효율적인 샘플링에 의존하는 것이 아니라, 모델의 학습 단계에서 직접 보정된 불확실성 추론 능력을 습득하도록 하는 새로운 패러다임을 제시합니다.

실용성: 추론 시 추가적인 샘플링 없이도 빠르고 해석 가능한 보정된 불확실성 점수를 제공할 수 있어, 의료나 금융 등 고위험 분야의 실제 적용 가능성을 높였습니다.
효율성: GRPO 와 LoRA 를 결합하여 훈련 비용을 줄이고 추론 시 경량화를 달성했습니다.
향후 방향: 이론적 근거를 더 깊이 탐구하고 다양한 모델 아키텍처로 실험을 확장할 필요는 있지만, 이 연구는 대규모 언어 모델의 신뢰성 있는 불확실성 정량화를 위한 유망한 방향을 제시합니다.