Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM, 예: 챗봇) 이 '모르는 것'을 얼마나 잘 표현하는가?"**에 대한 문제를 해결하기 위한 새로운 방법을 제안합니다.

기존의 방식은 AI 에게 "이 답이 맞을 확률이 몇 % 인가요?"라고 물으면, AI 가 "80%"라고 딱 잘라 말하게 했습니다. 하지만 이 논문은 **"AI 는 때로는 80% 라고 단정 짓기엔 정보가 부족하거나, 질문 자체가 애매할 수도 있다"**고 지적합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 방식의 문제: "무조건 숫자로 답하는 AI"

기존의 AI 는 마치 시험을 치는 학생처럼 행동합니다.

질문: "2019 년 크리켓 월드컵을 개최한 국가는 어디인가요?"
기존 AI 의 답변: "영국입니다. 확률 80%!"

하지만 여기서 문제가 생깁니다.

애매한 질문: 사실 2019 년 월드컵은 '잉글랜드'와 '웨일스'가 공동 개최했습니다. "영국"이라고만 하면 반은 맞고 반은 틀린 셈인데, AI 는 이 복잡함을 무시하고 숫자 하나만 뱉어냅니다.
정보 부족: AI 가 정보를 더 많이 주면 (예: "이전 예시들을 봐주세요") 정답을 더 잘 맞추게 되는데, 기존 AI 는 여전히 "나는 여전히 80% 만 확신해"라고 말하며 변화가 없습니다.
자기 모순: AI 가 "A 답을 선택할 확률이 80%"라고 말하면서도, 실제로는 B 답을 선택할 때도 있습니다. 말과 행동이 일치하지 않는 것입니다.

이처럼 AI 가 **"무엇을 모르는지 (불확실성)"**를 제대로 표현하지 못하면, 우리는 AI 의 말을 맹신하다가 큰 실수를 할 수 있습니다.

2. 새로운 방법: "불확실한 불확실성"을 인정하기 (부정확한 확률)

이 논문은 AI 에게 **"단 하나의 숫자 (80%) 가 아니라, '범위'로 답하라"**고 제안합니다. 이를 **'부정확한 확률 (Imprecise Probabilities)'**이라고 합니다.

비유: "날씨 예보관" vs "AI"

기존 AI (정확한 확률): "내일 비 올 확률은 **70%**입니다." (정답이 하나라고 가정)
새로운 AI (부정확한 확률): "내일 비 올 확률은 30% 에서 70% 사이일 것 같습니다."

이 방식은 두 가지 종류의 불확실성을 구분합니다.

1) 1 차 불확실성 (질문 자체가 애매할 때)

비유: "오늘 점심 메뉴는 뭐가 좋을까?"라는 질문은 정답이 여러 개일 수 있습니다 (김치찌개, 라면, 샐러드 모두 가능).
해결: AI 는 "이 질문은 정답이 여러 개일 수 있으니, 모든 메뉴가 다 가능성 있어. 나는 이걸 줄일 수 없어"라고 인정합니다. (질문의 애매함)

2) 2 차 불확실성 (AI 가 정보를 더 알면 줄어드는 것)

비유: "내일 비 올 확률"을 모를 때, "구름이 많아요"라고만 들으면 확신할 수 없습니다 (범위: 10~~90%). 하지만 "위성 사진까지 보니 비가 올 것 같아"라고 정보를 더 주면, 범위가 좁아집니다 (범위: 60~~70%).
해결: AI 는 "정보를 더 주면 내 확신 범위가 좁아져요"라고 표현합니다. (지식 부족으로 인한 불확실성)

3. 이 방법이 왜 중요한가? (실생활 예시)

이 논문에서 제안한 방법은 AI 에게 다음과 같은 새로운 질문을 던집니다.

기존: "이 답이 맞을 확률은?" → AI: "80%"
새로운 (이 논문): "이 답이 맞을 최소 확률은 얼마고, 최대 확률은 얼마야?"
- AI: "최소 20%, 최대 80% 사이일 것 같아요."

이렇게 하면 다음과 같은 이점이 생깁니다.

혼란스러운 질문에 대한诚实한 답변: 질문이 애매하면 AI 가 "저는 20%~80% 사이로 생각해요"라고 말하며, "정답이 여러 개일 수 있어요"라고 경고합니다.
정보를 주면 더 똑똑해짐: 사용자가 더 많은 예시를 주면, AI 의 "범위 (20~~80%)"가 좁아져서 "아, 이제 60~~70% 사이로 좁혀졌네요"라고 말하며 정답에 가까워진 것을 보여줍니다.
신뢰할 수 있는 의사결정: 만약 범위가 너무 넓다면 (예: 10%~90%), 우리는 "아, 이 AI 는 아직 잘 모르네. 다른 전문가에게 물어봐야겠다"라고 판단할 수 있습니다.

4. 결론: "모르는 척"하는 것이 더 똑똑한 AI

이 논문의 핵심 메시지는 **"AI 가 무조건 확신을 가진 척 (숫자 하나) 하는 것보다, 자신이 얼마나 모호한지 (범위) 를 솔직하게 말하는 것이 더 안전하고 똑똑하다"**는 것입니다.

마치 날씨 예보에서 "내일 비 올 확률 50%"라고 딱 잘라 말하기보다, "비가 올 수도 있고 안 올 수도 있어요 (확률 범위)"라고 말해주는 것이, 우리가 우산을 챙길지 말지 결정하는 데 더 도움이 되는 것과 같습니다.

이 새로운 방법은 AI 가 자신의 지식의 한계를 솔직하게 인정하게 만들어, 우리가 AI 를 더 신뢰하고, 중요한 결정을 내릴 때 실수를 줄이는 데 도움을 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 의 불확실성 추정 (Uncertainty Quantification, UQ) 은 환각 탐지, 추론 강화, 능동 학습 등 다양한 하위 작업에서 필수적입니다. 그러나 기존 연구는 주로 고전적인 확률론적 프레임워크에 기반하여 모델이 단일한 정밀한 확률 값 (예: "정답일 확률 80%") 을 언어로 표현하도록 유도하는 '바닐라 (Vanilla)' 불확실성 elicitation에 의존해 왔습니다.

이러한 접근 방식은 다음과 같은 세 가지 주요 시나리오에서 체계적인 실패 모드를 보입니다:

모호한 질문 (Ambiguous Question-Answering): 질문이 여러 가지 해석을 허용할 때 (예: 2019 년 크리켓 월드컵 개최국), 모델은 정답이 여러 개일 수 있음에도 불구하고 단일 확률 값으로 이를 표현하려 하거나, 모호성을 제대로 반영하지 못합니다.
맥락 학습 (In-Context Learning, ICL): 맥락 예제가 추가될수록 예측 오차는 감소해야 하지만, 기존 방법들은 불확실성 점수가 여전히 높게 유지되거나 감소하지 않는 등 예측 성능 개선과 불확실성 추정이 불일치하는 현상을 보입니다.
자기 성찰 (Self-Reflection): 모델이 선택한 답변에 대한 확신을 설명할 때, 유도된 불확실성 점수가 모델의 실제 의사결정 (선택) 과 일치하지 않아 베이지안 합리성 (Bayesian rationality) 을 위반합니다.

이러한 실패는 LLM 이 불확실성을 표현할 수 없기 때문이 아니라, 불확실성을 단일한 정밀한 확률 (Precise Probability) 로만 표현하려는 우리의 표현 방식 (Representation) 에 기인합니다.

2. 방법론 (Methodology)

저자들은 불확정적 확률 (Imprecise Probabilities, IP) 프레임워크를 도입하여 LLM 의 **고차원 불확실성 (Higher-order Uncertainty)**을 언어화하는 새로운 방법을 제안합니다.

핵심 개념

1 차 불확실성 (First-order Uncertainty): 주어진 프롬프트에 대한 가능한 응답들에 대한 불확실성 (예: 모호한 질문으로 인해 정답이 여러 개일 때).
2 차 불확실성 (Second-order Uncertainty): 불확실성 자체에 대한 불확실성 (Uncertainty about uncertainty). 즉, 근본적인 확률 모델의 불확정성 (Epistemic uncertainty) 을 나타냅니다.
IP 표현: 단일 점 추정치 대신 **확률 구간 (Probability Intervals, $[p(y), \bar{p}(y)]$ )**을 사용하여 불확실성을 표현합니다. 구간 너비는 모델이 얼마나 확신하지 못하는지 (Ignorance vs Indifference) 를 구분합니다.

제안된 기법 (Prompting 및 Post-processing)

저자는 LLM 에서 IP 기반의 불확실성을 추출하기 위한 다음과 같은 프롬프트 및 알고리즘을 개발했습니다:

DeFinetti (1 차 불확실성 정제):
- 베르누이 (De Finetti) 의 일관된 베팅 해석을 활용합니다.
- 모델에게 각 답변에 대해 "해당 답변이 맞을 경우 $1, 틀릴 경우 $0 인 베팅에 지불할 공정한 가격 (확률)"을 할당하도록 요청합니다.
- 확률 공리 (비음수성, 정규화) 를 만족하도록 검증기를 통해 보정합니다.
ProbInt (확률 구간 elicitation):
- 모델에게 각 답변에 대한 **하한 확률 (Lower Probability)**과 **상한 확률 (Upper Probability)**을 직접 언어로 표현하도록 요청합니다.
- 하한은 증거로 명확히 정당화되는 최소 확률, 상한은 방어 가능한 최대 확률로 정의됩니다.
- 모든 하한 확률의 합이 1 을 넘지 않도록 검증합니다.
Credal Set (집단 불확실성):
- 여러 LLM 이나 동일한 모델의 여러 샘플링 실행을 통해 생성된 확률 분포들의 집합 (Credal Set) 을 구성합니다.
- 이 집합의 최소/최대 확률을 통해 구간을 정의합니다.
Possibility Function (가능성 함수):
- 확률의 가산성 대신 '가능성 (Possibility)' 개념을 사용하여, "답이 맞을 가능성"과 "다른 답이 맞을 가능성"을 평가합니다.
- 특히 개방형 질문 (Open-ended QA) 에서 "위 답들 중 어느 것도 아님"을 평가할 때 유용합니다.
최대 평균 불확정성 (Maximum Mean Imprecision, MMI):
- 추출된 IP 표현 (구간) 을 단일 스칼라 점수로 변환하기 위해 MMI 지표를 사용합니다.
- 이는 구간 너비 ( $\bar{p}(y) - p(y)$ ) 를 기반으로 하며, 2 차 불확실성 (모델이 얼마나 모르는지) 을 정량화합니다.

3. 주요 기여 (Key Contributions)

LLM 을 위한 최초의 IP 기반 프레임워크: LLM 의 언어적 불확실성 elicitation 에 불확정적 확률 이론을 체계적으로 적용한 첫 번째 구체적인 구현체입니다.
고차원 불확실성 분리: 질문의 모호성 (1 차) 과 모델의 지식 부족 (2 차) 을 명확히 분리하여 표현할 수 있는 방법을 제시했습니다.
범용 프롬프트 및 후처리: 추가적인 모델 학습 (Fine-tuning) 없이도 적용 가능한 범용 프롬프트 전략과 검증 알고리즘을 제안했습니다.
비용 효율성: 샘플링 기반 (Sampling-based) 방법론에 비해 API 호출 비용이 낮으면서도 더 높은 정확도를 달성합니다.

4. 실험 결과 (Results)

저자들은 합성 데이터 (Synthetic Experiment) 와 실제 QA 벤치마크 (Real-world QA) 를 통해 방법을 검증했습니다.

합성 데이터 (Sequence Transformation):
- 1 차 불확실성: 모호성 (Ambiguity) 이 증가할 때, 기존 방법 (Vanilla) 은 이를 잘 포착하지만, 제안된 IP 방법들은 2 차 불확실성 (모델의 지식) 을 일정하게 유지하며 불확실성 소스를 성공적으로 분리했습니다.
- 2 차 불확실성 (ICL): 맥락 예제 (In-context examples) 가 증가함에 따라 예측 오차는 감소하는데, 기존 방법은 불확실성이 감소하지 않았습니다. 반면, ProbInt는 예측 오차 감소 추세를 정확히 따라가며 2 차 불확실성이 줄어드는 것을 보여주었습니다.
- 집단 불확실성: 여러 LLM 의 앙상블에서 Credal 방법은 단순 평균 (Utilitarian aggregation) 보다 AUROC(정답 탐지 성능) 가 크게 향상되었습니다.
실제 QA 벤치마크 (MAQA, AmbigQA, MMLU-Pro):
- 모호성 탐지: DeFinetti 방법이 모호한 질문과 명확한 질문을 구분하는 데 가장 높은 AUROC 를 기록했습니다.
- 정답성 탐지 (Correctness Detection): 모호성이 없는 경우에도 제안된 방법들 (특히 ProbInt) 이 기존 바닐라 방법 및 샘플링 기반 방법들보다 우수한 성능을 보였습니다.
- 불확실성 분리: 모호성과 지식 부족이 동시에 존재하는 상황에서, 제안된 방법들의 곱 (Product) 은 기존 단일 점수보다 정답/오답을 더 잘 구분했습니다.
- 비용: 샘플링 기반 방법 (Semantic Entropy 등) 에 비해 API 비용이 약 50% 이하로 절감되었습니다.
의사결정 일관성:
- 모델이 선택한 답변이 불확실성 기반 의사결정 규칙 (Maximin rule 등) 과 얼마나 일치하는지 평가한 결과, ProbInt 기반의 Maximin 규칙이 LLM 의 실제 예측과 가장 높은 일관성을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 불확실성 정량화 분야에서 다음과 같은 중요한 의의를 가집니다:

신뢰성 향상: LLM 이 "모른다"거나 "질문이 모호하다"는 것을 단일 확률 값이 아닌 **구간 (Interval)**으로 표현하게 함으로써, 사용자에게 더 정직하고 신뢰할 수 있는 불확실성 정보를 제공합니다.
의사결정 지원: 하위 작업 (Active Learning, Abstention 등) 에서 모델이 언제 신뢰할 수 있고 언제 보류해야 하는지에 대한 판단 기준을 명확히 하여, 다운스트림 의사결정의 안전성을 높입니다.
이론적 기반: LLM 의 행동이 단순한 확률 분포가 아니라, 더 복잡한 고차원 불확실성을 내포하고 있음을 이론적으로 설명하고 이를 실증적으로 입증했습니다.
실용성: 추가 학습 없이 프롬프트 엔지니어링만으로 구현 가능하여, 폐쇄형 모델 (Closed-source LLM) 에도 즉시 적용 가능한 저비용 솔루션을 제공합니다.

결론적으로, 이 연구는 LLM 이 가진 불확실성의 본질을 더 잘 이해하고 표현하기 위해 **불확정적 확률 (Imprecise Probabilities)**을 도입함으로써, 기존 방법론의 한계를 극복하고 더 견고한 AI 시스템 구축의 기반을 마련했습니다.

Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities

1. 기존 방식의 문제: "무조건 숫자로 답하는 AI"

2. 새로운 방법: "불확실한 불확실성"을 인정하기 (부정확한 확률)

비유: "날씨 예보관" vs "AI"

3. 이 방법이 왜 중요한가? (실생활 예시)

4. 결론: "모르는 척"하는 것이 더 똑똑한 AI

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

핵심 개념

제안된 기법 (Prompting 및 Post-processing)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA