Calibrating Verbalized Confidence with Self-Generated Distractors

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (LLM) 이 **"자신은 얼마나 확신하는가?"**라고 말할 때, 그 말이 얼마나 믿을 만한지를 바로잡는 새로운 방법을 소개합니다.

제목은 "DINCO: 스스로 만든 헷갈리는 질문으로 확신을 교정한다" 정도로 요약할 수 있습니다.

아래에 일상적인 비유와 쉬운 한국어로 설명해 드립니다.

🎭 1. 문제: AI 는 왜 이렇게 자신만만할까?

우리가 AI 에게 "이게 정답이야?"라고 물으면, AI 는 종종 **"네, 100% 확신합니다!"**라고 대답합니다. 하지만 정작 그 답은 틀린 경우가 많습니다.

비유: 마치 모르는 외국어를 공부한 학생이 시험지를 보고 "이 문제, 제가 100% 맞췄어요!"라고 소리치는 상황입니다. 사실은 그 학생이 그 단어를 전혀 모르고, 그냥 문제지에 적힌 단어를 보고 "아, 이거 내 거네!"라고 착각한 것입니다.
논문이 지적한 점: AI 는 자신이 모르는 주제일수록, 오히려 질문자가 제시한 내용을 너무 쉽게 믿어버리는 **'suggestibility(suggestibility, 권유에 잘 넘어가는 성향)'**를 보입니다. 그래서 틀린 답을 내놓아도 "100% 맞다"고 자신 있게 말합니다.

🎪 2. 해결책: 'DINCO'라는 마법사

저자들은 이 문제를 해결하기 위해 DINCO라는 방법을 고안했습니다. 핵심 아이디어는 **"혼자서만 생각하지 말고, 스스로 만든 헷갈리는 대안 (Distractor) 들과 비교해 봐라"**는 것입니다.

🧩 비유: "스무고개" 게임

AI 가 "서울의 수도는?"이라는 질문에 "서울"이라고 답하고 90% 확신을 표한다고 칩시다.
기존 방식은 이 90% 를 그대로 믿는 것입니다.

하지만 DINCO는 이렇게 합니다:

스스로 헷갈리는 질문 만들기: AI 에게 "그럼 '부산'은 어때?", '인천'은 어때?"라고 스스로 다른 후보들을 만들어보라고 시킵니다.
각각의 확신 확인: AI 가 "서울"에 대해 90% 확신, "부산"에 대해 80% 확신, "인천"에 대해 70% 확신이라고 한다면?
- 문: "어? 서울이 수도인데, 부산도 80% 라니? 너가 모르고 있는 거 아니야?"
- 해결: AI 가 모든 후보에 대해 다 높은 확신을 가진다면, 그건 AI 가 진짜로 아는 게 아니라, 그냥 질문을 믿고 있는 것일 가능성이 큽니다.
점수 조정 (Normalization): 그래서 "서울"의 90% 확신에서, 다른 후보들 ("부산", "인천") 의 확신을 빼고 보정합니다.
- 결과: "아, 내가 다른 후보들도 다 비슷하게 확신하네? 그럼 내 '서울'에 대한 확신은 90% 가 아니라, 사실은 30% 정도밖에 안 되겠구나."라고 스스로를 낮춥니다.

이 과정을 통해 AI 는 진짜로 아는 것과 그냥 착각하는 것을 구별하게 됩니다.

🔄 3. 추가 전략: "생성"과 "검증"의 합작

DINCO 는 여기서 그치지 않고 두 가지 힘을 합칩니다.

생성 (Generation): AI 가 여러 번 답을 만들어보는 것 (Self-Consistency). "내가 여러 번 생각해도 같은 답이 나오면 믿을 만하지?"
검증 (Validation): 위에서 설명한 '스스로 만든 헷갈린 질문'으로 확인하는 것.

이 두 가지를 섞어서 **"내가 여러 번 생각해도 같은 답이 나오고, 다른 헷갈린 답들보다 확실히 더 확신할 수 있다면, 그때야말로 진짜 확신"**이라고 판단합니다.

📊 4. 왜 중요한가? (결과)

과신 방지: AI 가 "100% 확신"이라고 말해도, 실제로는 60% 정도만 맞을 수 있다는 것을 AI 스스로 깨닫게 해줍니다.
신뢰도 향상: 사용자가 AI 를 믿고 중요한 결정을 내릴 때, "이건 확신이 낮으니 다시 한번 확인해 봐"라고 AI 가 스스로 경고할 수 있게 됩니다.
비용 효율성: 단순히 AI 에게 "100 번 더 생각해보라"고 시키는 것 (기존 방법) 보다, **적은 노력 (10 번 정도)**으로 훨씬 더 정확한 확신도를 얻을 수 있습니다.

💡 한 줄 요약

"AI 가 "내가 100% 맞다!"라고 외칠 때, DINCO 는 AI 에게 "잠깐, 네가 만든 다른 후보들도 다 비슷하게 확신하잖아? 그럼 네가 모르는 거 아니야?"라고 물어보게 해서, AI 가 자신의 무지를 인정하고 더 현실적인 확신을 가지게 만드는 방법입니다."

이 방법은 AI 가 인간처럼 **"모르는 건 모른다"**라고 솔직하게 말할 수 있게 도와주어, 우리가 AI 를 더 안전하게 사용할 수 있게 해줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 이 생성한 답변에 대한 인간의 신뢰를 확보하기 위해서는 보정된 (Calibrated) 신뢰도 추정이 필수적입니다. 그러나 현재 LLM 이 텍스트로 표현하는 신뢰도 (Verbalized Confidence, 예: "80% 확신", "Yes/No"에 대한 토큰 확률 등) 는 다음과 같은 심각한 결함을 가지고 있습니다.

과신 (Overconfidence): 모델이 정답을 모를 때조차 높은 신뢰도를 부여하는 경향이 있습니다. 이는 모델이 자신이 잘 모르는 주제에서도 문맥에 포함된 주장에 과도하게 영향을 받는 suggestibility (suggestibility) 현상 때문입니다.
신뢰도 포화 (Confidence Saturation): 모델이 높은 신뢰도를 보고할 때, 그 값이 특정 구간 (예: 0.9~1.0) 에 몰리는 현상이 발생합니다. 이로 인해 신뢰도 분포가 불연속적이 되어 (jumpy curves), 특정 임계값을 설정하여 오답을 거절하는 것이 불가능해지거나 신뢰도 구분이 모호해집니다.

2. 방법론: DINCO (Distractor-Normalized Coherence)

저자들은 LLM 의 suggestibility 편향을 보정하고, 생성 (Generation) 과 검증 (Validation) 단계의 일관성 (Coherence) 을 모두 활용하여 신뢰도를 보정하는 새로운 방법 DINCO를 제안합니다.

핵심 가설: Suggestibility

모델이 지식 부족으로 인한 불확실성을 느낄 때, 제시된 주장 (Claim) 자체를 전제로 받아들이는 경향이 있습니다. 즉, 모델이 정답을 모를 경우에도 여러 대안 (Distractor) 에 대해 모두 높은 신뢰도를 부여하여 전체 신뢰도 합이 1 을 초과하는 비일관적인 확률 판단을 보입니다.

알고리즘 단계

자가 생성된 Distractor 생성 (Self-Generated Distractors):
- 주어진 질문이나 주장에 대해 모델이 스스로 여러 개의 대안 (Distractor) 을 생성합니다.
- 짧은 형식 (Short-form) 질문의 경우 Beam Search 를, API 기반 (Black-box) 모델의 경우 프롬프트를 통해 다양한 답변을 유도합니다.
- 긴 형식 (Long-form) 텍스트의 경우 FactScore 와 같이 문장을 분해한 후 각 주장에 대한 Distractor 를 생성합니다.
중복성 및 모순성 가중치 적용 (NLI-based Reweighting):
- 생성된 Distractor 들 간의 중복 (Entailment) 이나 주 주장과의 모순 (Contradiction) 여부를 확인하기 위해 외부 NLI (Natural Language Inference) 모델을 사용합니다.
- $w_{unique}$ : 다른 Distractor 와 중복되는 경우 가중치를 낮춥니다.
- $w_{contra}$ : 주 주장과 모순되지 않는 경우 가중치를 낮춥니다.
- 이를 통해 정규화 인자 $\beta(C)$ 를 계산합니다.
신뢰도 정규화 (Normalization):
- 원래 주장의 verbalized confidence 를 전체 Distractor 집합의 가중치 합으로 나눕니다.
- 수식: $f_{NVC}(c_0) = \frac{f_{VC}(c_0)}{\beta(C)}$
- 이를 통해 모델이 특정 주장에 대해 과도하게 확신하는 경우 (suggestibility), 다른 대안들도 높은 확신을 가졌음을 반영하여 신뢰도를 낮춥니다.
생성 - 검증 일관성 통합 (Integration of Coherence):
- Self-Consistency (SC): 여러 번 샘플링한 생성 결과 간의 일관성을 측정합니다.
- DINCO: 생성 단계의 일관성 (SC) 과 검증 단계의 일관성 (NVC) 을 결합합니다.
- 최종 신뢰도: $f_{DINCO}(c) = \frac{1}{2}f_{SC}(c) + \frac{1}{2}f_{NVC}(c)$

3. 주요 기여 (Key Contributions)

Suggestibility 현상의 실증적 분석: LLM 이 정답을 모를 때 (불확실할 때) 오히려 더 많은 대안에 대해 높은 신뢰도를 부여하여 총 신뢰도가 1 을 초과한다는 것을 실험적으로 입증했습니다.
DINCO 방법론 제안: 자가 생성 Distractor 를 활용한 정규화와 생성/검증 일관성의 통합을 통해, 별도의 학습 (Zero-resource) 없이도 신뢰도를 보정하는 방법을 제시했습니다.
포화 현상 완화: 기존 방법들이 겪던 신뢰도 포화 (Saturation) 문제를 해결하여, 더 세분화되고 제어 가능한 신뢰도 추정을 가능하게 했습니다.

4. 실험 결과 (Results)

저자들은 TriviaQA, SimpleQA(단답형), FactScore(장문형) 데이터셋과 Qwen3, Llama, GPT-4.1, Gemini 등 다양한 오픈/클로즈드 소스 모델을 대상으로 실험했습니다.

보정 정확도 (Calibration Metrics):
- ECE (Expected Calibration Error): DINCO 는 최선의 베이스라인 (MSP, SC 등) 대비 평균 ECE 를 0.077~0.092만큼 획기적으로 개선했습니다.
- Short-form QA: TriviaQA 와 SimpleQA 에서 모든 모델에서 최상의 성능을 보였습니다. 특히 GPT-4.1 기준 SimpleQA 에서 ECE 가 0.089 로, 기존 베이스라인 (0.263) 대비 압도적인 개선을 보였습니다.
- Long-form QA: FactScore(생성된 전기 자서전) 에서도 DINCO 는 ECE 를 0.076 으로 낮췄으며, FactScore 점수와의 상관관계 (Pearson/Spearman) 에서도 가장 높은 성능을 기록했습니다.
신뢰도 포화 완화:
- DINCO 는 신뢰도 분포가 특정 값에 몰리는 현상을 크게 줄였습니다. (Saturation 분석 지표 $\Delta$ 에서 DINCO 가 0.998 로 가장 높음).
- 단순하게 Self-Consistency 샘플링 횟수를 100 회까지 늘리는 것보다, DINCO 가 10 회 호출로 더 나은 보정 성능을 보여주어 효율성이 입증되었습니다.
블랙박스 환경 적용: 로직 접근이 불가능한 API 모델에서도 Distractor 생성 프롬프트와 NLI 모델을 활용하여 효과적으로 작동함을 확인했습니다.

5. 의의 및 결론 (Significance)

실용적 신뢰성: LLM 이 "내가 모릅니다"라고 말할 수 있게 하거나, 높은 신뢰도를 부여할 때 그 근거를 검증할 수 있게 함으로써, LLM 을 의사결정 지원 도구로 활용할 때의 안전성과 신뢰도를 높입니다.
비용 효율성: 추가적인 학습이나 미세 조정 없이, 추론 단계에서 소수의 추가 호출 (Distractor 생성 및 검증) 만으로 기존 방법론 (Self-Consistency 등) 을 능가하는 보정 성능을 달성합니다.
일반화 가능성: 단답형 질문부터 장문의 사실 기반 생성까지, 다양한 도메인 (일반 상식, 의학 등) 과 모델 규모 (소규모 오픈소스부터 최첨단 모델) 에 걸쳐 적용 가능합니다.

결론적으로, 이 논문은 LLM 의 내재된 'suggestibility' 편향을 Distractor 를 통해 정량화하고 보정함으로써, 신뢰할 수 있는 LLM 출력의 신뢰도 추정이라는 핵심 과제를 해결하는 강력한 프레임워크를 제시합니다.