Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 자신의 답변을 얼마나 확신하는지 숫자로 말할 때, 우리가 그 숫자를 어떻게 묻느냐가 AI 의 진짜 능력을 왜곡할 수 있다"**는 놀라운 사실을 발견했습니다.

마치 **"AI 의 자존감 (신뢰도) 을 재는 자"**를 잘못 고르면, AI 가 실제로 얼마나 잘하는지 알 수 없게 되는 것과 같습니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴게요.

🎯 핵심 비유: "100 점 만점의 함정"

지금까지 우리는 AI 에게 "이 답이 맞을 확률이 몇 % 인가요?"라고 물으면, 0 에서 100 점까지 숫자로 답하게 했습니다. 마치 시험을 치고 점수를 매기는 것처럼 말이죠.

하지만 연구진은 이 0~100 점 척도가 사실은 AI 에게 매우 혼란스러운 함정이었다고 말합니다.

1. 발견된 문제: "숫자 장난감"을 좋아하는 AI

AI 는 0~100 점 사이를 자유롭게 쓰지 않았습니다. 마치 아이들이 숫자 장난감에서 '10', '50', '100' 같은 둥근 숫자만 골라내는 것처럼, AI 도 거의 모든 답변을 90 점, 95 점, 100 점 같은 몇몇 '둥근 숫자'로 몰아갔습니다.

현실: AI 가 101 개의 숫자 (0~~100) 를 다 쓸 수 있는데, 실제로는 **3~~4 개 숫자**만 78% 이상으로 사용했습니다.
결과: AI 가 "95 점"이라고 했을 때, 그게 진짜로 95% 확신인지, 아니면 그냥 "둥근 숫자"를 골랐을 뿐인지 구별할 수 없게 되었습니다.

2. 실험: "척도"를 바꿔보자

연구진은 AI 에게 "0~100 점" 대신 다양한 척도를 제시하며 실험을 했습니다.

실험 A: 눈금을 줄이다 (0~20 점)
- 비유: 100 칸짜리 긴 자 대신, 20 칸짜리 짧은 자를 줬습니다.
- 결과: 신기하게도 AI 가 진짜로 자신이 틀렸을 때와 맞았을 때를 더 잘 구분하게 되었습니다! (0~~20 점 척도가 0~~100 점보다 더 똑똑한 반응을 보임)
- 이유: 너무 많은 눈금 (0~100) 이 AI 를 혼란스럽게 만들어, AI 가 편한 '둥근 숫자'로 도망갔던 것입니다. 눈금을 줄이자 AI 가 진지하게 생각하게 된 거죠.
실험 B: 자의 끝을 자르다 (40~100 점)
- 비유: "0 점부터 시작하지 말고, 40 점부터 100 점까지만 말해봐"라고 했습니다.
- 결과: AI 는 40 점을 '최저점'으로 받아들이지 못했습니다. 여전히 100 점에 몰아붙였습니다.
- 이유: AI 는 숫자를 '의미'로 이해하기보다, 단순히 '단어' (토큰) 로 기억하고 있었습니다. "100"이라는 단어가 "완벽함"을 뜻하는 고정관념이 너무 강해서, 범위를 바꿔도 그 관념을 버리지 못했습니다.
실험 C: 이상한 숫자 (0~73 점)
- 비유: "0 에서 73 점까지 말해봐"라고 했습니다.
- 결과: AI 는 여전히 70 점, 73 점 같은 '둥근 숫자'를 선호했습니다. 범위가 이상해도 AI 는 익숙한 숫자에 매달렸습니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 AI 를 평가할 때 우리가 너무나 당연하게 여겼던 '질문 방식'이 사실은 큰 문제였음을 지적합니다.

질문하는 방식이 답을 바꿉니다: AI 에게 "0~100 점"으로 확신을 묻는 건, 마치 "100 점 만점 시험을 치게 하라"고 강요하는 것과 같습니다. AI 는 그 압력에 눌려서 편한 숫자만 고르게 됩니다.
더 간단한 게 더 낫습니다: "0~20 점"처럼 간단하고 좁은 척도를 쓰면, AI 가 자신의 실수를 더 솔직하게 인정하고, 우리가 AI 의 능력을 더 정확하게 측정할 수 있습니다.
AI 는 숫자보다 '단어'를 봅니다: AI 는 우리가 생각하는 것처럼 수학적 논리로 숫자를 계산하지 않습니다. 훈련된 데이터에서 자주 본 "95", "100" 같은 단어 패턴을 따라 할 뿐입니다.

🏁 결론: "자"를 다시 고르세요

이제부터 AI 에게 "너 이거 얼마나 확신해?"라고 물을 때는, 100 점 만점의 긴 자를 주지 말고, 20 점 만점의 짧은 자를 주는 것이 더 현명할 수 있습니다.

이처럼 **질문하는 방법 (척도 설계)**을 조금만 바꿔도, AI 가 보여주는 '자신감'이 훨씬 더 진실되고 유용한 정보가 될 수 있다는 것이 이 연구의 핵심 메시지입니다.

한 줄 요약: "AI 에게 너무 많은 숫자 (0~~100) 를 주면 AI 는 편한 숫자만 골라 헛소리를 합니다. 대신 간단한 숫자 (0~~20) 로 물어보면 AI 가 더 똑똑하고 솔직해집니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

배경: 대규모 언어 모델 (LLM) 이 의사결정 파이프라인에 통합됨에 따라, 모델의 불확실성을 추정하는 것이 중요해졌습니다. 블랙박스 환경에서는 주로 구두화된 신뢰도 (Verbalized Confidence) 방식, 즉 프롬프트를 통해 모델에게 수치적 확신 점수 (보통 0~100) 를 보고하게 하는 방식이 표준으로 자리 잡았습니다.
핵심 문제: 기존 연구들은 신뢰도 추출 전략 (Chain-of-Thought, 자기일관성 등) 에 집중했지만, **신뢰도 척도 (Scale) 자체의 설계 (예: 0~100)**를 중립적인 도구로만 간주해 왔습니다.
발견: 저자들은 LLM 이 0~100 의 연속적인 스펙트럼을 사용하는 것이 아니라, 소수의 **반올림된 정수 (Round-number anchors, 예: 90, 95, 100)**에 응답을 집중시키는 신뢰도 이산화 (Confidence Discretization) 현상을 발견했습니다. 이는 모델의 진정한 메타인지 (자기 평가) 가 아니라, 토큰 수준의 편향 (Token-level biases) 에 의해 형성된 것일 수 있으며, 기존 교정 지표 (ECE 등) 를 왜곡할 수 있습니다.
연구 질문: "신뢰도 척도의 설계 (Granularity, 경계, 범위 규칙성) 가 LLM 의 구두화된 불확실성 신호의 질에 영향을 미치는가?"

2. 방법론 (Methodology)

저자들은 6 개의 LLM 과 3 개의 데이터셋 (MMLU, GSM8K, TruthfulQA) 을 대상으로 신뢰도 척도 설계를 체계적으로 조작하는 실험을 수행했습니다.

A. 실험 설계 (Scale Manipulation)

신뢰도 척도 $S = [l, u]$ 를 세 가지 차원에서 조작했습니다:

세분성 (Granularity, G): 모델이 선택할 수 있는 이산 응답 범주의 수를 변경.
- 범위: $[0, 5], [0, 10], [0, 20], [0, 50], [0, 100]$
경계 이동 (Boundary Shifting, B): 상한은 100 으로 고정하고 하한을 점진적으로 높여 범위 압축 효과 테스트.
- 범위: $[0, 100], [20, 100], [40, 100], [60, 100]$
비표준 범위 (Non-standard Ranges, N): 5 의 배수나 10 의 배수를 피하거나 내부에 반올림된 앵커가 없는 구간을 설정하여 의미적 이해 vs. 토큰 편향 구분.
- 예: $[0, 73], [14, 86]$ (고정 폭), $[3, 38]$ (좁은 범위), $[0, 97]$ (비교용)

B. 평가 지표 (Evaluation Metrics)

메타인지 민감도 (Meta-d'): 신호 감지 이론 (SDT) 에서 유래한 지표로, 모델이 자신의 정답과 오답을 얼마나 잘 구분하는지 (Type-2 민감도) 를 전체 편향과 무관하게 측정.
메타인지 효율성 (Mratio): $Mratio = \text{meta-d'} / d'$ (Type-1 작업 정확도 대비 메타인지 능력). 1 에 가까울수록 이상적인 메타인지.
기대 교정 오차 (ECE): 교정 품질 측정. (단, 이산화 현상으로 인해 불안정할 수 있음).
분산 진단 지표:
- Round: 5 의 배수 (0, 5, 10...) 에 응답한 비율.
- Viol.: 지시된 범위 밖으로 벗어난 응답 비율.

C. 실험 설정

모델: GPT-5.2, Gemini 3.1 Pro (폐쇄형), LLaMA-4 (Maverick, Scout), Qwen3 (235B, 30B) 등 6 개 모델.
프롬프트: 제로샷 (Zero-shot) 프롬프트 사용. "답변 후, {l}~{u} 사이의 정수로 신뢰도를 표기하라" 지시.
통계적 검증: 부트스트랩 (10,000 회) 및 순열 검정 (Permutation test) 을 통해 유의성 확인.

3. 주요 결과 (Key Results)

1) 심각한 신뢰도 이산화 (Severe Discretization)

표준 $[0, 100]$ 척도에서 모든 모델은 101 개의 가능한 정수 중 단 15~28 개의 값만 사용했습니다.
응답의 78% 이상이 단 3 개의 반올림된 값 (예: 90, 95, 100) 에 집중되었습니다.
가장 빈번한 값 하나만으로도 응답의 35.6%~68.4% 를 차지했습니다. 이는 모델이 토큰 빈도 편향에 의해 작동함을 시사합니다.

2) 세분성 (Granularity) 의 영향: [0, 20] 의 우위

비단조적 관계: 메타인지 성능은 척도의 세분성이 증가함에 따라 선형적으로 향상되지 않았습니다.
최적점 발견: 모든 모델에서 $[0, 20]$ 척도가 표준 $[0, 100]$ $[0, 100]$ 척도보다 일관되게 높은 Meta-d' 와 Mratio를 보였습니다.
- $[0, 5]$ 는 너무 조잡하여 정보를 잃고, $[0, 100]$ 은 너무 세분화되어 모델이 반올림 편향에 빠지게 됩니다.
- $[0, 20]$ 은 충분한 해상도를 유지하면서 경쟁적인 앵커 (Round numbers) 의 수를 줄여 메타인지 신호의 질을 높였습니다.

3) 경계 이동 (Boundary Shifting) 의 실패

하한을 높여 범위를 압축할수록 (예: $[60, 100]$ ) 메타인지 효율성이 급격히 저하되었습니다.
모델은 새로운 범위를 활용하여 신뢰도를 재분배하지 않고, 여전히 상한선 (100) 근처에 응답을 집중시켰습니다. 이는 모델이 숫자를 의미 있는 '범위'로 이해하기보다 '토큰'으로 처리함을 보여줍니다.

4) 비표준 범위와 의미적 강건성 부족

$[0, 73]$ 과 같은 비표준 범위에서도 5 의 배수 (70 등) 에 대한 선호도가 유지되었습니다.
특히 좁은 범위 $[3, 38]$ 에서는 지시된 범위를 벗어난 응답 (Violation) 이 크게 증가했고, 메타인지 효율성도 떨어졌습니다.
$[0, 97]$ 과 $[0, 100]$ 의 미세한 차이 (상한 3 단위) 만으로도 성능이 저하되는 등, 모델은 '100'이라는 숫자 자체를 강력한 앵커로 인식하고 있습니다.

4. 기여 및 의의 (Contributions & Significance)

신뢰도 이산화 현상의 규명: LLM 이 보고하는 신뢰도가 진정한 불확실성 추정이 아니라, 토큰 생성 과정에서의 편향에 의해 형성된 이산적 분포임을 실증적으로 증명했습니다.
척도 설계의 최적화 제안: 기존 표준인 0~~100 척도보다 **0~~20 척도**가 메타인지 효율성을 높이는 'Sweet Spot'임을 발견했습니다. 이는 LLM 평가 및 인터페이스 설계에 대한 구체적인 가이드라인을 제공합니다.
평가 지표의 재고: 이산화 현상으로 인해 ECE 와 같은 기존 교정 지표가 불안정해질 수 있음을 지적하고, **Meta-d'**와 같은 분포 무관 (distribution-agnostic) 지표를 함께 사용해야 함을 강조했습니다.
메타인지 연구의 새로운 방향: 신뢰도 척도 설계를 단순한 실험 변수가 아닌, 1 순위 (First-class) 실험 변수로 취급해야 함을 주장하며, LLM 의 메타인지 능력을 평가할 때 척도 설계가 결과에 미치는 영향을 통제해야 함을 시사합니다.

5. 결론 및 제언

이 연구는 LLM 의 신뢰도 보고가 모델 내부의 연속적인 확신 추정이 아니라, 프롬프트에 명시된 수치 척도와 사전 학습된 토큰 분포의 상호작용 결과임을 보여줍니다.

실무적 제언:

척도 변경: 신뢰도 elicitation 시 표준 0~~100 대신 **0~~20 척도**를 사용하여 메타인지 신호의 질을 향상시킬 것.
지표 보완: ECE 만 의존하지 말고 **Meta-d'**를 함께 보고하여 이산화 편향을 보정할 것.
분산 확인: 교정 지표를 해석하기 전에 실제 신뢰도 분포가 이산화되어 있는지 반드시 점검할 것.

이러한 발견은 LLM 을 신뢰할 수 있는 의사결정 지원 도구로 활용하기 위해, 단순한 프롬프트 엔지니어링을 넘어 **인터페이스 설계 (Scale Design)**의 중요성을 부각시킵니다.