LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy

원저자: Hamed Karimi, Vaishali Meyappan, Reza Samavi

게시일 2026-05-07

📖 3 분 읽기☕ 가벼운 읽기

원저자: Hamed Karimi, Vaishali Meyappan, Reza Samavi

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

상상해 보세요. 매우 자신감 있고 독서량이 풍부한 사서 (AI) 에게 질문을 던진다고 말입니다. 그 사서는 완전히 틀렸더라도 절대적인 확신으로 답변할 수 있습니다. 이것이 해당 논문이 다루는 '과신 (overconfidence)' 문제입니다: 대규모 언어 모델 (LLM) 은 100% 확신하는 듯한 어조로 환각 (허구를 만들어냄) 을 일으키는 경우가 많습니다.

이 논문은 ACSE(적응형 컨포멀 의미 엔트로피, Adaptive Conformal Semantic Entropy)라는 새로운 안전 시스템을 소개합니다. ACSE 를 사서가 무엇이라고 말하는지 단순히 듣는 것을 넘어, 사서가 자신의 답변의 의미에 대해 실제로 확신하고 있는지 확인하는 '현실 점검 (Reality Check)' 메커니즘으로 생각하세요.

다음은 이를 간단한 단계로 분해한 작동 원리입니다:

1. 문제: '동의어 함정'

현재의 안전 점검은 주로 AI 가 선택한 구체적인 단어들을 살펴봅니다. AI 가 70% 의 확률로 "수도 시드니입니다"라고 하고 30% 의 확률로 "수도 캔버라입니다"라고 한다면, 단순한 단어 카운터는 "아, 시드니라고 꽤 확신하는군!"이라고 생각하며 녹색 신호를 켤 것입니다.

하지만 함정이 있습니다: AI 는 틀린 답변 (시드니) 에 대해서는 확신하면서도 올바른 답변 (캔버라) 에 대해서는 확신이 없을 수 있습니다. 또는 "시드니", "Syd", "큰 항구 도시"처럼 모두 같은 의미를 가진 다섯 가지 다른 답변을 줄 수도 있습니다. 단순한 단어 카운터는 이러한 변형들에 혼란을 느껴, AI 가 실제로는 수다스럽기만 할 뿐인데 불확실한 것으로 오인하게 됩니다.

2. 해결책: '그룹 허그' 방법 (의미 군집화)

ACSE 는 AI 에게 같은 질문을 열 번 답하게 함으로써 게임을 바꿉니다.

단계 A: 열 개의 답변을 가져와 '의미 지도 (embeddings)'로 변환합니다.
단계 B: 철자가 아닌 의미에 기반하여 이러한 답변들을 '이웃 지역'으로 그룹화합니다.
- 예시: 9 개의 답변이 "시드니"라고 하고 1 개가 "캔버라"라고 하면, 두 개의 뚜렷한 이웃 지역이 형성됩니다.
- 예시: 5 개의 답변이 "시드니"라고 하고 5 개가 "수도는 시드니입니다"라고 하면, 모두 같은 의미를 가지므로 같은 이웃 지역으로 '허그'됩니다.

3. '취약성' 탐지기 (적응형 인플레이션)

이것이 논문의 핵심 비법입니다. AI 가 (예를 들어 "시드니"처럼) 어떤 답변에 동의한다고 해서 그 답변이 안전하다는 뜻은 아닙니다.

비유: 사람들이 모두 같은 방향을 동의한다고 상상해 보세요. 그들이 빽빽하고 단단한 원 안에 서 있다면, 그것은 강력한 합의입니다. 하지만 흔들리는 바닥 위에서 같은 방향을 동의하고 있다면, 그것은 취약한 합의입니다.
ACSE 는 이 '흔들림'을 탐지합니다. "시드니"에 동의하는 그룹이 실제로 흔들리는지 (아마도 답변들이 약간 다르거나 그룹이 매우 작을 수 있음) 확인합니다.
그룹이 "취약하다"면, ACSE 는 불확실성 점수를 인플레이션시킵니다. 즉, "비록 너희가 모두 동의하더라도, 너희의 합의는 흔들리므로 이를 고위험 상황으로 간주하겠다"라고 말하는 것입니다.

4. '안전망' (컨포멀 보정)

마지막으로, 시스템은 언제 "모르겠다" (거부) 고 말하고 언제 답변을 줄지 정확히 알아야 합니다.

저자들은 **컨포멀 예측 (Conformal Prediction)**이라는 통계적 '안전망'을 사용합니다.
먼저 연습 질문 세트로 시스템을 테스트합니다. 그리고 '컷오프 라인'을 결정합니다.
규칙: '흔들림 점수 (불확실성)'가 선 아래에 있으면 AI 가 답변합니다. 선 위에 있으면 AI 는 침묵합니다.
보장: 이는 추측이 아닙니다. 수학적으로 안전망을 오류의 90% 를 잡도록 설정하면, AI 가 무엇을 하든 적어도 오류의 90% 를 잡을 것이라고 보장합니다. 이는 당신이 목격하게 될 실수가 드물다는 약속입니다.

결과: 왜 중요한가

이 논문은 다양한 AI 모델과 데이터셋 (예: 상식 퀴즈) 에서 이를 테스트했습니다.

경쟁자: 기존 방법들 (단어 확률 계산 등) 은 흔들리는 나침반과 같았습니다. 그들은 종종 틀린 답변에 높은 확신을 부여했습니다.
승자: ACSE 는 똑똑한 항해자처럼 행동했습니다. 상식 퀴즈 테스트에서 ACSE 는 틀린 답변을 88% 의 정확도로 식별했습니다 (AUROC 0.88). 반면 그 다음으로 좋은 방법은 80% 만 달성했습니다.
안전성: 이전 방법들보다 훨씬 더 자주 고위험 상황에서 AI 가 틀린 답변을 하는 것을 성공적으로 막았으며, 동시에 너무 조심스러워 아무것도 답변하지 않는 일은 없었습니다.

한 마디로 요약

ACSE 는 AI 에게 한 질문에 대해 여러 번 답하게 하고, 단어가 아닌 의미에 따라 답변을 그룹화하며, 그 그룹이 단단한 땅 위에 서 있는지 흔들리는 땅 위에 서 있는지 확인한 다음, 언제 말하고 언제 침묵할지 수학적으로 입증된 안전망을 사용하여 결정하는 시스템입니다. 이는 AI 가 말할 때 단순히 확신하는 것이 아니라 실제로 신뢰할 수 있음을 보장합니다.

Each language version is independently generated for its own context, not a direct translation.

기술 요약: 적응형 컨포멀 의미 엔트로피 (ACSE)

문제 제기
대규모 언어 모델 (LLM) 은 특히 환각 (hallucinations) 을 생성할 때 과도한 확신을 보이는 경향이 있으며, 이는 의료, 법률, 과학 연구와 같은 안전이 중요한 분야에 배포할 때 심각한 위험을 초래합니다. 기존 불확실성 정량화 (UQ) 방법들은 주로 다음 토큰 엔트로피나 시퀀스 로그 가능도 (log-likelihood) 와 같은 토큰 수준의 신호에 의존합니다. 이러한 접근 방식들은 의미적 변이 (semantic variance) 를 포착하지 못하며, 어휘적으로는 다양하지만 의미적으로 불일치하거나 잘못된 출력에도 높은 확신을 부여하는 경우가 많습니다. 또한, 최근의 의미 수준 방법들인 의미 엔트로피 (SE) 는 하드 클러스터링에 의존하는데, 이는 중첩된 의미 영역을 무시함으로써 불안정한 추정을 초래할 수 있습니다. 다른 컨포멀 접근법들은 통계적 보장을 제공하지만, 종종 불확실성을 스칼라 신호로 취급하여 어휘적으로는 일관되지만 사실적으로 잘못된 클러스터가 신뢰도 임계값을 만족하는 '잘못된 합의 (wrong-consensus)' 함정에 취약합니다.

방법론
본 논문은 LLM 출력에서의 의미적 분산 (semantic dispersion) 을 측정하여 프롬프트 수준의 불확실성을 추정하는 모델 독립적 프레임워크인 적응형 컨포멀 의미 엔트로피 (ACSE) 를 제안합니다. 이 방법론은 세 가지 주요 단계를 통해 작동합니다:

의미 임베딩 및 소프트 클러스터링:
주어진 프롬프트에 대해 모델은 네시러스 샘플링 (nucleus sampling) 을 사용하여 $n$ 개의 다양한 응답을 생성합니다. 이러한 응답들은 문장 인코더를 사용하여 연속적인 의미 벡터 공간에 임베딩됩니다. 하드 클러스터링 대신 ACSE 는 코사인 거리를 사용한 계층적 응집 클러스터링 (HAC) 을 통해 의미 그룹을 형성한 후, 소프트 클러스터 할당을 수행합니다. 이를 통해 응답들이 확률적으로 여러 클러스터에 속할 수 있게 하여 의미적 모호성의 신호를 보존합니다. 결과적으로 생성된 클러스터 분포의 정규화된 엔트로피로부터 기본 불확실성 점수 $u(x)$ 가 유도됩니다.
적응형 불확실성 인플레이션:
클러스터의 구조적 취약성 (예: 지배적 클러스터에 대한 약한 지지 또는 높은 내부 다양성) 을 해결하기 위해 ACSE 는 조정된 불확실성 점수 $\hat{u}(x)$ 를 도입합니다. 이 점수는 다섯 가지 프롬프트 수준의 견고성 (robustness) 특징을 기반으로 기본 의미 엔트로피를 인플레이션시킵니다:
- 의미 엔트로피: 다중 모드성 (multimodality) 을 측정합니다.
- 중심점 거리: 지배적 응답에 대한 기하학적 지지를 평가합니다.
- 지배적 클러스터 분산: 내부 일관성을 정량화합니다.
- 지배적 클러스터 크기: 소수의 샘플로 지지되는 취약한 합의를 패널티로 처리합니다.
- 임계값까지의 마진: 낮은 불확실성 영역에서 부당한 확신을 억제합니다.
  이러한 특징들은 "취약성 지표 (brittleness metric)" $B(x)$ 로 집계되어 인플레이션 계수 $\lambda(x)$ 를 조정합니다. 최종 점수 $\hat{u}(x)$ 는 클러스터 구조가 위험을 나타낼 때 불확실성을 증가시키는 유계 단조 변환 (bounded, monotone transformation) 입니다.
컨포멀 보정:
조정된 점수들은 홀드아웃 프롬프트 세트를 사용하여 컨포멀 예측 (CP) 으로 보정됩니다. 이는 유한 표본 및 분포 무관 보장을 갖는 의사결정 규칙을 수립합니다. 시스템은 두 가지 기능을 수행합니다:
- 프롬프트 수준 의사결정: 임계값을 기반으로 답변을 수용할지 포기할지 결정하여, 수용된 응답들 간의 오류율이 사용자가 지정한 허용 오차 $\alpha$ 미만으로 유지되도록 보장합니다.
- 응답 수준 예측 집합: 컨포멀 커버리지를 만족하는 샘플링된 응답 집합을 구성하여, 의미적으로 대표적이고 컨포멀한 출력을 식별함으로써 사용자 의사결정을 지원합니다.

주요 기여

ACSE 프레임워크: 토큰 수준 신호를 넘어 의미적 분산을 포착하기 위해 의미 수준에서 엔트로피 기반 불확실성을 추정하는 새로운 방법.
적응형 인플레이션 메커니즘: 클러스터 견고성 특징을 활용하여 의미적 불확실성을 적응적으로 인플레이션시키고, 모호한 응답 의미를 명시적으로 패널티 처리하며 환각을 완화하는 조정된 불확실성 점수.
컨포멀 보장: 프롬프트 수준 포기 및 응답 수준 예측 집합에 대한 임계값을 학습하는 사후 보정 단계를 통해 오류율에 대한 형식적 보장을 제공.
실증적 검증: 최첨단 베이스라인에 비해 우수한 판별력과 보정을 보여주는 광범위한 실험.

실험 결과
저자들은 다양한 LLM 아키텍처 (Mistral-7B, LLaMA-2, Falcon, Qwen) 를 사용하여 다섯 가지 벤치마크 (TriviaQA, CoQA, Natural Questions, TruthfulQA, MMLU) 에서 ACSE 를 평가했습니다.

환각 탐지: ACSE 는 판별 지표에서 베이스라인을 일관되게 능가했습니다. TriviaQA 데이터셋에서 ACSE 는 AUROC 0.88을 달성하여 토큰 엔트로피 베이스라인 (0.65) 과 컨포멀 포기 정책 (CAP) (0.80) 을 크게 앞섰습니다.
안전 지표: ACSE 는 높은 재현율 (recall) 임계값에서 더 낮은 거짓 양성률 (FPR) 을 보여주었습니다. 예를 들어, Falcon-7B 에서 ACSE 는 FPR@95 를 CAP 의 0.48 에서 0.31 로 감소시켜, 수용된 환각을 35.4% 상대적으로 줄였습니다.
컨포멀 보장: ACSE 는 경쟁 방법들보다 더 높은 수용률을 유지하면서도 사용자가 지정한 커버리지 수준 ( $\alpha$ ) 을 엄격히 준수했습니다. $\alpha=0.10$ 에서 ACSE 는 CAP 의 65.4% 에 비해 75.8% 의 수용률을 달성했으며, 평균 예측 집합 크기 (1.07 대 1.32) 가 더 작고 보정 안정성 (SSCV) 이 우수했습니다.
불확실성 정량화: 시각적 분석은 ACSE 가 올바른 응답과 환각을 효과적으로 분리하며, 베이스라인 방법들 (SE 또는 토큰 엔트로피 등) 이 높은 확신을 보일 때조차 환각에 높은 불확실성을 부여함을 확인시켜 주었습니다.

의의
본 논문은 ACSE 가 기존 UQ 방법들의 특정 실패 모드, 즉 피상적인 어휘적 변이와 진정한 의미적 모호성을 구분하지 못하는 능력 부족 및 잘못된 합의 함정에 대한 취약성을 해결함으로써 안전이 중요한 분야에서 LLM 의 신뢰할 수 있는 배포를 위한 강력한 솔루션을 제공한다고 주장합니다. 의미적 분산 분석과 적응형 인플레이션 및 컨포멀 보장을 결합함으로써 ACSE 는 모델 재학습 없이도 환각을 탐지하고 오류율을 통제하는 통계적으로 엄격한 메커니즘을 제공합니다. 저자들은 샘플링 및 후처리 과정에서 발생하는 계산 오버헤드가 존재하지만, 모델 신뢰성이 최우선인 고위험 (high-stakes) 응용 분야에서는 이러한 비용이 정당화된다고 주장합니다.