Between the Layers Lies the Truth: Uncertainty Estimation in LLMs Using Intra-Layer Local Information Scores

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 틀린 말을 할 때, 어떻게 그걸 미리 알아챌 수 있을까?"**라는 질문에 대한 해답을 제시합니다.

기존의 방법들은 모델이 "정답을 말할 때"의 표정 (출력 결과) 만 보고 "아, 이거 맞겠네"라고 추측하거나, 모델의 내부 뇌세포 (은닉층) 를 너무 깊게 파고들어 복잡한 분석을 하곤 했습니다. 하지만 이 논문은 **"모델의 뇌세포들 사이에서 일어나는 대화 (층과 층 사이의 관계)"**를 살펴봄으로써 훨씬 쉽고 정확하게 틀린 말을 찾아낸다고 말합니다.

이해하기 쉽게 세 가지 비유로 설명해 드릴게요.

1. 문제 상황: "자신감 넘치는 거짓말쟁이"

대형 언어 모델 (LLM) 은 아주 똑똑하지만, 가끔은 **자신감 넘치는 거짓말 (할루시네이션)**을 합니다.

기존 방법 A (표정 보기): 모델이 "저는 100% 확신합니다!"라고 말하면, 우리는 "아, 맞겠구나"라고 믿습니다. 하지만 거짓말쟁이도 자신감 있게 거짓말을 하죠. 이 방법은 속기 쉽습니다.
기존 방법 B (뇌세포 파고들기): 모델의 내부 뇌세포 (은닉층) 를 하나하나 검사해서 "이게 맞는지"를 분석합니다. 하지만 뇌세포가 너무 많고 복잡해서, 이 분석을 다른 문제 (예: 의학 질문에서 요리 질문으로) 로 옮기면 다시 처음부터 해야 하는 번거로움이 있습니다.

2. 이 논문의 해결책: "층과 층 사이의 '합의' 체크"

이 논문은 모델의 내부 구조를 10 층짜리 빌딩이라고 상상해 보세요.

기존 방식: 각 층의 사람들이 무슨 말을 하는지 (데이터) 를 모두 기록해서 분석합니다.
이 논문의 방식: "1 층 사람이 2 층 사람에게 전달한 말"과 "2 층 사람이 3 층에게 전달한 말"이 얼마나 일치하는지를 봅니다.

비유: "전달 게임 (전화 게임)"
친구들이 줄 서서 메시지를 전달한다고 가정해 봅시다.

정답일 때: 1 층이 2 층에게, 2 층이 3 층에게 메시지를 전달할 때, 모든 층이 서로의 말을 잘 이해하고 (합의) 흐름이 매끄럽습니다.
틀린 답 (거짓말) 일 때: 중간에 어떤 층이 메시지를 오해하거나, 층마다 생각의 방향이 달라서 전달 과정에서 "갈등"이나 "불일치"가 생깁니다.

이 논문은 모델이 답을 내기 위해 거치는 **각 층 (Layer) 사이의 정보 흐름 차이 (KL 발산)**를 계산해서, **"이 빌딩 전체가 서로 합의했는가?"**를 한눈에 보는 **지도 (Signature Map)**를 만듭니다.

3. 왜 이 방법이 더 좋은가?

이 방법은 세 가지 큰 장점이 있습니다.

가볍고 빠름 (Compact):
- 모든 뇌세포를 다 보는 게 아니라, 층과 층 사이의 관계만 요약한 작은 지도를 봅니다. 마치 복잡한 도시의 모든 건물을 다 보지 않고, 주요 도로의 교통 흐름만 보고 "이곳이 막혔다"고 판단하는 것과 같습니다.
- 그래서 모델을 다시 학습시키거나 복잡한 계산을 할 필요가 없습니다. 한 번만 실행하면 됩니다.
다른 문제에도 잘 적용됨 (Transferable):
- "요리 질문"에서 배운 '층과 층의 합의 패턴'을 "의학 질문"에도 그대로 적용할 수 있습니다.
- 비유: "사람이 거짓말할 때 목소리 톤이 떨리는 법"을 배웠다면, 그걸로 요리사든 의사든 거짓말을 알아챌 수 있는 것과 같습니다. 기존 방식은 요리사 목소리만 분석해서 의사는 못 알아챘는데, 이 방법은 보편적인 '거짓말 신호'를 포착합니다.
압축된 모델에서도 잘 작동함 (Robust):
- 모델을 가볍게 압축 (양자화) 해서 스마트폰 같은 작은 기기에서도 쓸 때, 이 방법은 여전히 정확하게 거짓말을 찾아냅니다.

4. 결론: "층 사이의 진실을 찾아서"

이 연구는 **"모델이 정답을 말할 때와 오답을 말할 때, 내부 층들 사이의 대화 패턴이 다르다"**는 것을 발견했습니다.

정답: 층들이 서로 잘 통하고, 흐름이 매끄럽습니다.
오답: 층들 사이에 오해가 생기고, 흐름이 끊기거나 불일치가 발생합니다.

이 논문은 이 불일치 패턴을 간단한 점수로 만들어, 모델이 "아, 내가 지금 헷갈리고 있구나"라고 스스로 (또는 외부 감시자가) 알아차리게 해줍니다.

한 줄 요약:

"모델의 복잡한 뇌세포를 다 파헤치지 말고, **층과 층 사이의 대화 흐름이 매끄러운지 (합의하는지)**만 확인하면, 모델이 틀린 말을 할 때를 쉽고 정확하게 알아챌 수 있다!"

이 기술은 AI 가 의료, 법률 등 중요한 분야에서 실수할 때 우리가 "잠깐, 이거 확인해 봐야 해!"라고 멈출 수 있게 도와주는 안전장치가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 은 종종 틀린 답변을 매우 자신 있게 생성하는 "할루시네이션 (Hallucination)" 현상을 보입니다. 이는 지식 집약적이거나 안전이 중요한 환경에서 모델의 신뢰성을 떨어뜨립니다.

기존 방법의 한계:
- 출력 기반 휴리스틱 (Token probability, Entropy 등): 계산이 빠르지만, 어휘적 표면 형태와 의미적 확신을 혼동하여 분포 변화 (Distribution Shift) 에 취약하고 "확신 있는 오답"을 탐지하지 못합니다.
- 베이지안/샘플링 기반 방법 (MC Dropout, Ensemble 등): 표현력이 뛰어나지만 대규모 모델에서 여러 번의 순전파 (Forward Pass) 가 필요해 계산 비용이 너무 높습니다.
- 내부 표현 탐지 (Probing): 모델 내부의 숨겨진 상태 (Hidden States) 를 분석하여 정확도 신호를 포착하지만, 고차원 벡터를 사용하며 과적합되기 쉽고, 데이터셋 간 전이 (Transfer) 가 어렵고 해석이 복잡합니다.

이 논문은 단일 순전파 (Single Forward Pass) 만으로 수행 가능하며, 경량화되고 전이 가능한 불확실성 추정 (Uncertainty Estimation, UE) 방법을 제안합니다.

2. 방법론 (Methodology)

저자들은 모델의 내부 신호를 학습하기 전에 구조화하는 접근 방식을 취합니다. 핵심 아이디어는 각 레이어의 후-MLP (Post-MLP) 활성화 값을 확률 분포로 변환하고, 태스크 관련 토큰에서 레이어 간의 지시적 KL 발산 (Directed KL Divergence) 을 계산하여 층간 합의 패턴을 포착하는 것입니다.

파이프라인 단계:

활성화 확률 분포 변환: 각 레이어 $\ell$ 의 숨겨진 상태 $h^{(t)}_\ell$ 를 온도 스케일링 소프트맥스 (Temperature-scaled Softmax) 를 통해 확률 분포 $p^{(t)}_\ell$ 로 변환합니다.
$p^{(t)}_\ell = \text{Softmax}\left(\frac{h^{(t)}_\ell}{\tau}\right)$
레이어 - 레이어 시그니처 맵 (Signature Maps) 생성: 태스크 관련 토큰 $t$ $t$ 에 대해 모든 레이어 쌍 $(i, j)$ $(i, j)$ 간의 지시적 KL 발산을 계산하여 $L \times L$ $L \times L$ 크기의 행렬 $S^{(t)}$ $S^{(t)}$ 를 만듭니다.
$S^{(t)}_{ij} = D_{KL}(p^{(t)}_i \parallel p^{(t)}_j)$
- 이 행렬은 레이어 간 정보 흐름의 불일치 (Disagreement) 또는 일치를 구조적으로 표현합니다.
- 필요 시 대비 변환 (Contrast transformation) 을 적용하여 동적 범위를 조정합니다.
불확실성 추정기 학습: 생성된 시그니처 맵을 평탄화 (Flatten) 하여 특징 벡터로 만든 후, 경량 Gradient Boosted Decision Tree (LightGBM) 분류기를 훈련시켜 정답 여부 (Correctness) 를 예측합니다.
- 출력된 확률 $q(x)$ 를 기반으로 불확실성 $u(x) = 1 - q(x)$ 를 산출합니다.

3. 주요 기여 (Key Contributions)

레이어 단위 정보 이론적 시그니처: 태스크 관련 토큰에서의 뉴런 활성화를 구조화된 표현으로 변환하기 위해 KL 기반 지시적 레이어 간 시그니처 맵을 제안했습니다.
경량 추정기 (Compact Estimator): 시그니처 맵을 기반으로 훈련된 경량 GBDT 모델을 사용하여, 아키텍처 변경이나 추가 순전파 없이 인스턴스별 점수를 생성합니다.
광범위한 평가: 3 개의 모델 (Llama-3.1-8B, Qwen3-14B, Mistral-7B) 과 다양한 데이터셋 (TriviaQA, HotpotQA, MMLU 등) 에서 기존 Probing 기법 및 다른 최신 방법론 (LOS-NET, ACT-ViT) 과 비교 평가했습니다.

4. 실험 결과 (Results)

실험은 분포 내 (In-distribution) 성능, 분포 간 전이 (Cross-dataset Transfer), 그리고 양자화 (Quantization) 환경에서의 견고성을 평가했습니다.

분포 내 성능 (In-distribution):
- 기존 Probing 기법과 유사한 성능을 보였습니다. AUPRC 는 Probing 보다 약간 낮았으나 (최대 -1.8%p), Brier Score (확률적 보정) 는 Probing 보다 일관되게 우세했습니다 (+4.9%p). 이는 제안된 방법이 오답 순위 매기기는 약간 덜 정확할지라도, 예측 확률의 보정 (Calibration) 이 더 우수함을 의미합니다.
교차 데이터셋 전이 (Cross-dataset Transfer):
- 가장 두드러진 성과를 보였습니다. 한 데이터셋에서 훈련하고 다른 데이터셋에서 평가할 때, Probing 보다 일관되게 우월한 성능을 보였습니다.
- AUPRC 에서 최대 +2.86%p, Brier Score 에서 최대 +21.02%p 의 향상을 기록했습니다. 이는 시그니처 맵이 특정 태스크에 과적합되지 않는 보편적인 레이어 간 합의 패턴을 포착함을 시사합니다.
양자화 견고성 (4-bit Quantization):
- 4 비트 가중치 양자화 환경에서도 Probing 보다 우월한 성능을 유지했습니다 (AUPRC +1.94%p, Brier +5.33%p). 이는 레이어 간 발산 기반의 구조적 신호가 양자화 노이즈에 덜 민감함을 보여줍니다.
복잡도 대비 성능:
- 기존 방법 (ACT-ViT, LOS-NET) 이 수백만 개의 파라미터를 사용하는 반면, 제안된 방법은 $L \times L$ 크기의 매우 컴팩트한 표현 ( $L^2 \ll d_{hidden}$ ) 만 사용하여 동등하거나 더 나은 성능을 달성했습니다.

5. 의의 및 결론 (Significance & Conclusion)

해석 가능성 (Interpretability): 시그니처 맵을 분석함으로써 서로 다른 모델이 불확실성을 어떻게 인코딩하는지 (예: Mistral 은 인접 레이어 간 상호작용에 의존, Qwen 은 더 먼 레이어 간 상호작용에 의존) 에 대한 통찰을 얻을 수 있습니다.
실용성: 모델 구조 변경 없이 단일 순전파로 구현 가능하며, 계산 비용이 낮아 실제 배포 환경 (Deployment) 에서 신뢰성 있는 불확실성 추정을 위한 실용적인 도구로 활용 가능합니다.
이론적 위치: 정보 병목 (Information Bottleneck) 의 전역적 상호정보량 추정과 고차원 숨겨진 상태에 의존하는 Probing 사이의 중간 지점을 차지하며, 인스턴스 단위의 구조화된 내부 증거를 활용합니다.

결론적으로, 이 논문은 LLM 의 내부 레이어 간 상호작용 패턴을 구조화하여 가볍고, 전이 가능하며, 양자화에 강한 불확실성 추정 방법을 제시함으로써, LLM 의 할루시네이션을 탐지하고 안전한 배포를 가능하게 하는 중요한 기여를 했습니다.

Between the Layers Lies the Truth: Uncertainty Estimation in LLMs Using Intra-Layer Local Information Scores

1. 문제 상황: "자신감 넘치는 거짓말쟁이"

2. 이 논문의 해결책: "층과 층 사이의 '합의' 체크"

3. 왜 이 방법이 더 좋은가?

4. 결론: "층 사이의 진실을 찾아서"

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Beyond Hard Constraints: Budget-Conditioned Reachability For Safe Offline Reinforcement Learning

Efficient Embedding-based Synthetic Data Generation for Complex Reasoning Tasks

Scaling Attention via Feature Sparsity

Latent Semantic Manifolds in Large Language Models

Research on Individual Trait Clustering and Development Pathway Adaptation Based on the K-means Algorithm