Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 숫자를 예측할 때, 우리가 그 답을 구하는 데 너무 많은 시간을 낭비하고 있는 것은 아닐까?"**라는 질문에서 시작합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🎭 비유: "수학 천재와 그의 속마음"

상상해 보세요. 거대 언어 모델 (LLM) 은 수학 천재입니다. 여러분이 "내일 날씨가 어떨지, 기온은 몇 도일까?"라고 물으면, 이 천재는 머릿속으로 복잡한 계산을 합니다.

1. 기존 방식: "한 글자씩 말하기" ( autoregressive )

지금까지 우리가 이 천재에게 답을 구할 때 했던 방식은 다음과 같았습니다.
천재가 답을 말하려면, **"20 도"**라고 말해야 한다면, 먼저 **"2"**를 말하고, 잠시 멈추고, **"0"**을 말하고, 마지막으로 **"도"**를 말해야 합니다.

문제점: 만약 천재가 "1000 도"라고 말해야 한다면, 4 번이나 입술을 움직여야 합니다.
불확실성 측정: 만약 "정확한 온도가 얼마나 불확실할까?"를 알고 싶다면, 천재에게 같은 질문을 100 번 반복해서 물어봐야 합니다. "100 번 말하게 하려면 400 번의 입술 움직임이 필요하죠!"
결과: 시간이 너무 오래 걸리고, 컴퓨터 비용이 많이 듭니다.

2. 이 논문의 발견: "속마음 읽기" ( Probing )

이 연구 팀은 천재가 입을 열기 전, 머릿속에서 답을 이미 결정하고 있는지를 확인해 보았습니다.
그들은 천재의 **뇌 속 신호 (은닉 상태, Hidden States)**를 훔쳐봤습니다. 놀랍게도, 천재가 "2"라고 말하기 훨씬 전, 이미 **"20 도 정도일 것"**이라는 정보와 **"약간 흐릴 수도 있고 맑을 수도 있다 (불확실성)"**는 정보가 뇌 속에 꽉 차 있었습니다.

3. 새로운 방법: "속마음 번역기" ( Probing Model )

연구팀은 이 뇌 속 신호를 바로 읽어서 답을 내놓는 **작은 번역기 (프로브)**를 만들었습니다.

기존 방식: 천재에게 100 번 물어보고 100 번 답을 기다림 (시간 걸림).
새로운 방식: 천재의 뇌 신호를 한 번만 스캔하고, 번역기가 바로 "평균 20 도, 불확실성 범위 18~22 도"라고 알려줌 (순간 완료).

🔍 이 번역기는 어떻게 작동할까요? (창의적 비유)

숫자는 크기가 천차만별입니다. "0.001"도 있고 "1,000,000"도 있죠. 이걸 한 번에 맞추기는 어렵습니다. 그래서 연구팀은 두 단계로 나누어 번역기를 만들었습니다.

크기 감지기 (Magnitude Classifier):
- "이 숫자는 몇 자리 숫자일까?"를 먼저 맞춥니다. (예: "아, 이건 1000 단위구나!")
- 마치 "이 물건의 크기는 '작은 상자'급인가, '트럭'급인가?"를 먼저 분류하는 것과 같습니다.
정밀 측정기 (Value Regressor):
- 크기가 정해지면, 이제 "그 안에서 정확히 얼마일까?"를 맞춥니다. (예: "1000 단위라면, 1234 정도겠네.")
- 크기를 먼저 알았으니, 나머지 숫자를 맞추는 건 훨씬 쉽습니다.

🌟 이 연구가 왜 중요한가요?

속도 향상 (Lightning Fast):
- 천재가 입으로 답을 줄 때까지 기다릴 필요가 없습니다. 뇌 신호만 읽으면 되므로, 수백 배 더 빠릅니다.
- 마치 "답을 외운 학생"에게서 답을 바로 받아내는 것과 같습니다.
불확실성도 알 수 있음 (Uncertainty):
- 이 번역기는 단순히 "20 도"라고만 알려주는 게 아닙니다. "20 도일 가능성이 높지만, 18 도에서 22 도 사이일 수도 있어"라는 신뢰 구간도 알려줍니다.
- 이는 의료, 금융, 자율주행처럼 실수하면 큰일 나는 분야에서 매우 중요합니다.
LLM 의 비밀을 밝힘:
- 우리는 LLM 이 숫자를 계산할 때, 단순히 글자 하나하나를 이어 붙이는 기계라고 생각했습니다. 하지만 이 연구는 LLM 이 숫자의 의미와 불확실성을 이미 '이해'하고 뇌 속에 저장해 둔다는 것을 증명했습니다.

💡 요약

이 논문은 **"거대 언어 모델이 숫자를 예측할 때, 굳이 천천히 글자 하나하나를 말하게 하지 말고, 그 머릿속의 답을 바로 읽어내자"**고 제안합니다.

기존: 천재에게 "2... 0... 도..."라고 말하게 하여 답을 기다림. (비효율적)
새로운 방법: 천재의 뇌를 스캔하여 "20 도, 오차범위 ±2"라고 바로 읽음. (효율적, 빠름)

이 기술이 발전하면, 우리가 AI 에게 복잡한 숫자 문제를 물어볼 때 훨씬 더 빠르고, 정확하며, "이 답이 얼마나 확실한지"까지 알려주는 AI 를 사용할 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

현재의 한계: LLM 은 시간계열 예측이나 표본 데이터 회귀와 같은 수치 예측 작업에서 컨텍스트 학습 능력을 통해 우수한 성능을 보입니다. 그러나 LLM 은 기본적으로 토큰 단위의 autoregressive(자기회귀) 생성 방식을 사용합니다.
계산 비용: 연속된 실수 값을 생성하려면 소수점 위치, 자릿수 결정 등 여러 토큰을 순차적으로 생성해야 하므로, 하나의 예측값을 얻기 위해 여러 번의 순전파 (forward pass) 가 필요합니다.
불확실성 추정 비용: 예측의 불확실성을 정량화하거나 분포를 추정하기 위해 수백 개의 샘플을 생성해야 하는 경우, 이 과정은 계산적으로 매우 비효율적이고 시간이 많이 소요됩니다.
핵심 질문: "LLM 이 토큰을 하나씩 생성하기 전에, 내부 표현 (hidden states) 에 이미 다음에 생성할 숫자의 분포적 특성 (평균, 중앙값, 불확실성 등) 이 인코딩되어 있는가?"

2. 방법론 (Methodology)

저자들은 LLM 의 입력 시퀀스에 대한 내부 표현 (embedding) 에서 직접 통계적 함수 (통계량) 를 예측하는 프로빙 모델 (Probing Model) 을 학습시켰습니다. 주요 기술적 요소는 다음과 같습니다.

A. 데이터 및 표현 (Representation)

모델: Llama-2-7B 를 주 모델로 사용 (Appendix 에서 다른 모델들도 검증).
입력: 시계열 데이터를 텍스트로 직렬화하여 LLM 에 입력합니다.
특징 추출: LLM 의 마지막 토큰에 해당하는 숨겨진 상태 (hidden states) 중 마지막 8 개 레이어의 벡터를 추출하여 연결 (concatenate) 합니다.

B. 크기 분해형 회귀 모델 (Magnitude-Factorised Probing Model)

수치 예측의 핵심 난제는 목표값의 크기 (magnitude) 가 매우 다양하다는 점입니다. 일반적인 MSE 손실 함수는 큰 값에 편향되기 쉽습니다. 이를 해결하기 위해 두 단계로 나뉜 모델을 제안합니다:

크기 분류기 (Magnitude Classifier): 목표값의 10 진법 지수 (order of magnitude, 예: $10^2, 10^{-3}$ ) 를 분류합니다.
스케일 불변 회귀기 (Scale-Invariant Regressor): 분류된 크기를 기반으로, 스케일이 조정된 값 (scaled value) 을 회귀합니다.
- 최종 예측은 $\hat{y} = \text{regression\_output} \times 10^{\text{predicted\_magnitude}}$ 형태로 계산됩니다.
- 이 방식은 다양한 크기의 숫자를 안정적으로 학습할 수 있게 합니다.

C. 예측 목표

점 추정 (Point Estimates): LLM 이 생성하려는 숫자의 Greedy 출력, 평균 (Mean), 중앙값 (Median) 을 예측합니다.
불확실성 추정 (Uncertainty Estimation): 분위수 회귀 (Quantile Regression) 를 사용하여 분포의 모양을 복원합니다.
- 핀볼 손실 (Pinball Loss) 을 사용하여 2.5%, 5%, 25%, 50%, 75%, 95%, 97.5% 분위수를 예측합니다.
- 이를 통해 신뢰 구간 (Confidence Intervals) 과 사분위수 범위 (IQR) 를 추정합니다.

3. 주요 결과 (Key Results)

A. 수치 예측의 정확성

내부 표현의 정보량: LLM 의 내부 표현만으로도 LLM 이 생성하려는 숫자의 지수 (크기) 를 90% 이상의 정확도로 예측할 수 있었습니다.
점 추정 성능: 제안된 프로빙 모델은 LLM 의 Greedy, 평균, 중앙값 예측을 매우 높은 정확도로 복원했습니다 (Pearson 상관관계 0.90~0.98).
Ground Truth 대비 성능: 프로빙 모델이 예측한 값과 실제 시계열의 다음 값 (Ground Truth) 간의 오차는, LLM 에서 직접 샘플링을 통해 얻은 통계량과 거의 동일한 수준이었습니다.

B. 불확실성 추출

분포 복원: 프로빙 모델은 LLM 의 예측 분포의 퍼짐 (spread) 을 정확히 포착했습니다. 예측된 IQR 과 실제 샘플링 기반 IQR 간의 상관관계가 높았습니다.
신뢰 구간 보정: 예측된 분위수를 기반으로 계산된 신뢰 구간 (50%, 90%, 95%) 은 실제 LLM 샘플의 분포와 잘 일치하는 잘 보정된 (well-calibrated) 결과를 보여주었습니다.

C. 효율성 (Efficiency)

계산 비용 절감: LLM 에서 $N$ $N$ 개의 샘플을 생성하여 평균을 구하는 대신, 프로빙 모델을 한 번 실행하는 것이 훨씬 효율적입니다.
- 실험 결과, 프로빙 모델은 20~25 개의 LLM 샘플을 생성했을 때와 유사한 오차 수준을 달성했습니다.
- 추론 시간 측면에서, 프로빙 모델은 단일 LLM 샘플 생성보다 약 47 배 빠릅니다.

D. 일반화 능력 (Generalization)

문맥 길이: 훈련된 문맥 길이 범위를 벗어난 길이에서도 어느 정도 일반화되었으나, 범위가 넓을수록 보정 (calibration) 능력이 약간 저하되었습니다.
실제 데이터: 합성 데이터로 훈련된 모델이 실제 세계 데이터 (Monash, Darts 데이터셋) 에 적용되었을 때, 크기와 분포의 차이로 인해 성능이 일부 떨어지기는 했지만, 여전히 의미 있는 일반화 능력을 보여주었습니다.

4. 주요 기여 및 의의 (Contributions & Significance)

LLM 의 수치 추론 메커니즘 규명: LLM 이 토큰을 생성하기 전에 내부 표현에 이미 수치적 예측의 핵심 정보 (크기, 평균, 불확실성 등) 를 인코딩하고 있음을 증명했습니다. 이는 LLM 의 "수치적 추론"이 autoregressive 디코딩 과정 이전에 이미 이루어지고 있음을 시사합니다.
효율적인 불확실성 추정 방법 제시: 반복적인 샘플링 없이 LLM 의 내부 상태를 통해 신뢰 구간과 분포를 추출할 수 있는 경량화된 방법을 제시했습니다. 이는 실시간 의사결정, 모델 기반 제어, 베이지안 최적화 등 불확실성 정량화가 필수적인 분야에서 LLM 의 실용성을 크게 높입니다.
새로운 아키텍처 제안: 다양한 크기의 숫자를 다루기 위한 크기 분해형 (Magnitude-Factorised) 프로빙 구조를 제안하여, 기존 회귀 프로브의 한계를 극복했습니다.

5. 결론

이 연구는 LLM 이 수치 예측 작업을 수행할 때, 불필요한 autoregressive 생성 과정을 거치지 않고도 내부 표현에서 정확한 점 추정치와 불확실성 정보를 추출할 수 있음을 보여줍니다. 이는 LLM 을 수치 회귀 작업에 적용할 때 발생하는 계산적 병목 현상을 해결하고, 더 효율적이고 신뢰할 수 있는 예측 시스템을 구축할 수 있는 새로운 길을 열었습니다.

코드: 연구의 재현을 위한 코드는 GitHub 에서 공개되어 있습니다. (https://github.com/kasia-kobalczyk/guess_llm.git)