Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 거짓말을 할 때, 그 거짓말의 '종류'를 어떻게 구분할 수 있는지에 대한 흥미로운 연구입니다. 마치 수사관이 범인의 유형을 파악하기 위해 지문이나 발자국을 분석하는 것처럼, AI 의 뇌속 (데이터) 을 들여다보며 거짓말의 패턴을 찾아낸 이야기입니다.

간단히 비유해서 설명해 드릴게요.

1. 연구의 배경: AI 의 거짓말은 세 가지 종류가 있다

연구진은 AI 가 틀린 말을 할 때 크게 세 가지 상황이 발생한다고 정의했습니다.

Type 1 (중심에서 헤매는 경우): AI 가 맥락을 잃고 그냥 "아무거나" 중립적인 말만 반복하는 상태입니다. (예: "그건... 음... 뭐 그런 거죠.")
Type 2 (잘못된 곳에 꽂히는 경우): AI 는 확신에 차서 말을 하지만, 그 내용이 완전히 틀린 곳으로 향하는 경우입니다. (예: "사과가 하늘에서 떨어졌을 때, 그건 중력 때문이 아니라..." - 논리적으로 coherent 하지만 사실은 틀린 이야기)
Type 3 (정보의 공백): AI 가 아예 모르는 주제를 다룰 때, 빈 공간을 채우기 위해 허둥지둥하는 상태입니다.

이전 연구에서는 **Type 1(헤매는 것)**과 **Type 2(잘못된 확신)**를 구별하는 것이 매우 어려웠습니다. 마치 안개 낀 날에 두 개의 서로 다른 물체를 구별하기 힘든 것과 비슷했죠.

2. 해결책: "화이트닝 (Whitening)"이라는 안경 쓰기

연구진은 AI 의 뇌속 데이터를 분석할 때, 기존에 쓰던 방법으로는 안개 때문에 잘 보이지 않는다는 것을 깨달았습니다. 그래서 **'화이트닝 (Whitening)'**이라는 특수한 안경을 끼고 다시 보았습니다.

비유: 안개 낀 날에 안경을 끼고 빛을 조절하면, 멀리 있는 물체의 윤곽이 선명해지듯이, AI 의 미세한 신호를 증폭시켜주는 기술입니다.
결과: 이 안경을 끼고 보니, **Type 2(잘못된 확신)**와 **Type 3(정보 공백)**는 확실히 구별되었습니다. Type 2 는 특정 주제에 꽂혀서 (Commitment) 매우 강한 신호를 보냈고, Type 3 은 아무 주제에도 꽂히지 않아 신호가 약했습니다.

3. 중요한 발견: "확신"이 핵심이다

이 연구에서 가장 중요한 발견은 **"AI 가 얼마나 확신하는가 (Peak Cluster Alignment)"**를 재는 것이 거짓말의 종류를 구분하는 열쇠라는 점입니다.

Type 2는 틀린 길로 갔지만, 그 길에 매우 확신이 있습니다. (가장 높은 점수)
Type 1은 그냥 헤매고 있어서 확신이 없습니다. (중간 점수)
Type 3은 아예 갈 곳이 없어서 확신이 전혀 없습니다. (가장 낮은 점수)

기존에는 '불확실성 (엔트로피)'을 재는 것이 중요하다고 생각했지만, 이 연구는 **'확신의 정도'**를 재는 것이 훨씬 정확하다고 증명했습니다.

4. 흥미로운 실패와 교훈: "질문 15 개 vs 30 개"

연구진은 처음에 질문 (프롬프트) 을 15 개만 썼을 때, 엉뚱한 신호 (Type 1 과 2 를 구분하는 것처럼 보이는 가짜 신호) 를 발견했습니다. 하지만 질문을 30 개로 늘려 다양하게 만들자, 그 가짜 신호는 사라졌습니다.

비유: 15 개의 질문만 했을 때는 우연히 "비행기"에 관련된 질문만 골라낸 셈이 되어, AI 가 비행기 이야기만 할 때의 특이한 반응만 본 것이었습니다. 질문을 30 개로 늘려서 "비행기, 요리, 축구, 역사" 등 다양하게 묻자, 그 특이한 반응은 사라지고 진짜 패턴만 남았습니다.
교훈: 아주 미세한 신호를 찾을 때는, 질문의 종류가 너무 좁으면 잘못된 결론에 도달할 수 있습니다.

5. 결론: AI 의 능력 한계와 미래

마지막으로, **Type 1(헤매는 것)**과 **Type 2(잘못된 확신)**를 완벽하게 구분하는 것은 현재 사용된 작은 AI 모델 (GPT-2) 의 능력 한계였습니다.

비유: 작은 거울 (작은 AI) 에는 두 물체의 미세한 차이가 잘 안 보이지만, 거대한 망원경 (큰 AI) 을 쓰면 분명히 구별될 것이라고 예측합니다.
의미: 이 구분은 AI 의 '지능 부족' 때문이 아니라, 현재 모델의 '해상도'가 부족해서입니다. 더 큰 모델이 나오면 이 두 가지를 완벽하게 구분할 수 있을 것입니다.

요약

이 논문은 **"AI 가 거짓말할 때, 그 '확신'의 정도를 측정하는 안경 (화이트닝) 을 끼면, 거짓말의 종류를 더 잘 구별할 수 있다"**는 것을 증명했습니다. 또한, **"작은 AI 는 헤매는 것과 잘못된 확신을 구분하는 데 한계가 있지만, 더 큰 AI 가 나오면 해결될 것"**이라고 예측하며, AI 의 거짓말을 감지하는 새로운 기준을 제시했습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

할루시네이션 분류 체계: 이전 연구 (Korun, 2026b) 는 할루시네이션을 세 가지 기하학적 유형으로 분류했습니다.
- Type 1 (Center-drift): 약한 문맥 하에서 생성이 임베딩 중심 (centroid) 으로 drifting 되는 현상.
- Type 2 (Wrong-well): 문맥적으로 틀리지만 국소적으로 일관된 클러스터에 잘못 수렴하는 현상.
- Type 3 (Coverage gap): 학습 분포에 존재하지 않는 의미 조합으로 인해 모든 클러스터와 약하게만 연결되는 현상.
핵심 문제: GPT-2-small(1.24 억 파라미터) 과 같은 소형 모델에서 Type 1 과 Type 2 를 구분하는 것이 불가능했습니다. 기존 연구에서는 전체 차원 (full-dimensional) 측정에서 두 유형이 기하학적으로 구별되지 않았습니다.
가설:
1. 용량 한계 (Capacity Limitation): 1.24 억 파라미터 모델이 약한 문맥 (Type 1) 과 잘못된 라우팅 (Type 2) 의 미세한 차이를 표현할 정밀도가 부족함.
2. 스펙트럼 혼합 (Spectral Mixing): 전체 차원 측정 시 모든 주성분 (Principal Components) 을 합산하여 특정 대역의 신호가 희석됨.

2. 방법론 (Methodology)

이 연구는 GPT-2-small 을 사용하여 **PCA-Whitening(백색화)**과 **다중 실행 안정성 분석 (Multi-run Stability Analysis)**을 결합하여 문제를 해결했습니다.

데이터 및 모델:
- 모델: GPT-2-small (124M 파라미터, 768 차원 숨겨진 상태).
- 프롬프트: 유형별 30 개씩 총 90 개 (이전 연구의 15 개에서 확장하여 프롬프트 다양성 테스트).
- 실행: 20 개의 독립적인 시드 (seed) 로 생성 반복.
전처리: PCA-Whitening
- 컨텍스트 숨겨진 상태의 미세 신호 (micro-signal) 를 증폭하기 위해 공분산 행렬을 단위 행렬로 변환하는 Whitening 을 적용했습니다.
- 이는 주성분 방향의 분산을 평준화하여, 기존에 0.985~0.993 사이로 포화 상태였던 유사도 (cosine similarity) 공간에서 의미 있는 차이를 드러내도록 합니다.
측정 지표:
- Peak Cluster Alignment (max sim): 임의의 클러스터 중심과의 최대 코사인 유사도. (클러스터 헌신도 측정)
- Entropy (H(v)): 클러스터 소속도 엔트로피.
- Norm: 벡터 크기.
통계 분석:
- 프롬프트 수준 (prompt-level) 집계 및 Mann-Whitney U 검정.
- 20 번의 실행에 대한 방향성 안정성 (directional stability) 및 Holm-Bonferroni 보정.
- 스펙트럼 대역 분해: 주성분 (PC) 을 6 개의 대역 (Dominant, Transition, Mid-range, Tail 등) 으로 나누어 신호가 특정 대역에 집중되는지 확인.

3. 주요 결과 (Key Results)

3.1. Whitening 과 max sim 의 발견

Type 2 vs Type 3 분리: Whitening 된 공간에서 max sim은 Type 2 와 Type 3 을 Holm 보정 후 40% 유의수준에서 성공적으로 분리했습니다 ( $r = -0.31$ , 20/20 실행에서 방향성 일치).
예측된 순서 확인: 조건별 평균이 이론적 예측과 일치했습니다: Type 2 (최고 헌신) > Type 1 (중간) > Type 3 (최저 헌신).
- Type 2 는 특정 클러스터에 강하게 헌신하여 max sim 이 가장 높음.
- Type 3 은 어떤 클러스터와도 정렬되지 않아 가장 낮음.
- Type 1 은 그 사이 값.

3.2. Type 1/2 분리의 첫 번째 신호 (Capacity Prediction)

미약하지만 방향성 있는 신호: 동일한 max sim 지표로 Type 1 과 Type 2 를 비교했을 때, Holm 보정 15% 유의수준 ( $r = +0.21$ , 17/20 방향성 일치) 의 신호가 관측되었습니다.
의미: 124M 파라미터 모델에서는 통계적 검정력 (power) 이 부족하여 명확히 분리되지 않지만, 방향성은 이론과 일치합니다. 이는 더 큰 모델에서는 이 간격이 벌어질 것이라는 **용량 예측 (Capacity Prediction)**을 가능하게 합니다.

3.3. 프롬프트 세트 민감성과 거짓 양성 (False Positive)

H(v) 의 붕괴: 프롬프트가 15 개일 때는 Whitened Entropy (H(v)) 가 강력한 분리 지표로 보였으나, 프롬프트를 30 개로 확장하자 이 신호는 완전히 사라졌습니다 (거짓 양성).
원인: 15 개의 프롬프트가 우연히 주성분 (PC 1-16) 의 분산 축과 정렬되어 인위적인 분리를 만들어냈습니다. 프롬프트 다양화가 이를 제거했습니다.

3.4. 스펙트럼 분석 결과

스펙트럼 혼합 가설 기각: 주성분 대역별로 분석한 결과, 어떤 대역에서도 Type 1/2 분리가 관측되지 않았습니다.
결론: Type 1 과 Type 2 의 분리가 불가능한 이유는 측정 방법이 잘못되어 신호가 희석된 것이 아니라, 모델의 표현 능력 (Capacity) 자체가 부족하기 때문임을 확인했습니다.

4. 주요 기여 (Key Contributions)

이론적으로 올바른 분리 지표의 규명: 엔트로피 (H(v)) 가 아닌 **클러스터 헌신도 (Peak Cluster Alignment, max sim)**가 할루시네이션 유형을 구분하는 기하학적으로 올바른 지표임을 증명했습니다. Whitening 은 이를 드러내는 필수 전처리 과정입니다.
Type 1/2 경계의 본질 규명: Type 1 과 Type 2 의 분리가 불가능한 것은 측정 오류가 아니라 모델의 용량 한계임을 입증했습니다. 더 큰 모델에서는 이 구분이 가능해질 것임을 예측했습니다.
방법론적 통찰 (Micro-signal Regime): 미세 신호 영역 (마지막 소수점 4 자리 차이) 에서 실험할 때, 프롬프트 세트의 제한이 강력한 거짓 양성을 유발할 수 있음을 보여주었습니다. 프롬프트 다양화 (N=15 → N=30) 가 필수적임을 입증했습니다.

5. 의의 및 시사점 (Significance)

할루시네이션 탐지 프레임워크: 기존 내부 표현 분석이 포화 상태의 유사도 공간에서 실패했던 이유를 해결하고, Whitening 과 max sim 을 활용한 새로운 탐지 파이프라인을 제시합니다.
- Type 3(커버리지 갭) 은 Norm 과 Whitened max sim 으로 탐지 가능.
- Type 1/2(라우팅 품질) 는 현재 소형 모델로는 구분 불가하나, 대형 모델에서는 가능할 것으로 예상.
모델 용량에 대한 통찰: 124M 모델조차 '클러스터 헌신'의 기하학적 어휘를 내재하고 있음을 보여주지만, 이를 정밀하게 구분할 수 있는 정밀도는 더 큰 모델에서야 확보된다는 것을 시사합니다.
실험 설계의 중요성: 미세한 기하학적 차이를 연구할 때, 고정된 소수의 프롬프트 세트는 실험 결과의 신뢰성을 해칠 수 있으므로 반드시 프롬프트 다양화가 필요함을 강조합니다.

결론

이 논문은 Whitening 기법을 통해 컨텍스트 숨겨진 상태의 미세한 기하학적 구조를 가시화함으로써, 할루시네이션 유형별 구분이 **엔트로피가 아닌 클러스터 헌신도 (max sim)**에 의해 결정됨을 증명했습니다. 또한, Type 1 과 Type 2 의 분리가 현재 모델의 용량 한계임을 규명하고, 프롬프트 세트의 민감성이 미세 신호 연구에서 얼마나 중요한 방법론적 고려사항인지를 보여주었습니다.