From Prerequisites to Predictions: Validating a Geometric Hallucination Taxonomy Through Controlled Induction

Each language version is independently generated for its own context, not a direct translation.

🧭 핵심 비유: AI 의 '머릿속 지도'

생각해 보세요. AI 는 방대한 양의 책을 읽으며 세상을 배웠습니다. 이때 AI 는 단어들을 지도상의 특정 위치에 배치해 둡니다.

'사과'와 '배'는 과일 구역에 모여 있고, '자동차'와 '버스'는 교통 구역에 모여 있습니다.
이 지도가 잘 정리되어 있으면 AI 는 정확한 답을 내놓습니다.

하지만 AI 가 망가질 때 (할루시네이션이 일어날 때), 이 지도에서 무슨 일이 일어날까요? 저자는 이를 세 가지 유형으로 나누었습니다.

1. 세 가지 종류의 '길 잃음' (할루시네이션 유형)

유형 1: 중심에서 떠도는 경우 (Center-drift)
- 상황: 질문이 너무 막연할 때 (예: "그것은...").
- 비유: 나침반이 고장 나서 북극을 가리키지 못하고, 지도의 한가운데 빈 공간을 빙빙 돌며 아무 의미 없는 말을 뱉어내는 상태입니다.
유형 2: 잘못된 골짜기로 가는 경우 (Wrong-well)
- 상황: 질문이 애매할 때 (예: "은행에 갔다" -> 돈이 있는 은행인지, 강가 은행인지).
- 비유: 나침반은 잘 작동하지만, 잘못된 골짜기로 확실히 빠져버린 상태입니다. 그 골짜기 안에서는 논리적으로 말이 되지만, 질문의 의도와는 완전히 다른 방향으로 가는 것입니다.
유형 3: 지도에 없는 지역 (Coverage gaps)
- 상황: AI 가 전혀 모르는 새로운 개념을 조합할 때 (예: "고대 고래의 초전도 광학").
- 비유: 지도에 아예 존재하지 않는 지역을 가리키려 할 때입니다. AI 는 "여기는 내가 아는 어떤 마을도, 숲도, 강도 없다"는 것을 느끼고, 지도 밖으로 나가버립니다.

🔍 실험: AI 의 뇌를 스캔하다

저자는 이 세 가지 유형이 AI 의 뇌속 (데이터) 에서 실제로 다르게 나타나는지 확인하기 위해 GPT-2라는 모델을 이용해 실험을 했습니다.

실험 방법:

세 가지 유형의 질문을 15 개씩 준비했습니다.
각 질문으로 20 번씩 다른 결과를 만들어내어 (랜덤성 제거), 결과가 우연인지 진짜인지 확인했습니다.
AI 가 단어를 고를 때의 두 가지 상태를 측정했습니다.
1. 정적인 상태: 단어 자체의 고정된 위치 (사전 속 위치).
2. 맥락적 상태: 문맥을 고려한 AI 의 순간적인 생각 (뇌속의 활성화 상태).

📊 놀라운 발견: 지도의 모양이 다릅니다!

실험 결과는 매우 흥미로웠습니다.

1. 유형 3 (지도에 없는 지역) 은 확실히 다릅니다!

비유: AI 가 모르는 말을 할 때, 그 '의지력 (데이터의 크기)'이 확실히 줄어듭니다. 마치 "이건 내가 잘 모르는 일이야"라고 몸을 웅크리는 것처럼, AI 의 내부 신호가 작아집니다.
결과: 이 현상은 20 번의 실험 중 19 번이나 똑같이 나타났습니다. 즉, AI 가 완전히 새로운 것을 만들어낼 때는 뇌속 신호가 확실히 작아진다는 게 증명되었습니다.

2. 유형 1 과 2 는 구별이 안 됩니다.

비유: "중심에서 떠도는 것"과 "잘못된 골짜기로 가는 것"은 AI 의 뇌속에서 똑같이 보입니다. 마치 나침반이 고장 난 것과 잘못된 골짜기에 빠진 것이 AI 에겐 똑같은 '혼란'으로만 느껴지는 것입니다.
결과: 20 번의 실험 중 거의 모든 경우에 두 유형을 구별하지 못했습니다.

3. 함정: 숫자의 착시 (Pseudoreplication)

비유: AI 가 한 문장을 만들 때 수백 개의 단어를 나열합니다. 연구자들은 처음에 "단어 하나하나를 보면 차이가 있네!"라고 생각했지만, 알고 보니 그건 동일한 문장 안에서 반복된 신호를 세 번, 네 번 세서 착각한 것이었습니다.
결과: 단어 단위로 분석하면 4~16 배나 더 많은 '의미 있는 차이'가 있는 것처럼 보이지만, 실제로는 문장 전체로 보면 그 차이가 사라집니다. (마치 한 번의 실수를 10 번 반복해서 큰 사건인 것처럼 착각하는 것과 같습니다.)

💡 결론: 무엇을 배울 수 있을까요?

이 연구는 우리에게 두 가지 중요한 교훈을 줍니다.

AI 가 '모른다'는 것을 아는 법:
AI 가 완전히 새로운 것을 만들어낼 때 (유형 3), 그 내부 신호가 확실히 작아집니다. 우리는 이 '작아진 신호'를 감지하면 "아, 이 AI 는 지금 지어내고 있구나!"라고 알 수 있습니다.
AI 가 '혼란스러워'하는 것과 '잘못된' 것을 구별하기 어렵다:
질문이 애매하거나 맥락이 부족할 때 (유형 1, 2), AI 의 뇌속 신호는 너무 미묘해서 현재 기술로는 구별하기 힘듭니다. 마치 아주 작은 진동과 큰 진동을 구별하는 것이 아니라, 진동이 아예 없는 것과 아주 미세한 진동을 구별하는 것처럼 어렵습니다.

한 줄 요약:

"AI 가 완전히 새로운 거짓말 (지도 밖의 이야기) 을 할 때는 그 '신호'가 확실히 작아져서 잡아낼 수 있지만, 단순히 헷갈려서 잘못된 말을 할 때는 그 신호가 너무 미세해서 현재 기술로는 구별하기 어렵다는 것을 증명했습니다."

이 연구는 AI 의 실수를 단순히 '오류'로 치부하는 것이 아니라, 어떤 종류의 오류인지를 수학적으로 분류하고, 이를 통해 더 안전한 AI 를 만드는 첫걸음을 내디뎠습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

대형 언어 모델 (LLM) 의 '환각 (Hallucination)' 현상은 신뢰할 수 있는 배포의 주요 장애물입니다. 기존 연구들은 출력 단계에서 환각을 탐지하거나 (자기 일관성 확인 등), 생성 실패를 기하학적 관점에서 분류하려는 시도를 해왔습니다.

이 논문은 선행 연구 (Korun, 2026) 에서 제안된 3 가지 기하학적 환각 분류 체계가 실제로 생성 과정에서 예측된 기하학적 서명 (signature) 을 생성하는지 검증하는 것을 목표로 합니다.

Type 1 (Center-drift): 약한 맥락에서 생성이 임의의 중심 (centroid) 으로 붕괴되는 현상.
Type 2 (Wrong-well convergence): 국소적으로 일관되지만 문맥상 잘못된 클러스터로 수렴하는 현상.
Type 3 (Coverage gaps): 훈련 데이터에 존재하지 않는 의미적 조합으로 인해 클러스터 구조가 전혀 지지되지 않는 공백 (gap) 현상.

기존 연구는 이러한 기하학적 전제 조건 (클러스터 구조, 극성 축 등) 이 존재함을 확인했으나, 실제 환각 유형이 예측된 기하학적 서명을 생성하는지는 검증되지 않았습니다. 이 논문은 이를 통제된 유도 (Controlled Induction) 실험을 통해 검증합니다.

2. 방법론 (Methodology)

2.1 실험 설계

모델: GPT-2-small (124M 파라미터, 12 레이어). GPU 없이 CPU 에서 재현성을 확보하기 위해 사용.
프롬프트 조건 (N=15/그룹): 각 환각 유형을 유발하도록 설계된 15 개의 프롬프트를 3 가지 조건으로 구성.
- Type 1: 의미적 공허한 최소 프롬프트 ("The", "It is" 등).
- Type 2: 두 개 이상의 명확한 도메인이 모호하게 공존하는 프롬프트 ("The bank announced..." - 금융 vs 강).
- Type 3: 훈련 데이터에 존재하지 않는 복합적 기술 용어 조합 ("xenoplasmic refractometry of late-Holocene" 등).
생성: 각 프롬프트당 60 토큰 생성 (총 약 2,700 토큰).
반복 안정성 프로토콜: 온도 (Temperature) 1.0 에서 20 회 독립적인 생성 실행을 수행하여 결과의 안정성을 정량화.

2.2 측정 공간 (Representation Spaces)

동일한 프롬프트로 두 가지 다른 공간에서 측정을 수행:

정적 임베딩 (Static Embeddings): 생성된 토큰의 고정된 어휘 공간 위치 (Input Embedding).
맥락적 은닉 상태 (Contextual Hidden States): 토큰 선택 시점의 마지막 레이어 은닉 상태 (생성 과정을 인코딩).

2.3 측정 지표

H(v): 소프트 클러스터 소속도 (5 개 가장 가까운 클러스터 중심과의 코사인 유사도 평균).
$\|v\|$ (Norm): 임베딩 노름 (원점으로부터의 거리, 정보량과 연관).
max sim: 최대 중심 유사도.

2.4 통계적 접근

단위: 토큰 수준이 아닌 **프롬프트 수준 (N=15)**을 추론 단위로 사용.
중복 표본 (Pseudoreplication) 검증: 토큰 수준의 통계적 유의성이 실제 효과 크기를 얼마나 과장하는지 20 회 실행을 통해 분석.

3. 주요 결과 (Key Results)

3.1 Type 3 (Coverage Gap) 의 기하학적 구별성

정적 공간: Type 3 은 다른 유형과 노름 (Norm) 측면에서 강력하게 분리됨. (T2-T3 비교에서 20 회 중 14 회 Holm 보정 후 유의, 중간 효과 크기 $r = +0.61$ ). 이는 Type 3 프롬프트가 더 드문 어휘 선택을 유도하기 때문.
맥락적 공간: Type 3 의 노름 방향 (Type 3 이 가장 낮음) 은 20 회 중 19 회로 안정적이나, 표본 크기 (N=15) 로 인해 통계적 검정력 (Power) 이 부족함 (20 회 중 4 회만 명목적 유의, $r = -0.28$ ).
결론: Type 3 은 방향성보다는 **표현의 크기 (Magnitude)**에 의해 가장 기하학적으로 구별되는 실패 모드임.

3.2 Type 1 과 Type 2 의 비분리 (Non-separation)

두 실험 공간 (정적, 맥락적) 모두에서 Type 1 과 Type 2 는 어떤 지표에서도 분리되지 않음 (20 회 중 3 회 이하의 유의성).
이는 124M 파라미터 모델에서 약한 맥락 (Type 1) 과 잘못된 라우팅 (Type 2) 의 차이가 기하학적으로 구별 불가능하거나, 신호가 매우 미세함을 시사.

3.3 토큰 수준의 통계적 과장 (Pseudoreplication Inflation)

가장 중요한 발견 중 하나: 토큰 수준 (N ≈ 900) 에서의 통계적 유의성은 프롬프트 수준 (N=15) 의 실제 효과보다 4 배에서 16 배까지 과장됨.
이는 autoregressive 생성 내의 자동 상관관계 (autocorrelation) 로 인한 가짜 반복 (pseudoreplication) 에 기인하며, 모든 20 회 실행에서 재현됨.

3.4 표현 공간의 차이 (Representation Gap)

정적 공간: 어휘 선택의 빈도 차이로 인해 Type 3 의 노름이 더 큼 (고유한 어휘 사용).
맥락적 공간: Type 3 의 노름이 더 작음 (내부적 신뢰도 감소).
미세 신호 영역 (Micro-signal Regime): 맥락적 은닉 상태는 매우 좁은 각도 (High similarity, >0.98) 에 압축되어 있어, 실패 신호가 거시적인 기하학적 이탈이 아닌 미세한 섭동 (micro-perturbation) 으로 나타남.

4. 주요 기여 (Contributions)

통제된 유도 검증: 환각 유형과 기하학적 서명을 연결한 최초의 통제된 유도 실험을 수행하고, 20 회 독립 실행을 통해 결과의 안정성을 정량화함.
Type 3 의 특성 규명: '커버리지 갭 (Coverage Gap)' 유형이 표현의 크기 (Magnitude) 에 의해 가장 뚜렷하게 구별되는 실패 모드임을 입증.
통계적 함의 제시: autoregressive 생성에서 토큰 수준의 유의성이 실제 효과를 4~16 배 과장한다는 사실을 재현 가능하게 증명하여, 향후 연구에 대한 엄격한 통계적 기준을 제시.
Type 1/2 비분리에 대한 가설: 124M 모델에서는 Type 1 과 Type 2 가 기하학적으로 구별되지 않으며, 이는 모델 용량의 한계이거나 특정 스펙트럼 대역 (Spectral bands) 에 신호가 숨어있을 수 있음을 시사하는 '스펙트럼 가설'을 제시.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 환각 탐지가 단순히 "거짓말을 하는가?" (이진 분류) 를 넘어, **"어떤 유형의 실패인가?"**를 기하학적으로 식별할 수 있는 가능성을 탐구했습니다.

실용적 함의: Type 3 과 같은 '커버리지 갭'은 모델의 내부 신뢰도 (노름) 를 통해 탐지할 수 있는 강력한 신호를 제공하지만, Type 1/2 와 같은 '맥락 라우팅 실패'는 현재 124M 모델의 해상도 한계로 인해 탐지하기 어렵습니다.
방법론적 교훈: 토큰 수준의 통계적 유의성은 신뢰할 수 없으며, 프롬프트 수준으로의 집계와 20 회 이상의 반복 실행을 통한 안정성 검증이 필수적입니다.
미래 방향: Type 1/2 의 분리를 위해서는 더 큰 모델 (Scaling) 이 필요하거나, 은닉 상태의 스펙트럼 분해 (Spectral decomposition) 및 화이트닝 (Whitening) 과 같은 표현 전처리가 필요하다는 가설을 제시합니다.

결론적으로, 이 논문은 환각의 기하학적 분류 체계가 부분적으로 유효함을 입증하면서도, 현재 모델의 한계와 통계적 함정을 명확히 규명하여 더 견고한 LLM 신뢰성 연구의 기반을 마련했습니다.