A Geometric Taxonomy of Hallucinations in LLMs

Each language version is independently generated for its own context, not a direct translation.

이 논문은 거대 언어 모델 (LLM, 예: 챗봇) 이 만들어내는 '환각 (Hallucination)' 현상을 단순히 "거짓말"이라고 통칭하는 대신, 세 가지 완전히 다른 종류로 나누어 분석하고 이를 기하학 (도형과 거리) 의 원리로 설명한 흥미로운 연구입니다.

저자 마린 (Marín) 은 이 세 가지 오류가 마치 우주 공간에서 서로 다른 궤적을 그리듯, 수학적으로 구별되는 특징을 가진다고 말합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어보겠습니다.

🌌 핵심 비유: "지식 우주"에서의 여행

생각해 보세요. AI 의 지식은 거대한 우주 (임베딩 공간) 로 이루어져 있습니다.

질문 (Query) 은 우리가 출발하는 행성입니다.
정답 은 그 행성에서 가장 가까운 별입니다.
문맥 (Context) 은 우리가 여행할 때 들고 가는 지도입니다.

이 논문은 AI 가 이 우주에서 길을 잃었을 때, 어떤 방식으로 길을 잃었는지에 따라 세 가지 유형으로 나눕니다.

1. 유형 I: "무시하는 여행객" (Unfaithfulness)

상황: AI 에게 "이 지도 (문서) 를 보고 답해줘"라고 했을 때, AI 는 지도를 무시하고 자기 머릿속 (기억) 에 있는 옛날 이야기를 꺼냅니다.
비유: 여행객이 지도를 들고 왔는데, 정작 지도를 보지 않고 "아, 내가 전에 이 근처에 왔었지, 거기엔 이런 게 있었어!"라고 자기 생각대로 말을 합니다.
기하학적 특징: 답변이 지도 (문맥) 쪽으로 이동하지 않고, 질문 (출발점) 근처에 그대로 머물러 있습니다.
해결책 (SGI): "답변이 지도 쪽으로 갔나요, 아니면 질문 옆에 그대로 있었나요?"를 측정하는 '지침성 지수' 로 이를 잡아냅니다.

2. 유형 II: "상상력 넘치는 거짓말쟁이" (Confabulation)

상황: 존재하지 않는 나라, invented(발명된) 기관, 혹은 전혀 없는 과학 원리를 만들어냅니다.
비유: 여행객이 "이곳에 있는 유명한 카페 이름이 뭐야?"라고 물었을 때, 실제로 존재하지 않는 '우주 커피 샵'이라는 가상의 가게를 지어내서 알려줍니다.
기하학적 특징: 답변이 합리적인 답이 있을 법한 영역 (만다) 에서 벗어나, 전혀 다른 방향으로 날아갑니다. 마치 지도에 없는 섬을 찾아간 것과 같습니다.
해결책 (Γ): "답변이 합리적인 영역에서 너무 멀리 날아갔나요?"를 측정하는 '방향성 지수' 로 이를 잡아냅니다. 이 방법은 매우 강력해서, 인간이 만든 거짓말을 95% 이상 찾아냅니다.

3. 유형 III: "틀린 세부사항의 전문가" (Factual Error)

상황: 개념은 맞는데, 숫자나 세부 사실만 틀립니다. (예: "에펠탑은 파리에 있다"는 맞는데, "높이가 300m 다"라고 330m 라고 잘못 말함).
비유: 여행객이 "파리에 있는 에펠탑"을 설명할 때, 위치와 개념은 정확하지만 높이 숫자만 잘못 말해줍니다.
기하학적 특징: 이 경우, 정답과 오답이 우주 공간에서 거의 같은 위치에 있습니다. AI 의 수학 (기하학) 으로 보면 둘은 구별이 안 됩니다.
결론: 이것은 기하학으로 잡을 수 없습니다. 왜냐하면 AI 는 '진실'을 계산하는 게 아니라 '빈도수 (함께 나오는 단어)'를 계산하기 때문입니다.

🔍 이 연구가 밝혀낸 놀라운 사실들

거짓말의 종류마다 잡는 방법이 다릅니다.
- 지도를 무시하는 경우 (유형 I) 는 지도와 비교하면 잡힙니다.
- 엉뚱한 것을 만들어내는 경우 (유형 II) 는 방향과 궤적을 보면 잡힙니다.
- 하지만 세부 숫자를 틀리는 경우 (유형 III) 는 수학적 거리로는 구별이 안 됩니다.
왜 "진실한 QA(TruthfulQA)" 데이터는 속임수였을까?
- 기존 연구들에서 AI 가 거짓말을 잘 찾아낸다고 했던 데이터셋을 분석해보니, 사실은 답변의 '스타일' 때문에 걸린 것이었습니다.
- 비유: 진실한 답변은 "아마도 ~일 수도 있습니다"라고 길고 조심스럽게 쓰지만, 거짓 답변은 "그렇습니다!"라고 짧고 단정하게 썼습니다. AI 가 이 문장 길이와 톤을 보고 "아, 이건 거짓이야"라고 추측한 것이지, 사실 여부를 진짜로 파악한 게 아니었습니다.
- 이 연구는 "세부 사실 오류 (유형 III) 는 기하학적으로 보이지 않는다"는 이론적 한계를 증명했습니다.
전문가 영역에서는 더 강력합니다.
- 일반인 데이터에서는 AI 가 헷갈릴 수 있지만, 의학, 법률, 공학 같은 전문가 영역에서는 이 '방향성 지수 (Γ)'가 기존 방법들보다 훨씬 잘 작동했습니다. 전문가들은 엉뚱한 말을 할 때 그 방향이 매우 뚜렷하게 틀리기 때문입니다.

💡 요약: 이 논문이 우리에게 주는 메시지

이 논문은 "AI 가 거짓말을 할 때, 모든 거짓말이 같은 게 아니다"라고 말합니다.

지도 무시형은 문맥을 확인하면 잡힙니다.
상상력 과잉형은 방향과 궤적을 보면 잡힙니다.
하지만 세부 사실 실수형은 수학적으로 구별이 안 됩니다.

우리는 이제 AI 의 오류를 막을 때, "어떤 종류의 오류인가?"를 먼저 파악해야 합니다. 모든 거짓말을 한 가지 방법으로 잡으려 하면 실패할 수 있다는 것을, 기하학 (도형) 이라는 새로운 렌즈를 통해 명확하게 보여주었습니다.

한 줄 결론: "AI 의 거짓말은 종류가 다르고, 그걸 잡는 열쇠도 다릅니다. 하지만 '세부 숫자 실수' 같은 건 수학으로도 잡히지 않으니, 인간이 직접 확인해야 할 영역입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 은 외부 현실과의 대응 관계를 유지하지 않고 분포 통계 (distributional statistics) 만을 최적화하여 텍스트를 생성합니다. 이로 인해 사실적으로 틀리지만 유창하고 자신감 있는 텍스트인 '환각 (Hallucination)' 이 발생합니다.
기존 연구들은 '환각'을 단일 현상으로 간주하거나, 모델 내부 상태 (white-box) 에 의존하거나, 다수 생성 (sampling) 을 필요로 하는 방법론을 사용했습니다. 또한, 대부분의 벤치마크 데이터는 LLM 이 거짓말을 하도록 유도하여 생성된 것이므로, 진정한 사실 오류의 기하학적 특성을 반영하지 못한다는 한계가 있었습니다.
이 논문은 환각이 실제로는 세 가지 서로 다른 실패 모드이며, 각각이 임베딩 공간 (embedding space) 에서 고유한 기하학적 서명 (geometric signature) 을 가진다고 주장하며, 이를 기하학적 관점에서 분류하고 탐지하는 방법을 제안합니다.

2. 방법론 (Methodology)

저자는 환각을 임베딩 공간 ( $S^{d-1}$ 단위 초구면) 상의 기하학적 특성에 따라 3 가지 유형으로 분류하고, 이를 탐지하기 위한 두 가지 지수를 제안했습니다.

A. 환각의 기하학적 분류 (Taxonomy)

Type I: Unfaithfulness (불성실함)
- 정의: 제공된 문맥 (context) 을 무시하고 모델의 파라메트릭 메모리에서 생성하는 경우.
- 기하학적 특징: 응답이 문맥 쪽으로 이동하지 않고 쿼리 (query) 근처에 머무름.
- 탐지 지표: SGI (Semantic Grounding Index).
  - $SGI = \frac{\theta(r, q)}{\theta(r, c)}$ (응답과 쿼리의 각도 거리 / 응답과 문맥의 각도 거리)
  - $SGI > 1$ 이면 문맥에 근거한 정상 응답, $SGI \le 1$ 이면 Type I 환각으로 판단.
Type II: Confabulation (허구적 생성)
- 정의: 존재하지 않는 엔티티, 메커니즘, 개념을 발명하는 경우.
- 기하학적 특징: 가능한 답변의 매니폴드 (manifold) 에서 기하학적으로 감지 가능한 방향으로 이동함 (비정상적인 변위).
- 탐지 지표: $\Gamma$ (Directional Grounding Index).
  - 검증된 근거 쌍 (grounded pairs) 의 평균 변위 방향 ( $\hat{\mu}$ ) 과 현재 응답의 변위 방향 ( $\hat{\delta}$ ) 간의 내적을 계산.
  - $\Gamma \in [-1, +1]$ 이며, 낮은 값은 Type II 환각을 나타냄.
Type III: Factual Error (사실적 오류)
- 정의: 올바른 개념적 틀 내에서 세부 사항이 잘못된 경우.
- 기하학적 특징: 임베딩 공간에서 올바른 답변과 구별할 수 없는 영역을 차지함. (분포적 표현은 공발생성 (co-occurrence) 을 인코딩할 뿐, 진리 조건을 인코딩하지 않음).
- 결론: 순수한 기하학적 방법으로는 탐지 불가능 (이론적 한계).

B. 실험 설정

모델: Sentence-T5-Large 및 다양한 임베딩 아키텍처 사용.
벤치마크:
- Human-crafted: 저자들이 작성한 142 개의 전형적인 Type II 환각 데이터 (금융, 의료, 법률).
- External Benchmarks: WikiBio GPT-3, FELM, ExpertQA (인간이 주석한 독립 데이터셋).
- TruthfulQA: Type III 경계 분석을 위해 사용.
비교 대상: NLI (Natural Language Inference) CrossEncoder 기반 모델.

3. 주요 결과 (Key Results)

Type I (Unfaithfulness) 탐지

SGI는 Grounded Context(문맥 기반) 에서 Type I 환각을 효과적으로 탐지했습니다.
Grounded 응답의 평균 SGI 는 1.180 (>1) 이었고, 환각 응답은 0.910 ( $\le 1$ ) 이었습니다.
다양한 임베딩 아키텍처에서 일관된 AUROC (0.776–0.824) 를 보였습니다.

Type II (Confabulation) 탐지

$\Gamma$ 지수는 인간이 작성한 전형적인 Type II 환각 데이터에서 AUROC 0.958의 높은 성능을 보였습니다.
NLI 기반 모델과의 비교: NLI 는 표면적 함의 (surface entailment) 만을 기반으로 하여 AUROC 0.611 에 그쳤으나, $\Gamma$ 는 $\Delta = 0.347$ 만큼 우월한 성능을 보였습니다. 이는 환각이 문법적으로 일관되고 함의 가능할 수 있어 표면적 분석으로는 탐지하기 어렵기 때문입니다.
외부 벤치마크 검증:
- ExpertQA (전문가 데이터): $\Gamma$ 는 NLI 보다 $\Delta = 0.243$ 만큼 우월했습니다 (NLI 는 무작위 수준 0.452). 전문가 영역의 오류는 함의와 양립 가능하지만 임베딩 공간의 다른 영역에 위치하기 때문입니다.
- WikiBio: 주석 기준이 '부정확한 세부 사항'을 모두 '주요 오류'로 간주하여 Type II 와 Type III 을 혼동했기 때문에 성능이 낮았습니다.
도메인 국소성 (Domain-locality): LLM 이 생성한 벤치마크 (HaluEval) 에서는 도메인 간 전이가 실패했으나, 인간이 작성한 실제 환각 데이터 (FELM, ExpertQA) 에서는 도메인 간 기하학적 패턴이 일관됨 (AUROC 0.822) 을 확인했습니다.

Type III (Factual Error) 및 TruthfulQA 분석

TruthfulQA 에서 로지스틱 회귀 (LR) 가 AUROC 0.731 의 높은 성능을 보였으나, 이는 사실 오류 탐지가 아니라 주석 스타일 (annotation style) 을 탐지한 것으로 밝혀졌습니다.
역설적 발견: 사실적인 답변보다 거짓 답변이 쿼리에 기하학적으로 더 가까웠습니다 (Cosine AUROC 0.365, 역전 현상).
결론: TruthfulQA 의 거짓 답변은 짧고 단정적인 스타일을, 진실 답변은 길고 유보적인 스타일을 가졌습니다. LR 은 이 스타일 차이를 학습했을 뿐, 기하학적 변위 ( $\Gamma$ ) 를 이용한 검증에서는 무작위 수준 (AUROC 0.535) 으로 떨어졌습니다. 이는 Type III 오류는 임베딩 기하학으로 탐지할 수 없다는 이론적 한계를 증명합니다.

4. 주요 기여 (Key Contributions)

기하학적 분류 체계 (Geometric Taxonomy): 환각을 '불성실함 (Type I)', '허구적 생성 (Type II)', '사실적 오류 (Type III)'로 구분하고, 각각이 임베딩 공간에서 서로 다른 기하학적 서명을 가진다는 것을 정립했습니다.
새로운 탐지 지표 개발:
- SGI: 문맥 기반 Type I 탐지.
- $\Gamma$ : 문맥 없는 Type II 탐지.
- 이 방법들은 모델 내부 (white-box) 접근이나 다수 생성 없이 단일 임베딩 호출만으로 작동합니다.
방법론적 통찰:
- 기존 NLI 기반 탐지 방법의 한계를 지적하고, 기하학적 변위 (displacement geometry) 가 표면적 함의보다 Type II 환각 탐지에 더 효과적임을 입증했습니다.
- TruthfulQA 와 같은 벤치마크에서 관찰된 높은 탐지 성능이 사실성 검사가 아닌 '스타일 편향 (stylistic confound)'에 기인할 수 있음을 규명했습니다.
이론적 한계 제시: Type III 오류 (올바른 틀 내의 세부 오류) 는 분포적 가설 (distributional hypothesis) 에 따라 임베딩 기하학으로 탐지 불가능함을 이론적으로 증명했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 환각 문제를 단순한 분류 문제를 넘어 임베딩 공간의 기하학적 구조로 해석함으로써, 어떤 유형의 오류를 탐지할 수 있고 어떤 것은 불가능한지에 대한 명확한 지도를 제공합니다.

실용성: API 환경에서도 모델 내부 접근 없이 단일 임베딩으로 Type I 과 Type II 환각을 고감도로 탐지할 수 있는 경량화된 방법론을 제시했습니다.
벤치마크 평가: 기존 벤치마크가 LLM 생성물 (prompted fabrication) 에 치중하여 실제 인간이 겪는 환각 (Type II) 의 기하학적 특성을 놓치고 있음을 지적했습니다.
이론적 기여: "기하학적 탐지가 불가능한 영역 (Type III)"이 존재함을 명확히 함으로써, 향후 연구가 해결해야 할 문제의 본질적 한계를 정의했습니다.

결론적으로, 이 연구는 환각 탐지 기술의 발전 방향을 기하학적 일관성 (geometric consistency) 과 도메인 특이성 (domain specificity) 을 고려한 방향으로 전환시키는 중요한 이정표가 됩니다.