Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

Each language version is independently generated for its own context, not a direct translation.

🎭 인공지능의 '거짓말'과 '자신감'의 비밀

1. 인공지능은 왜 거짓말을 할까요? (단일 사실의 저주)
인공지능이 책을 읽으며 배우는 과정을 상상해 보세요. 만약 어떤 사실 (예: "김철수는 서울에서 태어났다") 이 책에 오직 한 번만 등장한다면, 인공지능은 그 사실을 아주 잘 기억하지 못합니다. 반면, 같은 사실이 수백 번 반복해서 나오면, 인공지능은 그 사실을 "아, 이건 확실한 거야!"라고 아주 자신 있게 믿게 됩니다.

이 논문은 **"한 번만 본 사실 (단일 사실, Monofact) 이 많을수록 인공지능은 더 많이 거짓말을 한다"**는 사실을 통계적으로 증명했습니다. 마치 학생이 시험을 볼 때, 한 번만 본 낯선 단어를 추측해서 틀리게 쓰는 것과 비슷합니다.

2. '완벽한 정답'은 불가능하다? (보정 vs. 환각)
기존에는 인공지능이 "내가 이 말을 90% 확신해"라고 할 때, 실제로 90% 맞아야 '잘 훈련된 (보정된)' 모델이라고 했습니다. 하지만 이 논문은 놀라운 사실을 발견했습니다.

"완벽하게 정직하고 보정된 인공지능은, 오히려 더 많은 거짓말을 할 수밖에 없다."

왜일까요? 인공지능이 "한 번만 본 사실"에 대해 100% 정직하게 "나는 확신이 없어 (확률 50%)"라고 말하면, 그 50% 확률의 영역에서 틀린 답 (거짓말) 을 뽑아낼 확률도 함께 높아지기 때문입니다. 즉, 완벽한 정직함은 때로 더 많은 헛소리를 부른다는 역설입니다.

🛠️ 해결책: "의도적인 오만함" (Selective Upweighting)

그렇다면 어떻게 해결할까요? 연구자들은 **"인공지능에게 일부러 '오만함'을 심어주자"**는 아이디어를 제시했습니다.

비유: "주인공을 더 많이 등장시키기"
영화 감독이 영화를 만들 때, 중요한 주인공 (핵심 사실) 이 영화에 한 번만 나오면 관객은 그 인물을 잘 기억하지 못합니다. 하지만 감독이 그 주인공이 나오는 장면을 의도적으로 몇 번 더 반복해서 편집하면, 관객은 그 인물을 "아, 이 사람이 주인공이구나, 확실해!"라고 강하게 기억하게 됩니다.

연구자들은 인공지능 훈련 데이터에서 가장 중요한 사실 (또는 학습 데이터의 일부) 을 5% 정도만 골라서 10 번씩 더 반복해서 보여줬습니다.

결과: 인공지능은 그 반복된 사실에 대해 **"나는 100% 확신해!"**라고 아주 자신 있게 말하게 되었습니다.
효과: 인공지능이 "나는 확신이 없어"라고 말하며 헛소리를 하던 영역 (불확실한 꼬리 부분) 을 줄여버렸기 때문에, 거짓말 (환각) 이 최대 40% 까지 줄어든 것입니다.

중요한 점: 인공지능이 사실을 말하는 능력 (정확도) 은 그대로 유지하면서, 헛소리는 줄어든 것입니다. 마치 학생이 시험에서 모르는 문제는 아예 답을 쓰지 않고, 아는 문제만 확신 있게 푼 것과 같습니다.

📉 기존 상식의 깨짐: "중복 제거 (Deduplication) 는 무조건 좋은 게 아니다?"

지금까지 인공지능을 만들 때는 "데이터에 중복된 내용이 있으면 지워라 (중복 제거)"는 원칙이 있었습니다. "중복되면 모델이 멍청해지고 과적합 (Overfitting) 된다"고 생각했기 때문입니다.

하지만 이 논문은 **"중복 제거가 항상 좋은 건 아니다"**라고 말합니다.

과거의 생각: 중복을 없애면 모델이 더 똑똑해진다.
새로운 발견: **적당한 중복 (특히 중요한 부분의 반복)**은 모델이 "무엇을 확실히 알고 있는지"를 명확히 구분하게 만들어, 헛소리를 막아줍니다.

💡 핵심 요약 (한 줄로 정리)

"인공지능이 거짓말을 줄이려면, 완벽하게 정직해지려 하지 말고, 중요한 사실에 대해서는 '의도적으로' 더 자신 있게 (약간 과장되게) 학습시키는 것이 낫다."

이 연구는 인공지능의 거짓말을 막기 위해 복잡한 기술적 수정을 할 필요 없이, **데이터를 어떻게 섞고 반복할지 (학습 자료의 구성)**만 잘 조절해도 큰 효과를 볼 수 있음을 보여줍니다. 이는 앞으로 인공지능을 더 신뢰할 수 있게 만드는 데 중요한 길잡이가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 의 **환각 (Hallucination)**은 사실적인 정보를 생성할 때 발생하는 신뢰할 수 없는 오류로, 고위험 분야 (법률, 의료 등) 에서 심각한 문제를 야기합니다. 최근 Kalai 와 Vempala (2024) 는 이론적으로 **"보정된 (Calibrated) 언어 모델은 훈련 데이터에 있는 희귀 사실 (Monofacts) 의 빈도에 비례하여 환각을 일으킬 수밖에 없다"**는 하한선 (Lower Bound) 을 증명했습니다.

이 이론에 따르면 환각률은 다음 두 가지 요소의 관계로 결정됩니다:

단일 사실률 (Monofact Rate, $\hat{MF}$ ): 훈련 데이터에서 정확히 한 번만 등장하는 사실의 비율.
모델 부정확성 (Model Miscalibration, $Mis(g, p)$ ): 모델이 예측한 확률과 실제 데이터 분포 간의 불일치.

기존의 환각 감소 기법들은 모델 내부 구조를 수정하거나 사후 (Post-hoc) 처리를 하는 데 집중했으나, 훈련 데이터의 구성 (데이터 분포) 을 조절하여 환각의 근본적인 통계적 메커니즘을 제어할 수 있는지에 대한 실증적 연구는 부족했습니다.

2. 연구 방법론 (Methodology)

저자들은 이 이론적 관계를 검증하고 실용적인 해결책을 모색하기 위해 n-gram 모델과 **파인튜닝된 Transformer 모델 (T5, GPT-2)**을 대상으로 실험을 수행했습니다.

데이터 생성 및 제어:
- 자연어의 멱법칙 (Power-law) 분포를 모방하기 위해 **파레토 분포 (Pareto Distribution)**를 사용하여 훈련 데이터를 생성했습니다.
- 파레토 분포의 모양 파라미터 ( $\gamma$ ) 를 조절하여 **단일 사실률 (Monofact Rate)**을 정밀하게 제어했습니다. (낮은 $\gamma$ : 중복도 높음/단일 사실率低, 높은 $\gamma$ : 중복도 낮음/단일 사실率高)
실증적 유사체 (Empirical Analog) 도출:
- 이론적 하한선에서 알 수 없는 실제 분포 $p$ 에 의존하는 '부정확성' 항을, 훈련 데이터의 빈도 기반인 **이산적 KL-발산 (Empirical Bin-wise KL Divergence)**으로 대체하여 실용적인 환각 하한식을 유도했습니다.
개입 전략: 선택적 가중치 부여 (Selective Upweighting):
- 훈련 데이터의 소수 (약 5%) 를 의도적으로 반복 (Duplication) 하여 모델에 **부정확성 (Miscalibration)**을 주입하는 기법을 도입했습니다.
- 이는 모델이 특정 사실에 대해 과도한 자신감 (Over-confidence) 을 갖도록 유도하여, 불확실한 영역 (단일 사실 등) 으로 확률 질량이 퍼지는 것을 방지합니다.
- 시점 비교: Encoder-Decoder (T5) 와 Decoder-only (GPT-2) 모델에 대해 훈련 초기 (First-stage) 와 후기 (Last-stage) 에 가중치를 부여하는 효과를 비교했습니다.

3. 주요 기여 (Key Contributions)

이론과 실증의 연결: Kalai-Vempala 의 이론적 하한선이 n-gram 모델과 현대 LLM 에서 모두 유효함을 실증적으로 입증했습니다. 즉, 단일 사실률과 환각률은 양의 상관관계가 있으며, 이를 데이터 분포 조절로 통제할 수 있음을 보였습니다.
실용적 하한식 제안: 실제 데이터 분포를 알 수 없는 상황에서도 적용 가능한 KL-발산 기반의 환각 하한식을 제시했습니다.
새로운 환각 감소 기법 (Selective Upweighting): 훈련 데이터의 일부를 의도적으로 반복하여 부정확성 (Miscalibration) 을 주입하는 것이 환각을 감소시킨다는 역설적인 발견을 했습니다. 이는 일반적인 '중복 제거 (Deduplication)' 정책이 항상 옳은 것은 아님을 시사합니다.
아키텍처별 최적화 전략: 모델 아키텍처에 따라 부정확성 주입의 최적 시점이 다르다는 것을 발견했습니다.

4. 실험 결과 (Results)

단일 사실률과 환각의 관계: 단일 사실률이 높을수록 환각률이 선형적으로 증가했습니다. 파레토 분포를 통해 단일 사실률을 낮추면 학습 정체기 (Plateau) 가 짧아지고 환각이 감소했습니다.
선택적 가중치 부여의 효과:
- 훈련 데이터의 약 5% 를 10 배로 반복하여 가중치를 부여했을 때, 환각률이 최대 40% 감소했습니다.
- 정확도 (Accuracy) 유지: 환각은 크게 줄었지만, 모델의 전체적인 사실적 정확도 (Inaccuracy) 는 유지되거나 오히려 미세하게 개선되었습니다. 이는 "정확도 vs 환각" 간의 트레이드오프를 우회할 수 있음을 의미합니다.
- KL-발산과 부정확성: 가중치 부여 후 KL-발산과 부정확성 지표가 증가했으나, 이는 모델이 학습된 사실에 대해 더 높은 확신 (High-confidence) 을 갖게 되어 불확실한 영역 (Tail) 에서의 생성을 줄였기 때문입니다.
아키텍처별 차이:
- Encoder-Decoder (T5): 훈련 **후기 (Last-stage)**에 가중치를 부여하는 것이 환각 감소에 가장 효과적이었습니다.
- Decoder-only (GPT-2): 훈련 **초기 (First-stage)**에 가중치를 부여하는 것이 더 효과적이었습니다.
- 양쪽 단계 모두에서 가중치를 부여하면 효과가 상쇄되거나 사라졌습니다.

5. 의의 및 결론 (Significance & Conclusion)

데이터 중심의 환각 제어: 복잡한 모델 내부 수정이나 사후 처리 대신, 훈련 데이터의 빈도 분포를 조절하는 것이 환각을 통제하는 강력한 레버 (Lever) 가 될 수 있음을 증명했습니다.
중복 제거 (Deduplication) 에 대한 재고: 현재 널리 쓰이는 훈련 데이터 중복 제거 정책이 오히려 단일 사실률을 높여 환각을 유발할 수 있음을 지적하며, 전략적인 중복 (Strategic Duplication) 이 필요함을 주장합니다.
부정확성의 긍정적 활용: 기계학습에서 일반적으로 바람직하지 않다고 여겨지는 '부정확성 (Miscalibration)'을 전략적으로 주입함으로써, 모델이 불확실한 영역에서 생성을 멈추게 하고 신뢰할 수 있는 사실만 생성하도록 유도할 수 있음을 보였습니다.
한계 및 향후 과제: 선택적 가중치 부여가 특정 사실에 대한 편향 (Bias) 을 심화시킬 수 있으며, 추론 (Reasoning) 이 필요한 작업 (예: 수학, 논리) 에서는 오히려 해로울 수 있다는 점을 지적했습니다. 또한, 무작위 가중치 부여 대신 '단일 사실'을 타겟으로 한 가중치 부여가 더 효과적일 수 있다는 가설을 제시했습니다.

요약하자면, 이 논문은 LLM 의 환각이 단순한 오류가 아니라 데이터 분포와 모델 보정 상태에 의해 결정되는 통계적 필연임을 밝히고, 이를 제어하기 위해 '의도적인 데이터 중복'이라는 새로운 패러다임을 제시했습니다.

Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

🎭 인공지능의 '거짓말'과 '자신감'의 비밀

🛠️ 해결책: "의도적인 오만함" (Selective Upweighting)

📉 기존 상식의 깨짐: "중복 제거 (Deduplication) 는 무조건 좋은 게 아니다?"

💡 핵심 요약 (한 줄로 정리)

1. 연구 배경 및 문제 정의 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

The Quantification Horizon Theory of Consciousness

Algebras of actions in an agent's representations of the world

Heuristic Multiobjective Discrete Optimization using Restricted Decision Diagrams

PLM-Net: Perception Latency Mitigation Network for Vision-Based Lateral Control of Autonomous Vehicles

Automated Explanation Selection for Scientific Discovery