Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

이 논문은 n-gram 모델과 Transformer 에서 홀루시네이션, 모노팩트 (monofact) 비율, 모델 보정 불일치 간의 관계를 실증적으로 규명하고, 소수의 학습 데이터를 전략적으로 재가중치하는 '선택적 상향 가중치 (selective upweighting)' 기법을 통해 정확도를 유지하면서 홀루시네이션을 최대 40% 까지 감소시킬 수 있음을 보여줍니다.

Miranda Muqing Miao, Michael Kearns

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 인공지능의 '거짓말'과 '자신감'의 비밀

1. 인공지능은 왜 거짓말을 할까요? (단일 사실의 저주)
인공지능이 책을 읽으며 배우는 과정을 상상해 보세요. 만약 어떤 사실 (예: "김철수는 서울에서 태어났다") 이 책에 오직 한 번만 등장한다면, 인공지능은 그 사실을 아주 잘 기억하지 못합니다. 반면, 같은 사실이 수백 번 반복해서 나오면, 인공지능은 그 사실을 "아, 이건 확실한 거야!"라고 아주 자신 있게 믿게 됩니다.

이 논문은 **"한 번만 본 사실 (단일 사실, Monofact) 이 많을수록 인공지능은 더 많이 거짓말을 한다"**는 사실을 통계적으로 증명했습니다. 마치 학생이 시험을 볼 때, 한 번만 본 낯선 단어를 추측해서 틀리게 쓰는 것과 비슷합니다.

2. '완벽한 정답'은 불가능하다? (보정 vs. 환각)
기존에는 인공지능이 "내가 이 말을 90% 확신해"라고 할 때, 실제로 90% 맞아야 '잘 훈련된 (보정된)' 모델이라고 했습니다. 하지만 이 논문은 놀라운 사실을 발견했습니다.

"완벽하게 정직하고 보정된 인공지능은, 오히려 더 많은 거짓말을 할 수밖에 없다."

왜일까요? 인공지능이 "한 번만 본 사실"에 대해 100% 정직하게 "나는 확신이 없어 (확률 50%)"라고 말하면, 그 50% 확률의 영역에서 틀린 답 (거짓말) 을 뽑아낼 확률도 함께 높아지기 때문입니다. 즉, 완벽한 정직함은 때로 더 많은 헛소리를 부른다는 역설입니다.


🛠️ 해결책: "의도적인 오만함" (Selective Upweighting)

그렇다면 어떻게 해결할까요? 연구자들은 **"인공지능에게 일부러 '오만함'을 심어주자"**는 아이디어를 제시했습니다.

비유: "주인공을 더 많이 등장시키기"
영화 감독이 영화를 만들 때, 중요한 주인공 (핵심 사실) 이 영화에 한 번만 나오면 관객은 그 인물을 잘 기억하지 못합니다. 하지만 감독이 그 주인공이 나오는 장면을 의도적으로 몇 번 더 반복해서 편집하면, 관객은 그 인물을 "아, 이 사람이 주인공이구나, 확실해!"라고 강하게 기억하게 됩니다.

연구자들은 인공지능 훈련 데이터에서 가장 중요한 사실 (또는 학습 데이터의 일부) 을 5% 정도만 골라서 10 번씩 더 반복해서 보여줬습니다.

  • 결과: 인공지능은 그 반복된 사실에 대해 **"나는 100% 확신해!"**라고 아주 자신 있게 말하게 되었습니다.
  • 효과: 인공지능이 "나는 확신이 없어"라고 말하며 헛소리를 하던 영역 (불확실한 꼬리 부분) 을 줄여버렸기 때문에, 거짓말 (환각) 이 최대 40% 까지 줄어든 것입니다.

중요한 점: 인공지능이 사실을 말하는 능력 (정확도) 은 그대로 유지하면서, 헛소리는 줄어든 것입니다. 마치 학생이 시험에서 모르는 문제는 아예 답을 쓰지 않고, 아는 문제만 확신 있게 푼 것과 같습니다.


📉 기존 상식의 깨짐: "중복 제거 (Deduplication) 는 무조건 좋은 게 아니다?"

지금까지 인공지능을 만들 때는 "데이터에 중복된 내용이 있으면 지워라 (중복 제거)"는 원칙이 있었습니다. "중복되면 모델이 멍청해지고 과적합 (Overfitting) 된다"고 생각했기 때문입니다.

하지만 이 논문은 **"중복 제거가 항상 좋은 건 아니다"**라고 말합니다.

  • 과거의 생각: 중복을 없애면 모델이 더 똑똑해진다.
  • 새로운 발견: **적당한 중복 (특히 중요한 부분의 반복)**은 모델이 "무엇을 확실히 알고 있는지"를 명확히 구분하게 만들어, 헛소리를 막아줍니다.

💡 핵심 요약 (한 줄로 정리)

"인공지능이 거짓말을 줄이려면, 완벽하게 정직해지려 하지 말고, 중요한 사실에 대해서는 '의도적으로' 더 자신 있게 (약간 과장되게) 학습시키는 것이 낫다."

이 연구는 인공지능의 거짓말을 막기 위해 복잡한 기술적 수정을 할 필요 없이, **데이터를 어떻게 섞고 반복할지 (학습 자료의 구성)**만 잘 조절해도 큰 효과를 볼 수 있음을 보여줍니다. 이는 앞으로 인공지능을 더 신뢰할 수 있게 만드는 데 중요한 길잡이가 될 것입니다.