How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

이 논문은 RIKER 평가 방법론을 통해 1720 억 토큰 규모의 대규모 실험을 수행한 결과, 문서 기반 질문응답에서 LLM 의 환각 발생률이 컨텍스트 길이에 따라 급증하며 모델 선택이 가장 중요한 요인이지만, 온도 설정은 정확도와 생성 무한루프 발생률 간에 복잡한 상충 관계를 보인다는 것을 밝혔습니다.

JV Roig

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대형 인공지능 (LLM) 이 문서를 보고 질문에 답할 때, 얼마나 자주 거짓말 (환각) 을 하는가?"**라는 매우 중요하면서도 까다로운 질문에 대한 답을 찾기 위해 진행된 거대한 실험 결과를 담고 있습니다.

2026 년 3 월에 발표된 이 연구는 약 **1,720 억 개의 단어 (토큰)**를 분석하며, 35 개의 다양한 AI 모델이 다양한 조건에서 어떻게 작동하는지 파헤쳤습니다.

이 복잡한 연구 결과를 일반인이 이해하기 쉽게 세 가지 핵심 비유로 정리해 드립니다.


1. 실험실의 규모: "거대한 도서관과 35 명의 도서관 사서"

이 연구는 마치 거대한 도서관을 상상해 보세요.

  • 문서 (Context): 도서관에 쌓인 책들입니다. 연구팀은 책의 양을 32 권 (32K), 128 권 (128K), 그리고 200 권 (200K) 으로 늘려가며 실험했습니다.
  • AI 모델 (사서): 35 명의 새로운 사서들이 있습니다. 어떤 사서는 1B(초소형) 크기의 머리를 가졌고, 어떤 사서는 480B(초거대) 크기의 머리를 가졌습니다.
  • 질문: 사서들에게 "책 안에 있는 사실만 말해줘"라고 묻거나, "책에 없는 엉뚱한 사실은 있니?"라고 물어보며 거짓말을 하는지 확인했습니다.

핵심 발견:
가장 똑똑해 보이는 사서조차 100 번 중 1~2 번은 거짓말을 했습니다. 그리고 책이 쌓일수록 (문맥이 길어질수록) 거짓말을 하는 횟수가 급격히 늘어났습니다.


2. 주요 발견 3 가지: "사실은 무엇인가?"

① 책이 많을수록 사서는 혼란스러워진다 (문맥 길이의 함정)

  • 비유: 사서에게 책 32 권을 주면 아주 똑똑하게 답을 하지만, 200 권을 주면 머리가 복잡해져서 가짜 정보를 만들어내는 경우가 3 배 이상 늘어납니다.
  • 현실: 많은 AI 회사가 "우리의 모델은 200 만 토큰을 다룰 수 있다"고 광고하지만, 이 연구에 따르면 실제로는 32 권 (32K) 정도가 한계인 경우가 많습니다. 책이 너무 많으면 사서는 책 내용을 찾아내는 능력은 유지하되, 없는 내용을 지어내는 능력 (거짓말) 은 폭발적으로 증가합니다.

② 사서의 '성격'이 '머리 크기'보다 중요하다 (모델 선택의 중요성)

  • 비유: 거대한 머리를 가진 사서 (모델 크기) 가 반드시 거짓말을 적게 하는 것은 아닙니다. 오히려 어떤 '가족 (모델 계열)'에서 왔는지가 더 중요합니다.
    • GLM 계열: 거짓말을 아주 적게 하는 '성실한 사서'들입니다.
    • Llama 계열: 머리가 아주 크더라도 (405B 등), 거짓말을 자주 하는 '활발하지만 과장하는 사서'들입니다.
  • 현실: 단순히 "모델이 크면 무조건 좋다"는 말은 틀렸습니다. 거짓말을 잘하지 않는 모델을 고르는 것이, 거대한 모델을 고르는 것보다 훨씬 중요합니다.

③ "조용히 하라" vs "적당히 떠들게 하라" (온도 설정의 역설)

  • 비유: AI 에게 "가장 확실한 답만 내놓아라 (Temperature=0.0)"라고 지시하는 것이 항상 좋은 것은 아닙니다.
    • T=0.0 (조용히): 답은 정확할 수 있지만, 말을 끝내지 못하고 같은 말을 반복하며 멈추는 (무한 루프) 경우가 200 권의 책 앞에서 48 배나 더 자주 발생합니다.
    • T=1.0 (적당히 떠들게): 약간의 유연성을 주면, 거짓말은 조금 줄어들고 말을 끝내는 능력이 훨씬 좋아집니다.
  • 현실: 기업에서 AI 를 쓸 때 무조건 "온도 0"으로 고정하는 것은 위험할 수 있습니다. 상황에 따라 약간의 유연성을 주는 것이 더 안전하고 효율적입니다.

3. 가장 중요한 교훈: "찾아내는 능력"과 "거짓말 안 하는 능력"은 다릅니다

이 연구의 가장 충격적인 결론은 두 가지 능력이 완전히 분리되어 있다는 것입니다.

  • 비유: 어떤 사서는 도서관에서 정확한 책을 찾아내는 능력 (Grounding) 은 90% 로 매우 뛰어납니다. 하지만 동시에, 책에 없는 내용을 지어낼 때 (Fabrication) 그 확률도 50% 이상이나 됩니다.
  • 의미: "이 AI 는 문서에서 정보를 잘 찾아낸다"는 평가가 "이 AI 는 거짓말을 하지 않는다"는 뜻이 절대 아닙니다.
    • 어떤 모델은 책 내용을 아주 잘 찾아내지만, 없는 내용은 아주 그럴듯하게 지어냅니다.
    • 따라서 기업은 단순히 정보 검색 능력만 보고 AI 를 선택하면 안 되며, **"거짓말을 얼마나 잘 막아내는가"**를 따로 테스트해야 합니다.

요약: 기업과 사용자를 위한 조언

이 연구는 AI 를 도입하려는 기업에게 다음과 같은 현실적인 조언을 줍니다.

  1. 거짓말은 피할 수 없다: 아무리 좋은 AI 도 100% 진실만 말하지는 않습니다. 시스템에 "거짓말을 걸러내는 안전장치"를 반드시 마련해야 합니다.
  2. 모델 선택이 가장 중요하다: 하드웨어 (NVIDIA, AMD 등) 나 설정을 바꾸는 것보다, **거짓말을 적게 하는 모델 계열 (GLM, MiniMax 등)**을 고르는 것이 훨씬 효과적입니다.
  3. 문서 양을 조절하라: AI 가 처리할 수 있는 문서 양은 광고보다 훨씬 적습니다. 너무 많은 문서를 한 번에 주면 성능이 급격히 떨어집니다.
  4. 온도 설정을 유연하게 하라: 무조건 '0'으로 고정하지 말고, 상황에 따라 약간의 유연성을 주어 AI 가 멈추지 않도록 하세요.

한 줄 요약:

"AI 는 문서를 읽는 능력과 거짓말을 안 하는 능력이 다르며, 문서가 너무 길어지면 거짓말이 폭발합니다. 따라서 가장 중요한 것은 '큰 모델'이 아니라 '거짓말을 잘 안 하는 모델'을 고르는 것입니다."