How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대형 인공지능 (LLM) 이 문서를 보고 질문에 답할 때, 얼마나 자주 거짓말 (환각) 을 하는가?"**라는 매우 중요하면서도 까다로운 질문에 대한 답을 찾기 위해 진행된 거대한 실험 결과를 담고 있습니다.

2026 년 3 월에 발표된 이 연구는 약 **1,720 억 개의 단어 (토큰)**를 분석하며, 35 개의 다양한 AI 모델이 다양한 조건에서 어떻게 작동하는지 파헤쳤습니다.

이 복잡한 연구 결과를 일반인이 이해하기 쉽게 세 가지 핵심 비유로 정리해 드립니다.

1. 실험실의 규모: "거대한 도서관과 35 명의 도서관 사서"

이 연구는 마치 거대한 도서관을 상상해 보세요.

문서 (Context): 도서관에 쌓인 책들입니다. 연구팀은 책의 양을 32 권 (32K), 128 권 (128K), 그리고 200 권 (200K) 으로 늘려가며 실험했습니다.
AI 모델 (사서): 35 명의 새로운 사서들이 있습니다. 어떤 사서는 1B(초소형) 크기의 머리를 가졌고, 어떤 사서는 480B(초거대) 크기의 머리를 가졌습니다.
질문: 사서들에게 "책 안에 있는 사실만 말해줘"라고 묻거나, "책에 없는 엉뚱한 사실은 있니?"라고 물어보며 거짓말을 하는지 확인했습니다.

핵심 발견:
가장 똑똑해 보이는 사서조차 100 번 중 1~2 번은 거짓말을 했습니다. 그리고 책이 쌓일수록 (문맥이 길어질수록) 거짓말을 하는 횟수가 급격히 늘어났습니다.

2. 주요 발견 3 가지: "사실은 무엇인가?"

① 책이 많을수록 사서는 혼란스러워진다 (문맥 길이의 함정)

비유: 사서에게 책 32 권을 주면 아주 똑똑하게 답을 하지만, 200 권을 주면 머리가 복잡해져서 가짜 정보를 만들어내는 경우가 3 배 이상 늘어납니다.
현실: 많은 AI 회사가 "우리의 모델은 200 만 토큰을 다룰 수 있다"고 광고하지만, 이 연구에 따르면 실제로는 32 권 (32K) 정도가 한계인 경우가 많습니다. 책이 너무 많으면 사서는 책 내용을 찾아내는 능력은 유지하되, 없는 내용을 지어내는 능력 (거짓말) 은 폭발적으로 증가합니다.

② 사서의 '성격'이 '머리 크기'보다 중요하다 (모델 선택의 중요성)

비유: 거대한 머리를 가진 사서 (모델 크기) 가 반드시 거짓말을 적게 하는 것은 아닙니다. 오히려 어떤 '가족 (모델 계열)'에서 왔는지가 더 중요합니다.
- GLM 계열: 거짓말을 아주 적게 하는 '성실한 사서'들입니다.
- Llama 계열: 머리가 아주 크더라도 (405B 등), 거짓말을 자주 하는 '활발하지만 과장하는 사서'들입니다.
현실: 단순히 "모델이 크면 무조건 좋다"는 말은 틀렸습니다. 거짓말을 잘하지 않는 모델을 고르는 것이, 거대한 모델을 고르는 것보다 훨씬 중요합니다.

③ "조용히 하라" vs "적당히 떠들게 하라" (온도 설정의 역설)

비유: AI 에게 "가장 확실한 답만 내놓아라 (Temperature=0.0)"라고 지시하는 것이 항상 좋은 것은 아닙니다.
- T=0.0 (조용히): 답은 정확할 수 있지만, 말을 끝내지 못하고 같은 말을 반복하며 멈추는 (무한 루프) 경우가 200 권의 책 앞에서 48 배나 더 자주 발생합니다.
- T=1.0 (적당히 떠들게): 약간의 유연성을 주면, 거짓말은 조금 줄어들고 말을 끝내는 능력이 훨씬 좋아집니다.
현실: 기업에서 AI 를 쓸 때 무조건 "온도 0"으로 고정하는 것은 위험할 수 있습니다. 상황에 따라 약간의 유연성을 주는 것이 더 안전하고 효율적입니다.

3. 가장 중요한 교훈: "찾아내는 능력"과 "거짓말 안 하는 능력"은 다릅니다

이 연구의 가장 충격적인 결론은 두 가지 능력이 완전히 분리되어 있다는 것입니다.

비유: 어떤 사서는 도서관에서 정확한 책을 찾아내는 능력 (Grounding) 은 90% 로 매우 뛰어납니다. 하지만 동시에, 책에 없는 내용을 지어낼 때 (Fabrication) 그 확률도 50% 이상이나 됩니다.
의미: "이 AI 는 문서에서 정보를 잘 찾아낸다"는 평가가 "이 AI 는 거짓말을 하지 않는다"는 뜻이 절대 아닙니다.
- 어떤 모델은 책 내용을 아주 잘 찾아내지만, 없는 내용은 아주 그럴듯하게 지어냅니다.
- 따라서 기업은 단순히 정보 검색 능력만 보고 AI 를 선택하면 안 되며, **"거짓말을 얼마나 잘 막아내는가"**를 따로 테스트해야 합니다.

요약: 기업과 사용자를 위한 조언

이 연구는 AI 를 도입하려는 기업에게 다음과 같은 현실적인 조언을 줍니다.

거짓말은 피할 수 없다: 아무리 좋은 AI 도 100% 진실만 말하지는 않습니다. 시스템에 "거짓말을 걸러내는 안전장치"를 반드시 마련해야 합니다.
모델 선택이 가장 중요하다: 하드웨어 (NVIDIA, AMD 등) 나 설정을 바꾸는 것보다, **거짓말을 적게 하는 모델 계열 (GLM, MiniMax 등)**을 고르는 것이 훨씬 효과적입니다.
문서 양을 조절하라: AI 가 처리할 수 있는 문서 양은 광고보다 훨씬 적습니다. 너무 많은 문서를 한 번에 주면 성능이 급격히 떨어집니다.
온도 설정을 유연하게 하라: 무조건 '0'으로 고정하지 말고, 상황에 따라 약간의 유연성을 주어 AI 가 멈추지 않도록 하세요.

한 줄 요약:

"AI 는 문서를 읽는 능력과 거짓말을 안 하는 능력이 다르며, 문서가 너무 길어지면 거짓말이 폭발합니다. 따라서 가장 중요한 것은 '큰 모델'이 아니라 '거짓말을 잘 안 하는 모델'을 고르는 것입니다."

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

1. 실험실의 규모: "거대한 도서관과 35 명의 도서관 사서"

2. 주요 발견 3 가지: "사실은 무엇인가?"

① 책이 많을수록 사서는 혼란스러워진다 (문맥 길이의 함정)

② 사서의 '성격'이 '머리 크기'보다 중요하다 (모델 선택의 중요성)

③ "조용히 하라" vs "적당히 떠들게 하라" (온도 설정의 역설)

3. 가장 중요한 교훈: "찾아내는 능력"과 "거짓말 안 하는 능력"은 다릅니다

요약: 기업과 사용자를 위한 조언

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology: RIKER)

3. 실험 설계 및 규모 (Experimental Design)

4. 주요 결과 (Key Results)

A. 하드웨어의 영향 부재

B. 컨텍스트 길이에 따른 성능 급감 (Context Degradation)

C. 모델 선택이 가장 중요한 변수

D. 온도의 역설 (Temperature Effects)

E. 근거성 (Grounding) 과 환각 저항성 (Fabrication Resistance) 의 분리

5. 의의 및 시사점 (Significance & Implications)

결론

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

1. 실험실의 규모: "거대한 도서관과 35 명의 도서관 사서"

2. 주요 발견 3 가지: "사실은 무엇인가?"

① 책이 많을수록 사서는 혼란스러워진다 (문맥 길이의 함정)

② 사서의 '성격'이 '머리 크기'보다 중요하다 (모델 선택의 중요성)

③ "조용히 하라" vs "적당히 떠들게 하라" (온도 설정의 역설)

3. 가장 중요한 교훈: "찾아내는 능력"과 "거짓말 안 하는 능력"은 다릅니다

요약: 기업과 사용자를 위한 조언

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology: RIKER)

3. 실험 설계 및 규모 (Experimental Design)

4. 주요 결과 (Key Results)

A. 하드웨어의 영향 부재

B. 컨텍스트 길이에 따른 성능 급감 (Context Degradation)

C. 모델 선택이 가장 중요한 변수

D. 온도의 역설 (Temperature Effects)

E. 근거성 (Grounding) 과 환각 저항성 (Fabrication Resistance) 의 분리

5. 의의 및 시사점 (Significance & Implications)

결론

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models