Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LLM(거대 언어 모델) 이 학문적인 글을 쓸 때, 진짜 논문인지 가짜인지 구별할 수 있는 '인용문'을 얼마나 잘 만들어내는가?"**를 실험한 연구입니다.

쉽게 말해, **"AI 가 쓴 글에 나오는 참고문헌 목록이 진짜 도서관에 있는 책인지, AI 가 머릿속에서 지어낸 공상인지"**를 확인한 보고서입니다.

이 내용을 일상적인 비유로 설명해 드릴게요.

🍔 비유: "AI 는 완벽한 메뉴판을 만들지만, 음식은 없는 식당"

이 연구를 한 가지 비유로 풀어보면 다음과 같습니다.

AI (LLM): 요리를 아주 맛있게 해주는 '슈퍼 셰프'입니다.
인용문 (Citation): 메뉴판에 적힌 '재료 출처'입니다. (예: "이 소스는 2023 년 프랑스에서 재배된 토마토로 만들었습니다.")
실험 조건 (Deployment Constraints): 셰프에게 내리는 특수 주문입니다.
- "올해 나온 재료만 써줘." (시간 제한)
- "이 요리에 대한 모든 레시피를 다 포함해서 써줘." (광범위한 요구)
- "네가 공부한 책 내용을 말하면 안 돼." (비밀 유지)

연구진은 이 '슈퍼 셰프'들에게 다양한 주문을 내리며, 그들이 적어낸 재료 출처가 진짜인지 가짜인지를 도서관 (Crossref, Semantic Scholar) 에 가서 하나하나 확인했습니다.

🔍 주요 발견 4 가지

1. "모양은 완벽하지만, 내용은 빈 껍데기" (형식 준수 vs 사실성)

셰프들은 주문을 아주 잘 따릅니다. "2023 년 이후 재료만 써줘"라고 하면, 2023 년 이후 날짜가 적힌 메뉴판을 완벽하게 만들어냅니다.

하지만! 그 재료는 도서관에 실제로 존재하지 않습니다.
결과: AI 는 문법이나 날짜 형식을 완벽하게 지키지만, 그 안에 적힌 '진짜 책'의 수는 50% 도 채 되지 않았습니다. (최고 성능 모델도 47.5% 만 성공)

2. "시간을 제한하면 AI 가 더 당황한다" (시간 제약의 영향)

"최근 5 년 이내의 논문만 인용해줘"라고 하면, AI 는 그 시간 안에 있는 진짜 논문을 찾기 어려워집니다.

결과: AI 는 시간 제한을 지키기 위해 가짜 논문을 지어내거나, 아예 찾을 수 없는 논문을 만들어냅니다. 형식은 완벽하지만, 내용은 99% 가 가짜가 되어버립니다.

3. "비싼 AI vs 무료 AI" (상용 모델 vs 오픈소스 모델)

비싼 AI (Claude, GPT-4): "진짜 논문"을 찾아내는 능력이 무료 AI 보다 훨씬 좋습니다. 하지만 여전히 50% 이상은 틀립니다.
무료 AI (LLaMA, Qwen): 진짜 논문을 찾아내는 비율이 매우 낮습니다. 특히 "광범위한 주제"를 요구하면, 가짜 논문을 만들어내는 비율이 50% 를 넘어서기도 합니다.
비유: 비싼 AI 는 가짜를 덜 만들지만, 무료 AI 는 거의 가짜만 만들어낸다고 생각하시면 됩니다.

4. "정답도, 오답도 아닌 '알 수 없음'의 함정" (Unresolved)

가장 무서운 점은, AI 가 만든 인용문 중 **36~61%**는 도서관에서 "있냐, 없냐"를 확실히 알 수 없는 상태라는 것입니다.

문제: 이 '알 수 없음' 항목 중 절반 정도는 실제로는 완전한 가짜였습니다.
비유: 메뉴판에 "신비한 소스 (정체불명)"라고 적혀 있는데, 알고 보니 그 소스는 존재하지 않는 것입니다. 하지만 처음 보면 진짜처럼 보입니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 우리에게 다음과 같은 중요한 메시지를 줍니다.

AI 가 쓴 글의 참고문헌은 '초안'일 뿐입니다.
AI 가 인용한 책이나 논문이 아무리 그럴듯해 보여도, 반드시 직접 도서관 (데이터베이스) 에서 찾아봐야 합니다. AI 가 "이 책 있어요"라고 해도, 실제로는 없는 경우가 많습니다.
조건이 까다로울수록 AI 는 더 많이 거짓말합니다.
"최근 자료만 줘", "모든 분야를 다 줘"라고 요구할수록 AI 는 진짜를 찾기보다 가짜를 만들어낼 확률이 높아집니다.
형식이 완벽하다고 믿지 마세요.
날짜, 저자 이름, DOI(고유 번호) 가 다 맞춰져 있어도, 그 책이 실제로 존재하지 않을 수 있습니다.

🎯 결론: "AI 는 훌륭한 조수지만, 검증은 인간이 해야 합니다"

AI 는 학문적인 글을 쓰는 데 아주 유용한 도구입니다. 하지만 AI 가 만들어낸 참고문헌 목록은 '가짜 뉴스'가 섞여 있을 수 있는 위험한 상태입니다.

따라서 소프트웨어 공학이나 학술 연구를 할 때, AI 가 만들어준 글을 그대로 받아쓰지 말고, **"이게 진짜인가?"**를 확인하는 검증 과정을 반드시 거쳐야 한다는 것이 이 연구의 핵심 결론입니다.

한 줄 요약: AI 가 만들어낸 참고문헌은 "모양은 완벽하지만 내용만 없는 가짜 메뉴판"일 수 있으니, 반드시 직접 메뉴판의 진위를 확인하세요!

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

🍔 비유: "AI 는 완벽한 메뉴판을 만들지만, 음식은 없는 식당"

🔍 주요 발견 4 가지

1. "모양은 완벽하지만, 내용은 빈 껍데기" (형식 준수 vs 사실성)

2. "시간을 제한하면 AI 가 더 당황한다" (시간 제약의 영향)

3. "비싼 AI vs 무료 AI" (상용 모델 vs 오픈소스 모델)

4. "정답도, 오답도 아닌 '알 수 없음'의 함정" (Unresolved)

💡 이 연구가 우리에게 주는 교훈

🎯 결론: "AI 는 훌륭한 조수지만, 검증은 인간이 해야 합니다"

1. 연구 배경 및 문제 정의 (Problem)

2. 연구 방법론 (Methodology)

2.1 실험 설계

2.2 자동 검증 파이프라인 (Verification Pipeline)

3. 주요 결과 (Key Results)

3.1 전반적인 검증 실패

3.2 제약 조건의 영향 (RQ1)

3.3 모델 간 차이 (RQ2)

3.4 도메인별 분석

4. 주요 기여 (Contributions)

5. 의의 및 시사점 (Significance)

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

🍔 비유: "AI 는 완벽한 메뉴판을 만들지만, 음식은 없는 식당"

🔍 주요 발견 4 가지

1. "모양은 완벽하지만, 내용은 빈 껍데기" (형식 준수 vs 사실성)

2. "시간을 제한하면 AI 가 더 당황한다" (시간 제약의 영향)

3. "비싼 AI vs 무료 AI" (상용 모델 vs 오픈소스 모델)

4. "정답도, 오답도 아닌 '알 수 없음'의 함정" (Unresolved)

💡 이 연구가 우리에게 주는 교훈

🎯 결론: "AI 는 훌륭한 조수지만, 검증은 인간이 해야 합니다"

1. 연구 배경 및 문제 정의 (Problem)

2. 연구 방법론 (Methodology)

2.1 실험 설계

2.2 자동 검증 파이프라인 (Verification Pipeline)

3. 주요 결과 (Key Results)

3.1 전반적인 검증 실패

3.2 제약 조건의 영향 (RQ1)

3.3 모델 간 차이 (RQ2)

3.4 도메인별 분석

4. 주요 기여 (Contributions)

5. 의의 및 시사점 (Significance)

유사한 논문

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities