How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 학문적인 글을 쓸 때, 엉터리 참고문헌을 얼마나 많이 만들어내는가?"**를 조사한 거대한 실험 보고서입니다.

마치 **"AI 가 쓴 논문이 진짜인지 가짜인지 판별하는 수사관"**이 되어, 10 개의 서로 다른 AI 모델들을 시험대에 올린 이야기라고 상상해 보세요.

이 복잡한 연구를 일상적인 언어와 재미있는 비유로 쉽게 설명해 드리겠습니다.

🕵️‍♂️ 1. 실험의 배경: AI 는 왜 거짓말을 할까?

우리는 AI 가 글을 잘 쓴다고 믿지만, 사실 AI 는 **'참고문헌 (Citation)'**을 만들 때 아주 특이한 버릇이 있습니다. 마치 재능 있는 화가가 그림을 그릴 때, 실제 존재하지 않는 '가상의 박물관'을 그려 넣는 것과 비슷합니다.

현실: AI 는 저자 이름은 진짜로 쓰고, 제목은 그럴듯하게 지어내지만, 실제로는 존재하지 않는 논문을 만들어냅니다.
문제점: 이 가짜 논문이 학계에 퍼지면, 나중에 다른 사람들이 그걸 인용하면서 거짓말이 진실처럼 굳어지는 끔찍한 상황이 발생합니다.

저자는 이 문제를 해결하기 위해 10 개의 유명 AI 모델 (ChatGPT, Claude, Gemini 등) 에게 4 가지 다른 학문 분야 (공학, 환경, 의학, AI) 에서 참고문헌을 요청했습니다. 총 6 만 9 천 개가 넘는 문헌을 조사했죠.

🔍 2. 주요 발견 1: "요청하지 않으면 거짓말도 안 한다"

가장 놀라운 발견은 AI 는 스스로 나서서 거짓말을 하지 않는다는 것입니다.

비유: 마치 요리를 시키지 않은 주방장이 아무것도 안 만드는 것과 같습니다.
결과: 연구진은 AI 에게 "참고문헌을 찾아줘"라고 명시적으로 요청하지 않았을 때, AI 는 단 한 번도 문헌을 만들어내지 않았습니다.
의미: AI 가 거짓말을 하는 것은 **본래의 성향 (Intrinsic)**이 아니라, **사용자가 "찾아줘"라고 시켰을 때 생기는 반응 (Prompt-induced)**입니다. 즉, AI 가 나쁜 게 아니라, 우리가 너무 쉽게 시켰을 때 생기는 부작용인 셈이죠.

📉 3. 주요 발견 2: AI 모델마다 '거짓말 실력'이 천차만별

모든 AI 가 똑같은 수준이 아닙니다. 마치 시험을 본 학생들처럼, 점수 차이가 매우 큽니다.

최고 점수 (GPT-5-mini): 거짓말 비율이 **11.4%**로 가장 낮았습니다. (거의 90% 는 진짜)
최저 점수 (Haiku-4.5): 거짓말 비율이 **56.8%**로 절반이 넘었습니다. (거의 2 개 중 1 개는 가짜)
교훈: "새로운 모델이 무조건 더 낫다"는 말은 거짓입니다. 어떤 회사는 업데이트를 했는데 오히려 거짓말이 더 늘어났고, 어떤 회사는 줄어들었습니다.

🕰️ 4. 주요 발견 3: "최근"을 요구할수록 더 많이 거짓말한다

사용자가 "최근 (Recent)" 논문을 요구할 때, AI 는 가장 많이 엉뚱한 것을 만들어냅니다.

비유: AI 의 기억 (학습 데이터) 은 최신 뉴스가 아닌, 오래된 도서관에 가깝습니다.
이유: AI 는 훈련 데이터에 없는 '최근' 정보를 알 수 없기 때문에, 상상력을 발휘해서 그럴듯한 가짜 제목을 지어냅니다. 반면, '고전 (Seminal)'이나 '중요한' 논문을 요구하면, 그건 데이터에 잘 저장되어 있어서 진짜를 찾아낼 확률이 높습니다.

🛡️ 5. 해결책: 거짓말을 잡아내는 3 가지 '수사 도구'

연구진은 AI 가 만든 문헌이 진짜인지 가짜인지 구별하는 현실적인 방법 3 가지를 제안했습니다.

① "여러 명이 같은 걸 말하면 진짜다" (다중 모델 합의)

방법: 같은 질문을 3 개의 다른 AI 에게 물어보세요.
원리: 만약 3 개의 AI 가 모두 똑같은 논문 제목을 말한다면, 그건 95.6% 확률로 진짜입니다.
비유: 한 사람이 "그 사건은 A 가 저질렀다"고 하면 의심스럽지만, 서로 모르는 3 명이 모두 "A 가 저질렀다"고 하면 진실일 가능성이 매우 높죠.

② "자꾸 반복하면 진짜다" (반복 검증)

방법: 같은 AI 에게 같은 질문을 3 번 반복해서 물어보세요.
원리: AI 가 반복해서 똑같은 문헌을 내놓으면 88.9% 확률로 진짜입니다. 가짜 문헌은 AI 가 그 자리에서 즉흥적으로 만들어내는 것이기 때문에, 매번 조금씩 달라집니다.

③ "문장만 봐도 가짜가 보인다" (텍스트 분석기)

방법: 외부 데이터베이스를 검색하지 않고, 문장 자체의 특징만 분석하는 AI 분류기를 썼습니다.
비유: 가짜 문서는 저자 이름이 너무 짧거나, 'et al.(외 다수)'이라는 표현이 없거나, 연도가 너무 최신인 경향이 있습니다.
결과: 이 분류기는 데이터베이스 검색 없이도 가짜 문헌을 87% 이상 찾아냈습니다. 마치 수사관이 문서를 한눈에 보고 위조지폐를 알아보는 것과 같습니다.

💡 6. 결론: 우리가 무엇을 배웠는가?

AI 는 스스로 거짓말을 하지 않는다: 우리가 "찾아줘"라고 시켜야만 거짓말을 합니다.
모델마다 차이가 크다: 무조건 최신 모델을 쓰면 된다는 보장이 없으며, 어떤 모델은 가짜 문헌을 훨씬 잘 만들어냅니다.
검증은 필수: AI 가 쓴 참고문헌은 무조건 믿지 말고, "다른 AI 에게도 물어봐" 혹은 "같은 걸 3 번 물어봐" 같은 간단한 방법으로 반복 검증을 해야 합니다.

한 줄 요약:

"AI 는 훌륭한 조수이지만, 참고문헌을 만들 때는 가짜 지폐를 찍어내는 기계처럼 작동할 수 있습니다. 하지만 여러 대의 기계로 비교하거나 문장 패턴을 분석하면, 그 가짜 지폐를 쉽게 잡아낼 수 있습니다."

이 연구는 AI 를 맹신하지 않고, **현명한 사용법 (검증과 반복)**을 통해 학문적 진실성을 지키는 길을 제시합니다.

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

🕵️‍♂️ 1. 실험의 배경: AI 는 왜 거짓말을 할까?

🔍 2. 주요 발견 1: "요청하지 않으면 거짓말도 안 한다"

📉 3. 주요 발견 2: AI 모델마다 '거짓말 실력'이 천차만별

🕰️ 4. 주요 발견 3: "최근"을 요구할수록 더 많이 거짓말한다

🛡️ 5. 해결책: 거짓말을 잡아내는 3 가지 '수사 도구'

① "여러 명이 같은 걸 말하면 진짜다" (다중 모델 합의)

② "자꾸 반복하면 진짜다" (반복 검증)

③ "문장만 봐도 가짜가 보인다" (텍스트 분석기)

💡 6. 결론: 우리가 무엇을 배웠는가?

논문 개요

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

가. 모델별 허위 인용율 (Hallucination Rates)

나. 프롬프트 및 도메인 영향

다. 문헌적 편향 (Bibliometric Bias)

라. 검증 휴리스틱 (Verification Heuristics)

마. 텍스트 기반 분류기 (Text-based Classifier)

4. 비교 분석 (Comparative Analyses)

5. 의의 및 결론 (Significance)

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

🕵️‍♂️ 1. 실험의 배경: AI 는 왜 거짓말을 할까?

🔍 2. 주요 발견 1: "요청하지 않으면 거짓말도 안 한다"

📉 3. 주요 발견 2: AI 모델마다 '거짓말 실력'이 천차만별

🕰️ 4. 주요 발견 3: "최근"을 요구할수록 더 많이 거짓말한다

🛡️ 5. 해결책: 거짓말을 잡아내는 3 가지 '수사 도구'

① "여러 명이 같은 걸 말하면 진짜다" (다중 모델 합의)

② "자꾸 반복하면 진짜다" (반복 검증)

③ "문장만 봐도 가짜가 보인다" (텍스트 분석기)

💡 6. 결론: 우리가 무엇을 배웠는가?

논문 개요

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

가. 모델별 허위 인용율 (Hallucination Rates)

나. 프롬프트 및 도메인 영향

다. 문헌적 편향 (Bibliometric Bias)

라. 검증 휴리스틱 (Verification Heuristics)

마. 텍스트 기반 분류기 (Text-based Classifier)

4. 비교 분석 (Comparative Analyses)

5. 의의 및 결론 (Significance)

유사한 논문

Constraining constructions with WordNet: pros and cons for the semantic annotation of fillers in the Italian Constructicon

Attribution Quality in AI-Generated Content:Benchmarking Style Embeddings and LLM Judges

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models