From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 문서를 잘 이해하려면, 먼저 그 문서를 어떻게 '정리'하느냐가 가장 중요하다"**는 놀라운 사실을 밝혀낸 연구입니다.

마치 거대한 도서관을 상상해 보세요. AI 는 이 도서관의 모든 책을 읽고 질문에 답할 수 있는 똑똑한 사서입니다. 그런데 문제는 도서관에 들어온 책들이 종이로 된 PDF 파일이라는 점입니다. 이 PDF 파일들은 컴퓨터가 읽기엔 마치 미로처럼 꼬여 있거나, 글자가 뭉개진 상태일 수 있습니다.

연구진들은 "어떤 도구를 써서 이 뭉개진 PDF 를 AI 가 읽기 좋은 '마크다운'이라는 깔끔한 텍스트로 바꾸느냐"에 따라 AI 의 답변 정확도가 얼마나 달라지는지 실험했습니다.

이 연구의 핵심 내용을 쉬운 비유로 설명해 드릴게요.

1. 핵심 발견: "쓰레기를 넣으면 쓰레기가 나온다 (Garbage In, Garbage Out)"

연구진들은 4 가지 다른 PDF 변환 도구 (Docling, MinerU, Marker, DeepSeek OCR) 를 시험했습니다. 마치 요리사가 같은 재료를 가지고 다른 칼질과 손질법을 쓰는 것과 비슷합니다.

결과: 어떤 도구를 쓰느냐에 따라 AI 의 정답률이 71% 에서 94% 까지 엄청난 차이를 보였습니다.
비유: 같은 소고기 (PDF) 를 요리할 때,
- 나쁜 손질 (DeepSeek OCR 등): 뼈와 지방을 다 제거하지 않고 넣어서, AI 가 "이게 뭐야?"라고 혼란을 겪고 엉뚱한 답을 합니다. (정답률 71%)
- 훌륭한 손질 (Docling + 추가 작업): 고기를 깔끔하게 다듬고, 뼈를 제거하고, 양념을 바르고 넣습니다. AI 는 "아, 맛있는 스테이크구나!"라고 바로 알아채고 정확한 답을 줍니다. (정답률 94%)

가장 중요한 교훈: AI 모델 자체를 더 똑똑하게 만드는 것보다, 데이터를 얼마나 깨끗하게 준비하느냐가 훨씬 더 중요합니다.

2. 도구의 선택보다 중요한 '손질법'

연구진은 단순히 도구만 바꾸는 게 아니라, 문서를 어떻게 잘게 썰고 (Chunking), 어떻게 정리하느냐도 실험했습니다.

비유 (문서 자르기):
- 무작위 자르기 (Recursive): 책장을 아무렇게나 찢어서 AI 에게 줍니다. "이 장은 100 페이지의 중간인데, 앞뒤 문맥이 끊겨서 무슨 말인지 모르겠다"는 상황이 생깁니다.
- 구조를 살린 자르기 (Hierarchical): 책의 목차를 보고, "이 부분은 '제 1 장'이고, 이 부분은 '제 1 장의 1 절'이다"라고 라벨을 붙여서 줍니다. AI 는 "아, 이 내용은 제 1 장의 맥락에서 말하는 구나!"라고 바로 이해합니다.
결과: 변환 도구 (칼) 가 아무리 좋아도, **문서를 어떻게 자르고 정리하느냐 (손질법)**가 정답률에 더 큰 영향을 미쳤습니다. 특히 문서의 구조 (제목, 목차) 를 보존하면서 자르는 것이 가장 중요했습니다.

3. '지식 그래프 (GraphRAG)'는 왜 실패했을까?

최근 AI 업계에서 "문서끼리 관계를 맺어주는 지식 그래프를 만들면 AI 가 더 똑똑해진다"는 이야기가 많았습니다. 마치 도서관 사서가 책들 사이에 실로 연결된 끈을 만들어서 관련 정보를 찾아주는 것처럼요.

실험 결과: 연구진이 이 방법을 시도했더니, 오히려 정답률이 떨어졌습니다 (94% → 82%).
이유:
- 비유: 책과 책 사이에 끈을 묶으려 했지만, 끈을 너무 많이 묶거나, 엉뚱한 책끼리 묶어버렸습니다. (예: '사과'와 '오렌지'를 무작정 묶어버림).
- AI 는 이 복잡한 끈에 걸려서 오히려 혼란을 겪었습니다.
- 교훈: 아직은 **단순하고 깔끔한 책 정리 (기본 RAG)**가, 엉성하게 만든 복잡한 연결망 (지식 그래프) 보다 더 효과적입니다.

4. 포르투갈어와 특수 기호의 함정

이 연구는 포르투갈어로 된 군사 문서들을 다뤘습니다.

문제: 많은 AI 도구들이 영어에 최적화되어 있어서, 포르투갈어 특유의 'ç' (세디야) 같은 특수 문자를 잘못 읽었습니다.
비유: "사냥 (caça)"이라는 단어가 "똥 (caca)"으로 잘못 읽혀버린 셈입니다. AI 가 "사냥감"을 찾으라고 했을 때, AI 는 "똥"에 대한 정보를 가져와서 엉뚱한 답을 할 수 있습니다.
해결: Docling이라는 도구가 이 특수 문자를 잘 처리해서 가장 좋은 성적을 냈습니다.

📝 한 줄 요약

"AI 를 똑똑하게 만드는 비결은 더 좋은 두뇌 (LLM) 를 사는 게 아니라, 그 AI 가 먹을 음식 (데이터) 을 얼마나 깔끔하고 구조적으로 다듬느냐에 달려 있다."

이 연구는 기업이나 조직이 PDF 문서로 AI 를 만들 때, 가장 먼저 문서 변환과 정리 과정에 투자해야 한다는 강력한 메시지를 전달합니다. 복잡한 기술보다는 데이터의 질이 승패를 가른다는 것입니다.

From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

1. 핵심 발견: "쓰레기를 넣으면 쓰레기가 나온다 (Garbage In, Garbage Out)"

2. 도구의 선택보다 중요한 '손질법'

3. '지식 그래프 (GraphRAG)'는 왜 실패했을까?

4. 포르투갈어와 특수 기호의 함정

📝 한 줄 요약

논문 요약: 도메인 특화 질문 응답을 위한 PDF 변환 프레임워크 평가

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 및 결론 (Key Contributions & Conclusions)

5. 의의 (Significance)

From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

1. 핵심 발견: "쓰레기를 넣으면 쓰레기가 나온다 (Garbage In, Garbage Out)"

2. 도구의 선택보다 중요한 '손질법'

3. '지식 그래프 (GraphRAG)'는 왜 실패했을까?

4. 포르투갈어와 특수 기호의 함정

📝 한 줄 요약

논문 요약: 도메인 특화 질문 응답을 위한 PDF 변환 프레임워크 평가

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 및 결론 (Key Contributions & Conclusions)

5. 의의 (Significance)

유사한 논문

Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems

Sparse Autoencoders as a Steering Basis for Phase Synchronization in Graph-Based CFD Surrogates

SUMMIR: A Hallucination-Aware Framework for Ranking Sports Insights from LLMs

Learning to Retrieve from Agent Trajectories

Synthetic Trust Attacks: Modeling How Generative AI Manipulates Human Decisions in Social Engineering Fraud