From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

이 논문은 RAG 시스템의 성능이 문서 전처리 품질에 크게 의존함을 입증하며, 19 가지 파이프라인 구성을 비교한 결과 Docling 기반의 계층적 분할과 이미지 설명이 가장 높은 정확도를 보였으며, 메타데이터 보강과 계층 인식 청킹이 변환 프레임워크 선택보다 더 중요한 영향을 미쳤음을 밝혔습니다.

José Guilherme Marques dos Santos, Ricardo Yang, Rui Humberto Pereira, Alexandre Sousa, Brígida Mónica Faria, Henrique Lopes Cardoso, José Duarte, José Luís Reis, Luís Paulo Reis, Pedro Pimenta, José Paulo Marques dos Santos

게시일 2026-04-08
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 문서를 잘 이해하려면, 먼저 그 문서를 어떻게 '정리'하느냐가 가장 중요하다"**는 놀라운 사실을 밝혀낸 연구입니다.

마치 거대한 도서관을 상상해 보세요. AI 는 이 도서관의 모든 책을 읽고 질문에 답할 수 있는 똑똑한 사서입니다. 그런데 문제는 도서관에 들어온 책들이 종이로 된 PDF 파일이라는 점입니다. 이 PDF 파일들은 컴퓨터가 읽기엔 마치 미로처럼 꼬여 있거나, 글자가 뭉개진 상태일 수 있습니다.

연구진들은 "어떤 도구를 써서 이 뭉개진 PDF 를 AI 가 읽기 좋은 '마크다운'이라는 깔끔한 텍스트로 바꾸느냐"에 따라 AI 의 답변 정확도가 얼마나 달라지는지 실험했습니다.

이 연구의 핵심 내용을 쉬운 비유로 설명해 드릴게요.


1. 핵심 발견: "쓰레기를 넣으면 쓰레기가 나온다 (Garbage In, Garbage Out)"

연구진들은 4 가지 다른 PDF 변환 도구 (Docling, MinerU, Marker, DeepSeek OCR) 를 시험했습니다. 마치 요리사가 같은 재료를 가지고 다른 칼질과 손질법을 쓰는 것과 비슷합니다.

  • 결과: 어떤 도구를 쓰느냐에 따라 AI 의 정답률이 71% 에서 94% 까지 엄청난 차이를 보였습니다.
  • 비유: 같은 소고기 (PDF) 를 요리할 때,
    • 나쁜 손질 (DeepSeek OCR 등): 뼈와 지방을 다 제거하지 않고 넣어서, AI 가 "이게 뭐야?"라고 혼란을 겪고 엉뚱한 답을 합니다. (정답률 71%)
    • 훌륭한 손질 (Docling + 추가 작업): 고기를 깔끔하게 다듬고, 뼈를 제거하고, 양념을 바르고 넣습니다. AI 는 "아, 맛있는 스테이크구나!"라고 바로 알아채고 정확한 답을 줍니다. (정답률 94%)

가장 중요한 교훈: AI 모델 자체를 더 똑똑하게 만드는 것보다, 데이터를 얼마나 깨끗하게 준비하느냐가 훨씬 더 중요합니다.

2. 도구의 선택보다 중요한 '손질법'

연구진은 단순히 도구만 바꾸는 게 아니라, 문서를 어떻게 잘게 썰고 (Chunking), 어떻게 정리하느냐도 실험했습니다.

  • 비유 (문서 자르기):
    • 무작위 자르기 (Recursive): 책장을 아무렇게나 찢어서 AI 에게 줍니다. "이 장은 100 페이지의 중간인데, 앞뒤 문맥이 끊겨서 무슨 말인지 모르겠다"는 상황이 생깁니다.
    • 구조를 살린 자르기 (Hierarchical): 책의 목차를 보고, "이 부분은 '제 1 장'이고, 이 부분은 '제 1 장의 1 절'이다"라고 라벨을 붙여서 줍니다. AI 는 "아, 이 내용은 제 1 장의 맥락에서 말하는 구나!"라고 바로 이해합니다.
  • 결과: 변환 도구 (칼) 가 아무리 좋아도, **문서를 어떻게 자르고 정리하느냐 (손질법)**가 정답률에 더 큰 영향을 미쳤습니다. 특히 문서의 구조 (제목, 목차) 를 보존하면서 자르는 것이 가장 중요했습니다.

3. '지식 그래프 (GraphRAG)'는 왜 실패했을까?

최근 AI 업계에서 "문서끼리 관계를 맺어주는 지식 그래프를 만들면 AI 가 더 똑똑해진다"는 이야기가 많았습니다. 마치 도서관 사서가 책들 사이에 실로 연결된 끈을 만들어서 관련 정보를 찾아주는 것처럼요.

  • 실험 결과: 연구진이 이 방법을 시도했더니, 오히려 정답률이 떨어졌습니다 (94% → 82%).
  • 이유:
    • 비유: 책과 책 사이에 끈을 묶으려 했지만, 끈을 너무 많이 묶거나, 엉뚱한 책끼리 묶어버렸습니다. (예: '사과'와 '오렌지'를 무작정 묶어버림).
    • AI 는 이 복잡한 끈에 걸려서 오히려 혼란을 겪었습니다.
    • 교훈: 아직은 **단순하고 깔끔한 책 정리 (기본 RAG)**가, 엉성하게 만든 복잡한 연결망 (지식 그래프) 보다 더 효과적입니다.

4. 포르투갈어와 특수 기호의 함정

이 연구는 포르투갈어로 된 군사 문서들을 다뤘습니다.

  • 문제: 많은 AI 도구들이 영어에 최적화되어 있어서, 포르투갈어 특유의 'ç' (세디야) 같은 특수 문자를 잘못 읽었습니다.
  • 비유: "사냥 (caça)"이라는 단어가 "똥 (caca)"으로 잘못 읽혀버린 셈입니다. AI 가 "사냥감"을 찾으라고 했을 때, AI 는 "똥"에 대한 정보를 가져와서 엉뚱한 답을 할 수 있습니다.
  • 해결: Docling이라는 도구가 이 특수 문자를 잘 처리해서 가장 좋은 성적을 냈습니다.

📝 한 줄 요약

"AI 를 똑똑하게 만드는 비결은 더 좋은 두뇌 (LLM) 를 사는 게 아니라, 그 AI 가 먹을 음식 (데이터) 을 얼마나 깔끔하고 구조적으로 다듬느냐에 달려 있다."

이 연구는 기업이나 조직이 PDF 문서로 AI 를 만들 때, 가장 먼저 문서 변환과 정리 과정에 투자해야 한다는 강력한 메시지를 전달합니다. 복잡한 기술보다는 데이터의 질이 승패를 가른다는 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →