Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

이 논문은 금융 도메인 질문 답변을 위해 다양한 PDF 파서와 청킹 전략을 체계적으로 평가하여, 문서 구조 보존과 답변 정확도를 극대화하는 견고한 RAG 파이프라인 구축을 위한 실용적 가이드라인을 제시합니다.

Omar El Bachyr, Yewei Song, Saad Ezzini, Jacques Klein, Tegawendé F. Bissyandé, Anas Zilali, Ulrick Ble, Anne Goujon

게시일 2026-04-15
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"PDF 문서 속의 복잡한 정보를 찾아내어 질문에 답하는 AI 시스템 (RAG)"**을 어떻게 더 똑똑하고 효율적으로 만들 수 있는지에 대한 실험 결과입니다.

금융 보고서 같은 PDF 파일은 사람에게는 읽기 쉽지만, 컴퓨터에게는 마치 미로 속의 보물 지도처럼 해석하기 어렵습니다. 글자, 표, 그림이 뒤섞여 있기 때문이죠. 이 논문은 이 미로를 어떻게 잘 통과할지, 어떤 도구를 써야 할지 실험해 보았습니다.

핵심 내용을 일상적인 비유로 설명해 드릴게요.


1. 문제 상황: "미로 속의 보물 찾기"

금융 분석가들은 매년 수백 페이지에 달하는 PDF 보고서 (연간 보고서, 분기 보고서 등) 를 읽어야 합니다. 여기서 중요한 숫자나 사실이 글자 속에 숨겨져 있기도 하고, 복잡한 표 (Table) 안에 숨겨져 있기도 합니다.

AI 가 이걸 자동으로 찾아주려면 두 가지 단계가 필요합니다.

  1. 문서 해체 (Parsing): PDF 를 컴퓨터가 읽을 수 있는 텍스트로 잘게 쪼개는 것.
  2. 조각 내기 (Chunking): 긴 텍스트를 AI 가 한 번에 처리할 수 있는 작은 덩어리 (조각) 로 나누는 것.

이 논문은 **"어떤 해체 도구와 어떤 나누기 방식이 가장 보물 (정답) 을 잘 찾아내는가?"**를 실험했습니다.

2. 새로운 지도 제작: "TableQuest" (표 탐험)

기존의 테스트 데이터는 주로 "글자"를 찾는 데 초점이 맞춰져 있었습니다. 하지만 금융 보고서의 핵심은 **표 (Table)**에 있습니다.

  • 비유: 기존 테스트는 "책에서 '사과'라는 글자가 몇 번 나오는지" 찾는 것이었다면, 이 논문에서 새로 만든 TableQuest는 "책 속의 복잡한 표에서 '2023 년 매출액'이라는 숫자를 찾아서 계산하는 것"을 테스트합니다.
  • 이 새로운 데이터셋을 통해 AI 가 표를 얼마나 잘 이해하는지 측정했습니다.

3. 실험 결과: 어떤 조합이 가장 좋을까?

연구진은 6 가지의 다른 **해체 도구 (Parser)**와 6 가지의 **나누기 방식 (Chunking)**을 섞어보며 실험했습니다. 마치 요리사들이 다양한 칼과 재료를 섞어 가장 맛있는 요리를 만드는 과정을 본 것과 같습니다.

① 검색 도구 (Retriever) 선택: "검색 엔진의 종류"

  • 글자 찾기: 일반적인 글자 질문에는 E5라는 도구가 가장 잘 작동했습니다. (전체적인 맥락을 잘 이해하는 '지식인' 같은 역할)
  • 표 찾기: 표 안의 숫자를 찾을 때는 ColBERT라는 도구가 가장 강력했습니다. (표의 각 칸을 자세히 훑어보는 '세밀한 검사관' 같은 역할)
  • 결론: 질문의 종류 (글자 vs 표) 에 따라 검색 도구를 바꿔 쓰는 게 좋습니다.

② 해체 도구 (Parser) 선택: "문서를 자르는 칼"

  • 글자 위주 문서: pdfminer라는 도구가 가장 정확했습니다. (텍스트 흐름을 잘 파악함)
  • 표 위주 문서: pdfplumber라는 도구가 가장 훌륭했습니다. (표의 줄과 칸을 정확히 구분함)
  • 속도: PyMuPDFpypdfium2는 매우 빠르지만, 복잡한 표 처리에는 약간의 차이가 있었습니다.
  • 결론: 문서의 성격 (글자 위주 vs 표 위주) 에 따라 칼을 바꿔 써야 합니다.

③ 나누기 방식 (Chunking) 과 겹침 (Overlap): "조각의 크기와 이어짐"

  • 나누기: 문장을 끊을 때, 신경망 (Neural) 방식이 가장 좋았습니다. (문맥을 이해해서 자연스럽게 끊음) 하지만 **문장 단위 (Sentence)**로 나누는 것도 비용이 적고 성능이 비슷해 실용적입니다.
  • 겹침 (Overlap): 조각을 나눌 때, 25% 정도를 겹치게 만드는 것이 가장 좋았습니다.
    • 비유: 벽돌을 쌓을 때, 벽돌 사이를 완전히 떼어내면 (겹침 0%) 벽이 무너질 수 있습니다. 하지만 너무 많이 겹치게 하면 (겹침 50%) 자재 낭비가 심해집니다. **적당히 겹치는 것 (25%)**이 가장 튼튼하고 효율적입니다.

④ AI 두뇌 (LLM) 크기: "머리 크기의 중요성"

  • 작은 AI 모델 (소형 두뇌) 은 복잡한 금융 질문을 잘 못 풀었습니다.
  • 중간 크기 이상의 모델로 갈수록 정답률이 크게 향상되었습니다.
  • 비유: 초등학생이 복잡한 회계 장부를 해석하는 것보다, 대학생이나 전문가가 해석하는 것이 훨씬 정확합니다. 하지만 너무 거대한 모델 (초거대 두뇌) 을 쓴다고 해서 비례해서 성능이 무한정 좋아지는 것은 아닙니다.

4. 요약 및 교훈 (실무자에게 주는 메시지)

이 연구는 금융 업계나 문서 처리를 자동화하려는 사람들에게 다음과 같은 현실적인 조언을 줍니다.

  1. 도구 하나만 고집하지 마세요: 문서에 표가 많으면 표 처리에 강한 도구 (pdfplumber) 를, 글자가 많으면 다른 도구 (pdfminer) 를 쓰세요.
  2. 적당히 겹치세요: 문서를 잘게 쪼갤 때, 조각끼리 25% 정도 겹치게 하세요. 너무 잘게 나누거나 아예 겹치지 않게 하면 오히려 정답을 놓칩니다.
  3. 검색 도구를 상황에 맞게: 글자 질문에는 '지식인' 같은 검색기를, 표 질문에는 '세밀한 검사관' 같은 검색기를 쓰세요.
  4. 적당한 두뇌로 충분: 너무 비싼 초대형 AI 모델을 쓸 필요는 없습니다. 중간 크기 모델만으로도 훌륭한 결과를 얻을 수 있습니다.

한 줄 요약:

"PDF 를 AI 가 읽게 할 때는 문서 종류에 맞는 칼로 자르고, 적당히 겹치게 조각내며, 상황에 맞는 검색 도구를 쓰면 훨씬 똑똑한 답변을 얻을 수 있다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →