Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"PDF 문서 속의 복잡한 정보를 찾아내어 질문에 답하는 AI 시스템 (RAG)"**을 어떻게 더 똑똑하고 효율적으로 만들 수 있는지에 대한 실험 결과입니다.

금융 보고서 같은 PDF 파일은 사람에게는 읽기 쉽지만, 컴퓨터에게는 마치 미로 속의 보물 지도처럼 해석하기 어렵습니다. 글자, 표, 그림이 뒤섞여 있기 때문이죠. 이 논문은 이 미로를 어떻게 잘 통과할지, 어떤 도구를 써야 할지 실험해 보았습니다.

핵심 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제 상황: "미로 속의 보물 찾기"

금융 분석가들은 매년 수백 페이지에 달하는 PDF 보고서 (연간 보고서, 분기 보고서 등) 를 읽어야 합니다. 여기서 중요한 숫자나 사실이 글자 속에 숨겨져 있기도 하고, 복잡한 표 (Table) 안에 숨겨져 있기도 합니다.

AI 가 이걸 자동으로 찾아주려면 두 가지 단계가 필요합니다.

문서 해체 (Parsing): PDF 를 컴퓨터가 읽을 수 있는 텍스트로 잘게 쪼개는 것.
조각 내기 (Chunking): 긴 텍스트를 AI 가 한 번에 처리할 수 있는 작은 덩어리 (조각) 로 나누는 것.

이 논문은 **"어떤 해체 도구와 어떤 나누기 방식이 가장 보물 (정답) 을 잘 찾아내는가?"**를 실험했습니다.

2. 새로운 지도 제작: "TableQuest" (표 탐험)

기존의 테스트 데이터는 주로 "글자"를 찾는 데 초점이 맞춰져 있었습니다. 하지만 금융 보고서의 핵심은 **표 (Table)**에 있습니다.

비유: 기존 테스트는 "책에서 '사과'라는 글자가 몇 번 나오는지" 찾는 것이었다면, 이 논문에서 새로 만든 TableQuest는 "책 속의 복잡한 표에서 '2023 년 매출액'이라는 숫자를 찾아서 계산하는 것"을 테스트합니다.
이 새로운 데이터셋을 통해 AI 가 표를 얼마나 잘 이해하는지 측정했습니다.

3. 실험 결과: 어떤 조합이 가장 좋을까?

연구진은 6 가지의 다른 **해체 도구 (Parser)**와 6 가지의 **나누기 방식 (Chunking)**을 섞어보며 실험했습니다. 마치 요리사들이 다양한 칼과 재료를 섞어 가장 맛있는 요리를 만드는 과정을 본 것과 같습니다.

① 검색 도구 (Retriever) 선택: "검색 엔진의 종류"

글자 찾기: 일반적인 글자 질문에는 E5라는 도구가 가장 잘 작동했습니다. (전체적인 맥락을 잘 이해하는 '지식인' 같은 역할)
표 찾기: 표 안의 숫자를 찾을 때는 ColBERT라는 도구가 가장 강력했습니다. (표의 각 칸을 자세히 훑어보는 '세밀한 검사관' 같은 역할)
결론: 질문의 종류 (글자 vs 표) 에 따라 검색 도구를 바꿔 쓰는 게 좋습니다.

② 해체 도구 (Parser) 선택: "문서를 자르는 칼"

글자 위주 문서: pdfminer라는 도구가 가장 정확했습니다. (텍스트 흐름을 잘 파악함)
표 위주 문서: pdfplumber라는 도구가 가장 훌륭했습니다. (표의 줄과 칸을 정확히 구분함)
속도: PyMuPDF나 pypdfium2는 매우 빠르지만, 복잡한 표 처리에는 약간의 차이가 있었습니다.
결론: 문서의 성격 (글자 위주 vs 표 위주) 에 따라 칼을 바꿔 써야 합니다.

③ 나누기 방식 (Chunking) 과 겹침 (Overlap): "조각의 크기와 이어짐"

나누기: 문장을 끊을 때, 신경망 (Neural) 방식이 가장 좋았습니다. (문맥을 이해해서 자연스럽게 끊음) 하지만 **문장 단위 (Sentence)**로 나누는 것도 비용이 적고 성능이 비슷해 실용적입니다.
겹침 (Overlap): 조각을 나눌 때, 25% 정도를 겹치게 만드는 것이 가장 좋았습니다.
- 비유: 벽돌을 쌓을 때, 벽돌 사이를 완전히 떼어내면 (겹침 0%) 벽이 무너질 수 있습니다. 하지만 너무 많이 겹치게 하면 (겹침 50%) 자재 낭비가 심해집니다. **적당히 겹치는 것 (25%)**이 가장 튼튼하고 효율적입니다.

④ AI 두뇌 (LLM) 크기: "머리 크기의 중요성"

작은 AI 모델 (소형 두뇌) 은 복잡한 금융 질문을 잘 못 풀었습니다.
중간 크기 이상의 모델로 갈수록 정답률이 크게 향상되었습니다.
비유: 초등학생이 복잡한 회계 장부를 해석하는 것보다, 대학생이나 전문가가 해석하는 것이 훨씬 정확합니다. 하지만 너무 거대한 모델 (초거대 두뇌) 을 쓴다고 해서 비례해서 성능이 무한정 좋아지는 것은 아닙니다.

4. 요약 및 교훈 (실무자에게 주는 메시지)

이 연구는 금융 업계나 문서 처리를 자동화하려는 사람들에게 다음과 같은 현실적인 조언을 줍니다.

도구 하나만 고집하지 마세요: 문서에 표가 많으면 표 처리에 강한 도구 (pdfplumber) 를, 글자가 많으면 다른 도구 (pdfminer) 를 쓰세요.
적당히 겹치세요: 문서를 잘게 쪼갤 때, 조각끼리 25% 정도 겹치게 하세요. 너무 잘게 나누거나 아예 겹치지 않게 하면 오히려 정답을 놓칩니다.
검색 도구를 상황에 맞게: 글자 질문에는 '지식인' 같은 검색기를, 표 질문에는 '세밀한 검사관' 같은 검색기를 쓰세요.
적당한 두뇌로 충분: 너무 비싼 초대형 AI 모델을 쓸 필요는 없습니다. 중간 크기 모델만으로도 훌륭한 결과를 얻을 수 있습니다.

한 줄 요약:

"PDF 를 AI 가 읽게 할 때는 문서 종류에 맞는 칼로 자르고, 적당히 겹치게 조각내며, 상황에 맞는 검색 도구를 쓰면 훨씬 똑똑한 답변을 얻을 수 있다!"

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

1. 문제 상황: "미로 속의 보물 찾기"

2. 새로운 지도 제작: "TableQuest" (표 탐험)

3. 실험 결과: 어떤 조합이 가장 좋을까?

① 검색 도구 (Retriever) 선택: "검색 엔진의 종류"

② 해체 도구 (Parser) 선택: "문서를 자르는 칼"

③ 나누기 방식 (Chunking) 과 겹침 (Overlap): "조각의 크기와 이어짐"

④ AI 두뇌 (LLM) 크기: "머리 크기의 중요성"

4. 요약 및 교훈 (실무자에게 주는 메시지)

1. 연구 배경 및 문제 정의 (Problem)

2. 연구 방법론 (Methodology)

A. 데이터셋

B. 실험 설계 (Benchmarking Pipeline)

3. 주요 기여 (Key Contributions)

4. 주요 실험 결과 (Key Results)

RQ1: 검색기 (Retriever) 선택

RQ2: PDF 파서 (Parser) 영향

RQ3: 청킹 전략 및 오버랩 (Overlap)

RQ4: 파서와 청킹의 시너지

RQ5: LLM 크기 영향

5. 의의 및 결론 (Significance & Conclusion)

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

1. 문제 상황: "미로 속의 보물 찾기"

2. 새로운 지도 제작: "TableQuest" (표 탐험)

3. 실험 결과: 어떤 조합이 가장 좋을까?

① 검색 도구 (Retriever) 선택: "검색 엔진의 종류"

② 해체 도구 (Parser) 선택: "문서를 자르는 칼"

③ 나누기 방식 (Chunking) 과 겹침 (Overlap): "조각의 크기와 이어짐"

④ AI 두뇌 (LLM) 크기: "머리 크기의 중요성"

4. 요약 및 교훈 (실무자에게 주는 메시지)

1. 연구 배경 및 문제 정의 (Problem)

2. 연구 방법론 (Methodology)

A. 데이터셋

B. 실험 설계 (Benchmarking Pipeline)

3. 주요 기여 (Key Contributions)

4. 주요 실험 결과 (Key Results)

RQ1: 검색기 (Retriever) 선택

RQ2: PDF 파서 (Parser) 영향

RQ3: 청킹 전략 및 오버랩 (Overlap)

RQ4: 파서와 청킹의 시너지

RQ5: LLM 크기 영향

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration