DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'문서 뭉치 분리 (Document Packet Splitting)'**라는 아주 실용적이지만 그동안 간과되어 왔던 문제를 해결하기 위해 제안된 새로운 기준과 도구들을 소개합니다.

간단히 말해, **"잡동사니처럼 섞여 있는 문서 더미를 하나하나 정리해서 제자리에 놓는 일"**을 AI 가 얼마나 잘해낼 수 있는지 측정하는 방법입니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "혼란스러운 책상 위"

생각해 보세요. 은행 대출 신청을 하러 갔는데, 서류가 한 뭉치로 되어 돌아왔습니다. 하지만 그 안에는 여러 사람의 대출 서류가 뒤죽박죽 섞여 있고, 페이지 순서도 뒤바뀌어 있습니다.

A 씨의 계약서 1 페이지
B 씨의 신분증
A 씨의 계약서 2 페이지
C 씨의 은행 명세서
B 씨의 소득 증명서

이걸 사람이 일일이 손으로 찾아서 "아, 이건 A 씨 거야, 이건 B 씨 거야"라고 분류하고 순서를 맞추려면 얼마나 시간이 걸리겠습니까? 기존 AI 들은 한 장씩은 잘 분류하지만, 이렇게 뒤섞인 여러 문서의 뭉치를 통째로 받아서 "어떤 게 어디에 속하는지"를 구분하는 능력은 매우 부족했습니다.

2. 해결책: 'DocSplit'이라는 새로운 시험지

저자 팀 (AWS) 은 이 문제를 해결하기 위해 **'DocSplit'**이라는 새로운 기준을 만들었습니다. 이는 마치 **문서 분류 AI 를 위한 '최고 난이도 시험지'**와 같습니다.

📚 비유: "난장판 된 도서관 정리하기"

이 시험지는 AI 에게 다음과 같은 미션을 줍니다.

"여기 100 장의 종이들이 뒤섞여 있어. 이걸 ① 어떤 문서인지 (계약서, 명세서 등) 분류하고, ② 어떤 문서에 속하는지 (A 씨, B 씨) 묶어서, ③ 원래 순서대로 다시 정리해 봐."

이 시험지는 단순히 쉬운 문제만 내지 않습니다.

단순한 경우: 같은 문서만 섞여 있는 경우 (예: 계약서만 10 장).
어려운 경우: 서로 다른 문서가 섞여 있고, 페이지 순서도 완전히 뒤바뀐 경우.
최악의 경우: 문서가 잘게 쪼개져서 아무 순서도 없이 섞인 경우.

3. 새로운 평가 방식: "점수 매기는 법의 변화"

기존에는 AI 가 "정답"을 100% 맞추지 않으면 0 점으로 처리하는 이분법적인 방식을 썼습니다. 하지만 DocSplit 은 조금 더 세련된 방식을 도입했습니다.

기존 방식 (이분법): "이 서류가 A 씨 거야?" -> "아니오" -> 0 점. (사실 A 씨 서류의 90% 는 맞췄는데, 10% 만 틀려도 0 점인 셈입니다.)
DocSplit 방식 (세밀한 점수):
- 묶기 점수 (Clustering): "A 씨 서류를 B 씨 서류와 잘 구분했니?" (V-measure, Rand Index 사용)
- 순서 점수 (Ordering): "A 씨 서류의 1 페이지, 2 페이지 순서가 맞니?" (Kendall's Tau 사용)
- 종합 점수: 이 두 가지를 합쳐서 AI 의 능력을 종합적으로 평가합니다.

비유: 시험지 채점할 때, "전체 정답"이 아니면 0 점 주는 게 아니라, **"분류는 잘했네? +10 점", "순서는 살짝 틀렸네? -2 점"**처럼 부분 점수를 주고, 어떤 실수를 했는지 구체적으로 분석해 주는 방식입니다.

4. 실험 결과: "AI 들의 실력 차이"

이 새로운 시험지로 최신 AI 모델 (Claude, Qwen, DeepSeek 등) 을 테스트한 결과는 다음과 같습니다.

성공: 일부 AI 는 문서를 묶고 순서를 맞추는 데 꽤 잘했습니다. 특히 Qwen 모델이 가장 높은 점수를 받았습니다.
한계: 하지만 여전히 **문서의 경계를 구분하는 것 (어디서 A 씨 문서가 끝나고 B 씨 문서가 시작되는지)**이 가장 어려운 부분입니다.
- 비유: "책장 정리"는 잘하지만, "책과 책 사이의 경계를 찾아내는 것"은 아직 인간처럼 완벽하지 않다는 뜻입니다.

5. 왜 이것이 중요한가요?

이 연구는 단순한 학문적 호기심이 아니라, 실제 우리 삶에 큰 영향을 줍니다.

의료: 병원 기록, 검사 결과, 보험 청구서 등이 뒤섞여 있을 때, AI 가 이를 정확히 분류하면 환자의 치료 속도가 빨라집니다.
금융/법률: 대출 서류나 소송 증거가 뒤죽박죽일 때, AI 가 정리해주면 업무 효율이 극대화됩니다.
물류: 배송 확인서와 송장이 섞여 있을 때, 이를 자동으로 정리하면 물류 비용이 줄어듭니다.

요약

이 논문은 **"뒤섞인 문서 더미를 정리하는 AI 의 능력을 측정할 수 있는 첫 번째 표준 (Benchmark) 과 정교한 점수 체계"**를 만들었습니다. 마치 난장판 된 책상을 정리하는 로봇의 실력을 평가하는 새로운 시험지를 만든 것과 같으며, 이를 통해 앞으로 더 똑똑하고 실용적인 문서 처리 AI 가 개발되기를 기대합니다.

이제 AI 는 단순히 "이게 뭐야?"라고 묻는 것을 넘어, **"이게 누구 거고, 어떤 순서로 정리해야 해?"**라는 복잡한 질문에도 답할 수 있는 능력을 키우고 있는 중입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

실제 업무 환경 (법률, 금융, 의료 등) 에서는 여러 개의 문서가 하나의 패킷 (packet) 으로 묶여 불규칙하게 들어오는 경우가 많습니다. 기존 연구들은 주로 단일 페이지 문서 분류나 시각적 문서 이해 (Visual Document Understanding) 에 집중해 왔으나, 문서 패킷을 구성하는 개별 문서 단위로 분리하고 (Splitting), 순서를 재배열하며 (Reordering), 분류하는 (Classifying) 근본적인 과제는 충분히 해결되지 않았습니다.

주요 도전 과제는 다음과 같습니다:

비정형적 입력: 여러 문서가 섞여 있거나 페이지 순서가 뒤섞여 있는 경우.
경계 모호성: 명확한 구분자 없이 동일한 유형의 문서가 연속되거나, 서로 다른 문서가 교차 (Interleaved) 되어 있는 경우.
복잡한 구조: 페이지가 누락되거나 중복되거나, 품질이 낮은 스캔본이 포함된 경우.

기존 벤치마크 (예: RVL-CDIP) 는 단일 페이지 분류에 국한되어 있어, 이러한 실제적인 '문서 패킷 분할' 문제를 평가할 수 있는 체계적인 프레임워크가 부재했습니다.

2. 방법론 (Methodology)

저자들은 이 문제를 해결하기 위해 DocSplit이라는 새로운 벤치마크와 평가 프레임워크를 제안했습니다.

A. DocSplit 태스크 정의

입력된 $N$ 개의 페이지 시퀀스를 구조화된 표현으로 변환하는 작업으로 정의됩니다. 주요 목표는 다음과 같습니다:

문서 경계 탐지 (Boundary Detection): 어떤 페이지가 새로운 문서의 시작인지 끝인지 식별.
문서 유형 분류 (Classification): 각 문서의 유형 (예: 송장, 계약서, 레터 등) 식별.
페이지 순서 재구성 (Page Ordering): 각 문서 내부의 페이지가 올바른 순서로 배열되도록 복구.

B. 제안된 평가 프레임워크

기존의 이진 (Binary) 정확도 평가의 한계를 극복하기 위해, 클러스터링 (분리) 과 순서 (Ordering) 를 분리하여 평가하는 새로운 지표를 도입했습니다.

클러스터링 지표 (Clustering Metrics):
- Rand Index (RI): 페이지 쌍이 동일한 문서로 올바르게 그룹화되었는지 측정.
- V-measure: 동질성 (Homogeneity, 예측된 클러스터가 단일 클래스만 포함하는지) 과 완전성 (Completeness, 실제 클래스의 모든 멤버가 같은 클러스터에 속하는지) 의 조화 평균.
- $S_{clustering}$ : RI 와 V-measure 의 가중 합.
순서 지표 (Ordering Metrics):
- Kendall's Tau ( $\tau$ ): 예측된 페이지 순서와 실제 순서 간의 순위 상관관계를 측정. -1(완전 반대) 에서 1(완전 일치) 까지 범위.
- $S_{ordering}$ : 모든 다중 페이지 문서에 대한 평균 Kendall's Tau.
종합 점수 (Combined Score, $S_{packet}$ ):
- $S_{packet} = \alpha \cdot S_{clustering} + \beta \cdot S_{ordering}$
- 이 지표는 부분적인 정답 (Partial Credit) 을 부여하여, 전체가 틀린 경우와 일부만 틀린 경우를 구분할 수 있게 합니다.

C. 벤치마크 데이터셋 (5 가지 변형)

RVL-CDIP-MP 데이터를 기반으로 5 가지 복잡도 단계의 데이터셋을 구축했습니다:

Mono-Seq: 단일 유형 문서만 순차적으로 연결 (경계 탐지만 필요).
Mono-Rand: 단일 유형 문서의 페이지를 무작위 섞음 (경계 탐지 + 순서 복구).
Poly-Seq: 다양한 유형의 문서를 순차적으로 연결 (유형별 경계 탐지).
Poly-Int: 다양한 유형의 문서 페이지를 교차 (Round-robin) 시킴 (비연속 페이지 그룹화 필요).
Poly-Rand: 모든 페이지를 완전히 무작위화 (최대 엔트로피, 가장 어려운 시나리오).

3. 주요 기여 (Key Contributions)

최초의 포괄적 벤치마크: 문서 패킷 분할 (Document Packet Splitting) 을 위한 첫 번째 종합 벤치마크인 DocSplit을 제안하고 공개했습니다.
공식적 태스크 정의: 경계 탐지, 분류, 페이지 순서 복구를 통합한 수학적 형식화를 제시했습니다.
다양한 복잡도의 데이터셋: 실제 세계의 난이도 스펙트럼을 반영하는 5 가지 데이터셋 (Mono/Poly, Seq/Int/Rand) 을 포함하여 총 52,600 개의 문서, 155 만 페이지 규모의 데이터를 구축했습니다.
새로운 평가 프레임워크: 이진 정확도의 한계를 극복하고, 클러스터링 품질과 순서 복원력을 동시에 정량화하는 새로운 메트릭 ( $S_{packet}$ ) 을 개발했습니다.
LLM 성능 분석: 최신 멀티모달 LLM 들을 벤치마크하여, 현재 모델들이 복잡한 패킷 분할 작업에서 여전히 큰 성능 격차를 보이고 있음을 규명했습니다.

4. 실험 결과 (Results)

저자들은 Claude Sonnet 4.5, Claude Haiku 4.5, DeepSeek, Gemma, Qwen 등 5 가지 최신 멀티모달 LLM 을 평가했습니다.

성능 추세:
- Qwen 3 VL이 모든 벤치마크에서 가장 높은 종합 점수 (Packet Score: 0.92~0.95) 를 기록했습니다.
- Claude Sonnet/Haiku와 DeepSeek은 경쟁력 있는 2 차 티어 (Packet Score > 0.90) 를 형성했습니다.
- Gemma 3은 순서 복구 점수는 높았으나 (0.99 이상), 클러스터링 점수 (0.56~0.78) 가 낮아 문서 경계 탐지에 큰 한계를 보였습니다.
난이도 영향:
- Mono-Seq (단일 유형, 순차) 에서 가장 높은 성능을 보였으나, Poly-Rand (다중 유형, 완전 무작위) 로 갈수록 성능이 급격히 저하되었습니다.
- 특히 약한 모델들은 Poly-Rand 환경에서 기존 이진 메트릭 (Page+Split) 기준 20~30% 이상의 성능 저하를 보였습니다.
클러스터링 vs 순서:
- 대부분의 모델이 순서 복구 (Ordering) 는 잘 수행했으나, 경계 탐지 (Clustering) 에서 큰 변이 (0.56~0.90) 를 보였습니다. 이는 문서의 의미론적 이해와 경계 식별이 핵심 병목 현상임을 시사합니다.
메트릭 비교:
- 기존 이진 메트릭은 부분적인 정답을 인정하지 않아 (예: 그룹은 맞았으나 라벨이 틀린 경우 0 점), 실제 성능을 과소평가하는 경향이 있었습니다. 반면 제안된 메트릭은 이러한 오류의 심각도에 따라 점수를 차등 부여하여 더 정확한 평가를 가능하게 했습니다.

5. 의의 및 결론 (Significance)

실무 적용 가능성: 법률, 금융, 의료 분야에서 발생하는 복잡한 문서 처리 자동화의 핵심 과제를 해결하기 위한 표준 평가 기준을 마련했습니다.
연구 방향 제시: 현재 LLM 들이 문서 경계 탐지 (Boundary Detection) 에서 여전히 취약함을 밝혀냈으며, 이는 향후 교차 페이지 일관성 모델링 (Cross-page consistency modeling) 과 계층적 문서 표현 연구의 필요성을 강조합니다.
오픈 소스 기여: 데이터셋, 평가 코드, 실험 설정을 공개하여 연구 커뮤니티가 문서 패킷 처리 기술을 체계적으로 발전시킬 수 있는 기반을 제공했습니다.

이 논문은 단순한 문서 분류를 넘어, 비정형적이고 혼란스러운 문서 흐름을 논리적 단위로 재구성하는 능력을 평가하는 새로운 패러다임을 제시했다는 점에서 의의가 큽니다.