Learning Page Order in Shuffled WOO Releases

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"뒤죽박죽 섞인 문서들의 페이지 순서를 AI 가 다시 찾아낼 수 있을까?"**라는 질문에서 시작합니다.

네덜란드 정부가 공개하는 'WOO 문서'들은 이메일, 스프레드시트, 법률 문서, 스캔된 종이 등 온갖 종류의 파일이 하나의 PDF 로 뭉쳐진 상태입니다. 문제는 이 파일들이 페이지 순서가 완전히 뒤섞여 있다는 것입니다. 마치 책장 속의 모든 페이지를 뽑아서 바닥에 흩뿌려 놓은 뒤, 다시 원래대로 이어 붙여야 하는 상황과 비슷하죠.

이 논문은 인공지능 (AI) 이 이 흩어진 페이지들을 다시 올바른 순서로 배열할 수 있는지, 그리고 어떤 방법이 가장 효과적인지 실험한 결과입니다.

🧩 핵심 비유: "난장판 된 퍼즐 조각 정리하기"

이 문제를 이해하기 위해 난장판 된 퍼즐을 상상해 보세요.

짧은 퍼즐 (2~5 페이지): 조각 수가 적어서 옆에 있는 조각끼리 모양이 비슷하거나 연결되는 게 눈에 잘 띕니다.
긴 퍼즐 (20 페이지 이상): 조각이 너무 많고, 서로 전혀 관련 없는 이미지 (이메일 한 장, 스프레드시트 한 장) 가 섞여 있어, "어떤 조각이 다음에 와야 할지" 추측하기 매우 어렵습니다.

연구진은 AI 에게 이 퍼즐 조각들을 다시 맞추는 방법을 가르쳐 보았습니다.

🔍 실험 결과: 어떤 방법이 잘 통했나?

연구진은 5 가지 다른 AI 전략을 시험해 보았는데, 결과는 다음과 같습니다.

1. 단순한 추측 (Heuristics): "가장 비슷한 조각 붙이기"

방식: "이 조각과 가장 닮은 조각을 찾아서 붙여보자"라고 생각하며 하나씩 붙입니다.
결과: 완전 실패. WOO 문서들은 이메일과 법률 문서가 섞여 있어, 페이지 5 와 6 이 서로 전혀 닮지 않을 수 있습니다. 마치 "사과 조각"과 "자동차 부품 조각"을 닮은 것끼리 붙이려고 하는 꼴이라 순서를 맞추기엔 무리였습니다.

2. 순서대로 읽는 AI (Seq2seq Transformer): "한 장씩 넘겨가며 기억하기"

방식: 사람이 책을 읽듯, 첫 장을 보고 두 번째 장, 세 번째 장을 순서대로 예측합니다.
결과: 짧은 책에서는 천재, 긴 책에서는 바보.
- 2~5 페이지짜리 짧은 문서에서는 90% 이상 정확히 맞췄습니다.
- 하지만 20 페이지가 넘는 긴 문서에서는 **거의 0%**에 가까운 성적을 냈습니다.
- 이유: AI 가 "1 페이지, 2 페이지..."라는 위치 번호를 외우는 방식 (위치 인코딩) 을 사용했는데, 긴 책의 마지막 페이지 번호는 훈련 데이터에 거의 없어서 AI 가 "이건 몇 페이지지?"라고 당황해 버린 것입니다. 마치 100 번까지 외운 학생이 101 번을 외우지 못해 망친 것과 같습니다.

3. 쌍으로 비교하는 AI (Pairwise Ranking Transformer): "누가 먼저야?"

방식: 전체 순서를 한 번에 맞추려 하지 않고, "A 페이지가 B 페이지보다 앞서는가?"라고 두 장씩 짝을 지어 비교합니다. 모든 조합을 비교한 뒤, 점수를 합쳐서 순서를 정합니다.
결과: 가장 성공적인 방법!
- 특히 긴 문서에 특화된 AI를 따로 만들어주니 성능이 폭발적으로 좋아졌습니다.
- 15 페이지짜리 문서에서는 95% 이상, 20 페이지가 넘는 긴 문서에서도 기존 방법보다 훨씬 잘 맞췄습니다.

💡 왜 '순서대로 배우기 (Curriculum Learning)'는 실패했을까?

교육학에서는 "쉬운 것부터 배우면 어려운 것도 잘 배운다 (순서 학습)"는 이론이 있습니다. 그래서 AI 에게도 "먼저 짧은 문서로 연습하고, 그다음 긴 문서로 넘어가자"고 가르쳐 보았습니다.

하지만 결과는 역효과였습니다.

이유: 짧은 문서와 긴 문서에서는 서로 다른 '지능'이 필요하기 때문입니다.
- 짧은 문서: "이쪽 조각이 저쪽 조각과 비슷하네" (근접한 것) 를 보는 눈이 필요합니다.
- 긴 문서: "전체적인 흐름을 보고 저쪽이 여기 와야 해" (전체적인 맥락) 를 보는 눈이 필요합니다.
비유: 마치 수영을 가르칠 때, "먼저 물에 발만 담그는 법을 배우고, 그다음에 100m 자유형을 하라"고 했을 때, 발만 담그는 법에 익숙해진 학생이 100m 수영을 할 때 오히려 더 헷갈려 하는 것과 같습니다. 짧은 문서에서 배운 '근접한 것'을 찾는 습관이 긴 문서의 '전체 흐름'을 파악하는 데 방해가 된 것입니다.

🚀 결론: 무엇을 배웠나?

혼합된 문서 (WOO) 는 순서가 매우 어렵습니다. 페이지가 이어져 있어도 내용이 달라서 AI 가 헷갈리기 쉽습니다.
한 번에 다 맞추려 하지 말고, '짝'을 지어 비교하는 방식이 가장 좋습니다. (Pairwise Ranking)
문서 길이에 따라 AI 를 따로 만들어주는 게 좋습니다. 짧은 문서용 AI 와 긴 문서용 AI 는 서로 다른 전략을 써야 하기 때문에, 하나를 모두에 적용하면 실패합니다.
쉬운 것부터 배우는 게 항상 좋은 건 아닙니다. 문제의 성격이 완전히 다르면, 오히려 직접 어려운 것부터 배우는 게 나을 수도 있습니다.

이 연구는 AI 가 복잡한 문서들을 정리할 때, 단순히 "더 똑똑하게" 만드는 것보다 **"문서의 특성에 맞는 전략을 세우는 것"**이 훨씬 중요하다는 것을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem Definition)

배경: 네덜란드 정부는 'WOO(Wet open overheid)' 법에 따라 공공 요청에 응답하여 다양한 문서 (이메일, 법률 문서, 스프레드시트, 스캔본 등) 를 하나의 PDF 로 통합하여 공개합니다. 이러한 문서들은 원본의 시간적 순서가 알려져 있지만, 공개 시 페이지가 섞여 있는 경우가 많습니다.
문제점:
- 이질적 콘텐츠: 단일 PDF 내에 서로 다른 문서 유형이 혼합되어 있어, 인접한 페이지 간에 의미론적 연속성 (semantic continuity) 이 결여된 경우가 많습니다.
- 메타데이터 부재: 페이지 번호, 타임스탬프, 스레드 식별자 등 순서를 파악하는 데 필요한 메타데이터가 누락되거나 신뢰할 수 없는 경우가 많습니다.
- 복잡성: 문서 길이가 2 페이지에서 25 페이지까지 다양하며, 페이지 순열의 경우의 수는 문서 길이에 따라 계승 (factorial) 적으로 증가합니다 (25 페이지의 경우 약 $1.55 \times 10^{25}$).
목표: 페이지가 임의의 순서로 섞여 있을 때, 텍스트 임베딩 (content embeddings) 만을 사용하여 원본의 시간적 순서를 복원하는 머신러닝 모델의 성능을 평가하고 최적의 방법을 찾는 것.

2. 데이터셋 및 실험 설정 (Dataset & Setup)

데이터셋: open.overheid.nl 에서 수집된 5,461 개의 WOO 문서 (2~25 페이지).
- 길이 분포: 2~~5 페이지 (22.8%), 6~~10 페이지 (30.8%), 11~~15 페이지 (22.0%), 16~~20 페이지 (14.4%), 21~25 페이지 (9.9%).
- 짧은 문서로 치우친 분포를 보임.
전처리: PyMuPDF 와 OCR(Tesseract) 을 사용하여 텍스트 추출 후, OpenAI 의 text-embedding-3-large(3072 차원) 를 사용하여 페이지별 임베딩 생성. 시각적 요소 (차트, 그래프 등) 는 제외됨.
평가 지표: Kendall's Tau ( $\tau$ ). 예측된 순서와 실제 정답 순서 간의 순위 상관관계를 측정 (-1: 완전 역순, +1: 완전 일치). 부분적으로 맞는 순서에도 점수를 부여함.

3. 방법론 (Methodology)

연구진은 5 가지 주요 접근법과 11 가지 모델 구성을 비교 평가했습니다.

휴리스틱 (Heuristics):
- 무작위, 그리디 최근접 이웃 (Greedy NN), TSP(외판원 문제) 기반 최근접 이웃.
- 임베딩 공간에서 인접 페이지가 실제로 가깝지 않음을 확인.
BiLSTM 위치 분류기: 모든 페이지 임베딩을 처리하여 각 페이지의 위치 점수를 독립적으로 예측 후 정렬.
Pointer Networks (지시 네트워크):
- Pointer MLP: 순환 메모리 없이 최근 선택된 페이지만 고려.
- Pointer LSTM: 인코더가 전체 문맥을 학습하고, 디코더가 이전 선택 이력을 누적하며 한 번에 한 페이지씩 선택 (자기회귀 방식).
Seq2Seq Transformer:
- 섞인 페이지를 정렬된 시퀀스로 매핑.
- 변형 실험: 학습된 위치 인코딩 (Learned), 정현파 위치 인코딩 (Sinusoidal), 위치 인코딩 제거 (No Position) 를 비교하여 길이 일반화 실패 원인을 분석.
Pairwise Ranking Transformer (쌍별 순위 모델):
- 전체 시퀀스 예측 대신, 모든 페이지 쌍 $(i, j)$ 에 대해 " $j$ 가 $i$ 뒤에 오는가?"를 예측.
- Universal 모델: 모든 길이 데이터로 균일하게 학습.
- Specialized 모델 (Direct): 문서 길이별 (2~~5, 6~~10 등 5 개 그룹) 로 전용 모델을 학습하되, 모든 길이의 데이터를 보되 목표 길이 범위에 가중치 (5x) 를 부여.
- Specialized 모델 (Curriculum): 짧은 문서부터 시작해 점차 긴 문서로 학습 단계를 점진적으로 늘리는 커리큘럼 학습 적용.

4. 주요 결과 (Key Results)

성능 최상위 모델: Specialized Pairwise Ranking Transformer (Direct Training).
- 짧은 문서 (2~5 페이지): $\tau = 0.953$
- 중간 길이 (11~15 페이지): $\tau = 0.722$
- 긴 문서 (21~25 페이지): $\tau = 0.380$ (Universal 모델 대비 2.2 배 향상).
Seq2Seq Transformer 의 치명적 실패:
- 짧은 문서에서는 $\tau = 0.918$ 로 우수했으나, 긴 문서 (21~25 페이지) 에서는 $\tau = 0.014$ 로 급격히 하락 (무작위 수준 이하).
- 위치 인코딩 방식 (학습형, 정현파, 없음) 을 변경해도 성능 저하가 지속됨. 이는 위치 인코딩만의 문제가 아니라 아키텍처와 학습 데이터 불균형의 복합적 원인임을 시사.
커리큘럼 학습의 실패:
- 커리큘럼 학습은 긴 문서에서 직접 학습 (Direct Training) 보다 39% 낮게 성능이 저하됨.
- 원인 분석: 짧은 문서와 긴 문서의 순서 결정 전략이 근본적으로 다름.
  - 짧은 문서: 국소적 주의 (Local Attention, 인접 페이지 간 관계 위주).
  - 긴 문서: 전역적 주의 (Global Attention, 먼 페이지 간 관계 필요).
  - 커리큘럼 학습은 국소적 전략을 먼저 학습하게 하여 긴 문서의 전역적 전략 학습을 방해함.
모델 전문화 (Specialization) 의 효과:
- 문서 길이별로 전용 모델을 학습하는 것이 Universal 모델보다 긴 문서에서 훨씬 효과적 (+0.21 $\tau$ 향상).

5. 주요 기여 및 의의 (Contributions & Significance)

이질적 문서 순서 복원 문제의 체계적 분석: 의미론적 연결이 약한 혼합 문서 (WOO) 에서 페이지 순서를 복원하는 것이 얼마나 어려운지, 그리고 기존 NLP 순서 예측 방법론 (문장/이벤트 순서) 이 왜 실패하는지를 규명.
Seq2Seq Transformer 의 길이 일반화 한계 규명: 긴 시퀀스 처리 시 발생하는 성능 붕괴 현상을 확인하고, 위치 인코딩이 유일한 원인이 아님을 ablation study 를 통해 증명.
커리큘럼 학습의 역효과 발견: "쉬운 것부터 어려운 것"이라는 일반적인 커리큘럼 학습 가정이, 짧은/긴 문서가 서로 다른 인지 전략 (국소 vs 전역) 을 요구하는 경우 오히려 해가 될 수 있음을 보여줌.
실용적 솔루션 제시: 문서 길이에 맞춘 전문화 된 쌍별 순위 모델 (Specialized Pairwise Ranking) 이 가장 효과적인 해결책임을 입증. 15 페이지 이하 문서에서 매우 높은 정확도 ( $\tau > 0.9$ ) 를 달성.
오픈 소스: 코드와 데이터셋을 GitHub 및 HuggingFace 를 통해 공개하여 후속 연구를 지원.

6. 결론

이 연구는 이질적인 문서 컬렉션의 페이지 순서를 복원하는 데 있어 단순한 시퀀스 생성 모델 (Seq2Seq) 보다는 쌍별 순위 기반 접근법 (Pairwise Ranking) 이 우월하며, 특히 문서 길이에 특화된 모델 학습이 필수적임을 증명했습니다. 또한, 짧은 문서와 긴 문서가 서로 다른 주의 메커니즘을 필요로 하므로 커리큘럼 학습이 실패할 수 있음을 지적하여, 향후 긴 시퀀스 처리를 위한 아키텍처 설계 및 학습 전략 수립에 중요한 통찰을 제공했습니다.

Learning Page Order in Shuffled WOO Releases

🧩 핵심 비유: "난장판 된 퍼즐 조각 정리하기"

🔍 실험 결과: 어떤 방법이 잘 통했나?

💡 왜 '순서대로 배우기 (Curriculum Learning)'는 실패했을까?

🚀 결론: 무엇을 배웠나?

1. 연구 배경 및 문제 정의 (Problem Definition)

2. 데이터셋 및 실험 설정 (Dataset & Setup)

3. 방법론 (Methodology)

4. 주요 결과 (Key Results)

5. 주요 기여 및 의의 (Contributions & Significance)

6. 결론

유사한 논문

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models