DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting

Each language version is independently generated for its own context, not a direct translation.

📚 DocSplit: De Grote Document-Sorteerders

Stel je voor dat je een enorme doos met losse bladzijden krijgt. Maar dit is geen gewone doos. In deze doos zitten drie verschillende boeken door elkaar heen gemengd.

Bladzijde 1 is van een receptiebrief.
Bladzijde 2 is van een belastingaangifte.
Bladzijde 3 is weer van diezelfde receptiebrief, maar dan verderop in het verhaal.
Bladzijde 4 is een foto van een medische uitslag.
En zo gaat het maar door.

Deze doos is een Document Packet (een documentpakket). In de echte wereld gebeurt dit vaak: een bankklant stuurt een envelop met zijn hypotheekpapieren, maar de administratie is in de war geraakt en heeft alles door elkaar gegooid.

Het probleem:
Tot nu toe waren slimme computers (AI) heel goed in het lezen van één pagina. Maar ze waren slecht in het oplossen van dit grote rommeltje. Ze wisten niet waar het ene boek stopte en het andere begon, en ze konden de volgorde van de bladzijden niet herstellen. Het was alsof je een puzzel probeert te maken, maar je hebt geen idee welke stukjes bij elkaar horen.

De oplossing: DocSplit
De auteurs van dit paper (van Amazon Web Services) hebben een nieuw hulpmiddel bedacht genaamd DocSplit. Ze hebben twee dingen gedaan:

Een nieuwe "Trainingszaal" (Het Dataset):
Ze hebben vijf verschillende soorten "dozen" met gemengde documenten gemaakt om de AI op te trainen.
- De simpele doos: Alle bladzijden zijn van hetzelfde type, maar door elkaar gegooid.
- De moeilijke doos: Verschillende soorten documenten (zoals facturen en brieven) zijn door elkaar heen gestoken, alsof iemand een stapel papier op een vloer heeft gegooid.
- De chaos-doos: Alles is willekeurig gemengd, zonder enige logica.
Een nieuwe "Cijferlijst" (De Evaluatie):
Vroeger was het cijfer voor een AI ofwel "100% goed" of "0% fout". Dat was niet eerlijk. Als de AI 9 van de 10 bladzijden goed sorteerde, kreeg hij een 0.
DocSplit introduceert een slimmer cijfersysteem. Het kijkt naar twee dingen:
- De Groep: Heeft de AI de juiste bladzijden bij elkaar gezet? (Is dit een factuur of een brief?)
- De Volgorde: Heeft de AI de bladzijden in de juiste volgorde gelegd? (Is pagina 1 echt voor pagina 2?)
Het is alsof je een kok beoordeelt: niet alleen of hij de ingrediënten goed heeft geselecteerd, maar ook of hij ze in de juiste volgorde heeft toegevoegd aan het gerecht.

🧪 Wat hebben ze ontdekt?

Ze hebben de slimste AI-modellen van vandaag de dag (zoals Claude, Qwen en DeepSeek) op deze "chaos-dozen" laten testen. Het resultaat?

Het is nog heel moeilijk: Zelfs de slimste computers hebben moeite. Ze kunnen vaak wel de volgorde van de bladzijden raden (als ze weten dat het één document is), maar ze vallen vaak in de valkuil om te denken dat twee verschillende documenten van hetzelfde type (bijvoorbeeld twee facturen) eigenlijk één groot document zijn.
De kloof: Er is een groot verschil tussen wat de AI kan en wat we nodig hebben voor echte werkplekken (zoals bij verzekeringen of ziekenhuizen).

🌍 Waarom is dit belangrijk?

Dit klinkt misschien als een technisch probleem, maar het raakt ons allemaal:

Ziekenhuizen: Als een patiënt een claim indient, zitten er vaak tientallen papieren bij. Als de computer deze niet goed sorteert, kan de behandeling vertraagd worden of kan een claim afgekeurd worden.
Banken: Bij een hypotheekaanvraag zitten er veel documenten bij elkaar. Als de bank niet weet welk stuk bij welk stuk hoort, duurt het lenen van geld veel langer.
Juristen: In een rechtszaak kunnen duizenden pagina's bewijsmateriaal zijn. Als deze door elkaar liggen, kost het zoeken uren.

🚀 De Conclusie

DocSplit is als een nieuwe meetlat voor de wereld van documenten. Het zegt tegen de ontwikkelaars: "Kijk, jullie zijn goed in het lezen van tekst, maar jullie moeten nog veel leren over het begrijpen van de structuur van hele documentpakketten."

Ze hebben de dataset en de meetlat gratis beschikbaar gemaakt, zodat iedereen kan helpen om deze slimme computers beter te maken. De droom is dat de computer binnenkort niet alleen de tekst leest, maar ook de "hoofdrol" speelt in het oplossen van het grote document-puzzel, zodat mensen zich niet meer hoeven te verdiepen in stapels rommelig papier.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Document Packet Splitting

In veel real-world toepassingen (zoals juridische, financiële en gezondheidszorgsectoren) worden documenten vaak ontvangen als een "packet": een heterogene, ongeordende verzameling van pagina's die meerdere documenten bevatten die aan elkaar zijn geplakt.

De uitdaging: Bestaande systemen voor visueel documentbegrip (Visual Document Understanding - VDU) zijn uitstekend in het classificeren van enkele pagina's, maar falen vaak bij het ontleden van deze pakketten.
Complexiteit: De taken omvatten het identificeren van documentgrenzen, het classificeren van documenttypes en het herstellen van de juiste paginvolgorde. Dit wordt verergerd door:
- Pagina's die door elkaar liggen (shuffled).
- Documenten die met elkaar verweven zijn (interleaved).
- Gebrek aan duidelijke scheidingen tussen documenten van hetzelfde type.
- Heterogene formaten en kwaliteitsvariaties.

2. Methodologie en Oplossing

De auteurs introduceren DocSplit, het eerste uitgebreide benchmark-dataset en evaluatiekader specifiek voor deze taak.

A. Formalisatie van de Taak

De DocSplit-taak wordt gedefinieerd als het transformeren van een inputsequentie van $N$ pagina's naar een gestructureerde representatie die twee doelen bereikt:

Documentgrenzen en Classificatie: Het identificeren van start- en eindpagina's van elk document en het toekennen van een documenttype.
Paginvolgorde: Het herstellen van de correcte sequentiële volgorde binnen elk geïdentificeerd document.

B. Het DocSplit Dataset

Het dataset bestaat uit vijf verschillende benchmarks, afgeleid van het RVL-CDIP-MP dataset, met variërende complexiteit:

DocSplit-Mono-Seq: Documenten van één type, sequentieel samengevoegd (grensdetectie zonder typeverschil).
DocSplit-Mono-Rand: Documenten van één type, maar met volledig gerandomiseerde pagina's (grensdetectie + volgordeherstel).
DocSplit-Poly-Seq: Documenten van verschillende types, sequentieel samengevoegd (grensdetectie op basis van typeverschil).
DocSplit-Poly-Int: Documenten van verschillende types, waarbij pagina's in een "round-robin" patroon verweven zijn (moeilijkste vorm van grensdetectie).
DocSplit-Poly-Rand: Documenten van verschillende types, volledig gerandomiseerd (maximale entropie, geen structurele aanwijzingen).

Het dataset bevat in totaal 52.600 documenten en 1,55 miljoen pagina's, met 13 verschillende documentcategorieën (zoals facturen, brieven, wetenschappelijke publicaties, etc.).

C. Evaluatiekader (Nieuwe Metrieken)

De auteurs stellen een nieuw evaluatiekader voor dat verder gaat dan traditionele "exact match"-metrieken:

Clustering (Document Groepering): Gebruik van de Rand Index (RI) en V-measure (een harmonisch gemiddelde van homogeniteit en volledigheid). Dit meet hoe goed pagina's aan het juiste document worden toegewezen.
Ordering (Paginvolgorde): Gebruik van Kendall's Tau ( $\tau$ ) om de correlatie tussen de voorspelde en de echte volgorde te meten.
Gecombineerde Score ( $S_{packet}$ ): Een gewogen som van clustering- en ordering-scores, waardoor een nuanceerdere beoordeling mogelijk is dan een simpele "pass/fail".

3. Belangrijkste Resultaten

De auteurs hebben meerdere Multimodale Large Language Models (MLLMs) getest, waaronder Claude Sonnet/Haiku 4.5, DeepSeek, Gemma en Qwen.

Prestatieverschillen: Er zijn aanzienlijke prestatiekloven geconstateerd. Qwen 3 VL behaalde de hoogste scores (Packet-score ~0.93-0.95), gevolgd door de Claude-modellen. Gemma 3 presteerde het slechtst, vooral op het gebied van clustering (grensdetectie).
Clustering vs. Ordering: Een cruciale bevinding is dat modellen vaak goed zijn in het bepalen van de volgorde van pagina's binnen een correct gegroepeerd document (hoge ordering-scores >0.97), maar moeite hebben met het correct groeperen van pagina's over verschillende documenten heen (variërende clustering-scores van 0.56 tot 0.90). Grensdetectie is de belangrijkste bottleneck.
Invloed van Complexiteit: De prestaties dalen aanzienlijk bij de meest complexe scenario's (Poly-Int en Poly-Rand). Modellen die goed presteren bij sequentiële data, zakken vaak 20-30% in bij volledig gerandomiseerde of verweven pakketten.
Vergelijking Metrieken: De nieuwe voorgestelde metrieken (V-measure, Kendall's Tau) geven veel waardevollere inzichten dan traditionele metrieken. Traditionele "Page+Split" metrieken straffen bijna-juiste voorspellingen onredelijk hard af (0% score bij één fout), terwijl de nieuwe metrieken gedeeltelijke correctheid belonen en de ernst van fouten (bijv. samenvoegen vs. splitsen van documenten) onderscheiden.

4. Bijdragen en Significantie

De belangrijkste bijdragen van dit werk zijn:

Eerste Uitgebreide Benchmark: DocSplit is het eerste dataset dat specifiek is ontworpen voor document packet splitting, met variaties die real-world scenario's (zoals verzekeringsclaims en hypotheekaanvragen) nabootsen.
Formalisatie van de Taak: Het biedt een wiskundige definitie en een gestructureerde aanpak voor het simultaan oplossen van grensdetectie, classificatie en volgordeherstel.
Nieuwe Evaluatiemetrieken: Het introduceert een robuust kader dat gedeeltelijke correctheid en de richting van volgordefouten meet, wat essentieel is voor het diagnosticeren van modelzwaktes.
Inzicht in LLM-capaciteiten: De experimenten tonen aan dat huidige state-of-the-art modellen nog niet voldoende zijn voor complexe documentpakketten zonder specifieke training, en dat grensdetectie de grootste uitdaging blijft.

5. Conclusie en Toekomstperspectief

DocSplit legt de basis voor geavanceerd documentverwerking in sectoren waar nauwkeurigheid cruciaal is. Het werk benadrukt dat hoewel LLMs goed zijn in tekstbegrip, ze nog moeten leren om structurele coherentie over meerdere pagina's en documenten heen te modelleren. De auteurs maken het dataset, de evaluatiecode en de experimentele configuraties open source beschikbaar om onderzoekers te stimuleren tot het ontwikkelen van gespecialiseerde modellen voor document packet splitting.

Toekomstig werk zou zich moeten richten op het testen van langere documentpakketten (>100 pagina's), het integreren van visuele lay-outinformatie (naast tekst) en het uitbreiden van de modeldiversiteit in de evaluatie.

DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting

📚 DocSplit: De Grote Document-Sorteerders

🧪 Wat hebben ze ontdekt?

🌍 Waarom is dit belangrijk?

🚀 De Conclusie

1. Het Probleem: Document Packet Splitting

2. Methodologie en Oplossing

A. Formalisatie van de Taak

B. Het DocSplit Dataset

C. Evaluatiekader (Nieuwe Metrieken)

3. Belangrijkste Resultaten

4. Bijdragen en Significantie

5. Conclusie en Toekomstperspectief

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá