Learning Page Order in Shuffled WOO Releases

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme doos met losse pagina's krijgt. Deze pagina's komen uit een oud archief van de Nederlandse overheid (de zogenaamde WOO-documenten). Het zijn niet zomaare bladen; het is een rommelige mix van e-mails, juridische teksten, spreadsheets en gescande documenten die allemaal door elkaar heen zijn gegooid.

Je taak? Deze pagina's weer in de juiste volgorde leggen.

Het probleem is dat er geen nummertjes op staan, en vaak is er ook geen logisch verhaal dat van pagina 1 naar pagina 2 loopt. Pagina 5 van een juridisch dossier kan er qua inhoud meer op lijken als een willekeurige e-mail dan op pagina 6 van datzelfde dossier. Het is alsof je een puzzel probeert te maken waarbij de stukjes niet op elkaar aansluiten, maar gewoon in een hoop liggen.

Dit onderzoek kijkt of computers (kunstmatige intelligentie) dit rommelige gedoe kunnen oplossen.

De Grote Wedstrijd: Wie is de beste 'Puzzelaar'?

De onderzoekers hebben vijf verschillende manieren (methodes) getest om deze computers slim te maken. Hier is wat ze hebben ontdekt, vertaald in alledaagse termen:

1. De "Gokker" (Heuristieken)
Dit zijn simpele regels, zoals: "Kijk naar de vorige pagina en zoek de volgende die het meest op die lijkt."

Resultaat: Dit werkt bijna niet. Omdat de documenten zo verschillend zijn, lijkt een pagina soms meer op een totaal andere pagina dan op de echte volgende pagina. Het is alsof je probeert een boek te reconstrueren door alleen te kijken naar de kleur van de inkt.

2. De "Lijstjes-Maker" (Seq2Seq Transformers)
Dit is een slimme computer die probeert één voor één de juiste pagina te kiezen, net als iemand die een rijtje maakt.

Het probleem: Deze methode werkt fantastisch voor korte documenten (2 tot 5 pagina's). Maar zodra het document langer wordt (bijvoorbeeld 20 pagina's), crasht de computer volledig.
De analogie: Stel je voor dat je iemand vraagt om een rijtje van 5 mensen te maken. Dat lukt makkelijk. Vraag je diezelfde persoon om een rijtje van 25 mensen te maken, dan raakt hij de draad kwijt en begint hij te fantaseren. De computer vergeet waar hij mee begon zodra de rij te lang wordt. Zelfs als je hem leert om "posities" te onthouden (alsof hij een nummer op zijn voorhoofd heeft), werkt het niet goed voor lange rijen.

3. De "Vergelijker" (Pairwise Ranking)
In plaats van een rijtje te maken, vraagt deze methode de computer om telkens twee pagina's met elkaar te vergelijken: "Komt pagina A voor pagina B, of na?"

Het resultaat: Dit werkt veel beter. Het is alsof je niet probeert de hele rij in één keer te onthouden, maar je vraagt iemand om telkens twee mensen te vergelijken: "Is Jan ouder dan Piet?" Als je dit voor elke mogelijke combinatie doet, kun je de hele rij achteraf reconstrueren.
De winnaar: De beste methode was een gespecialiseerde versie van deze "Vergelijker".

De Twee Grote Verassingen

Tijdens het onderzoek kwamen ze op twee dingen die ze niet hadden verwacht:

1. Waarom "Leer op de simpele manier eerst" (Curriculum Learning) faalt
In het onderwijs leer je eerst optellen, dan vermenigvuldigen, en pas later algebra. Je zou denken dat je een computer ook zo kunt trainen: eerst korte documenten, dan langere.

Wat er gebeurde: Dit werkte juist slecht!
De reden: Korte documenten en lange documenten vereisen een heel ander denkproces.
- Bij korte documenten kijkt de computer alleen naar de directe buur (lokaal kijken).
- Bij lange documenten moet de computer over het hele document heen kijken om patronen te zien (globaal kijken).
De analogie: Het is alsof je iemand eerst leert fietsen op een vlakke weg (kort document). Als je die persoon daarna op een steile berg (lang document) zet, helpt die fietsvaardigheid niet. Sterker nog, de gewoontes die hij op de vlakke weg leerde, maken het klimmen juist moeilijker. De computer moet dus direct leren hoe het klimmen werkt, in plaats van eerst te oefenen op de vlakte.

2. De "Specialist" vs. de "Alleskunner"
Een computer die probeert alles te kunnen (korte én lange documenten) doet het gemiddeld goed, maar niet geweldig.

De oplossing: Maak vijf verschillende computers. Eén die alleen korte documenten doet, één voor middellange, en één voor hele lange.
Het resultaat: Deze "specialisten" waren veel beter. Vooral voor de lange documenten (20+ pagina's) was het verschil enorm. De specialist kon de lange documenten bijna perfect op de juiste plek zetten, terwijl de "alleskunner" daar veel meer moeite mee had.

Conclusie in het Kort

Dit onderzoek laat zien dat het opnieuw in de juiste volgorde zetten van rommelige documenten heel lastig is voor computers, vooral als de documenten lang zijn.

Simpele regels werken niet.
Computers die proberen rijtjes te maken, raken de draad kwijt bij lange documenten.
Het beste werkt een systeem dat telkens twee pagina's vergelijkt.
De belangrijkste les: Leer je computer niet eerst op simpele taken om hem dan op moeilijke taken te zetten. Korte en lange documenten zijn te verschillend; je hebt een specialist nodig voor elke taak.

De code en de data zijn openbaar gemaakt, zodat anderen deze slimme "puzzelaars" kunnen gebruiken om de overheidshoera's weer netjes te ordenen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het onderzoekspaper "Learning Page Order in Shuffled WOO Releases" in het Nederlands.

Titel: Het Leren van Paginvolgorde in Geschoffelde WOO-documenten

Auteurs: Efe Kahraman en Giulio Tosato (UTF.ai)

1. Probleemstelling

De auteurs onderzoeken de uitdaging om de chronologische volgorde van pagina's te herstellen in WOO-documenten (Wet open overheid) uit Nederland. Deze documenten worden vrijgegeven in reactie op openbare verzoeken en bestaan vaak uit heterogene collecties van e-mails, juridische teksten, spreadsheets en gescande administratie, samengevoegd tot één PDF.

De kernproblemen zijn:

Heterogeniteit: Aangrenzende pagina's hebben vaak geen semantische continuïteit (bijv. een juridische pagina kan direct gevolgd worden door een losse e-mail).
Ontbrekende metadata: Paginanummers, tijdstempels of thread-identificatoren zijn vaak afwezig of onbetrouwbaar.
Combinatorische complexiteit: De mogelijke permutaties groeien factorieel met de lengte (bijv. 25 pagina's hebben $25! \approx 1,55 \times 10^{25}$ mogelijke ordeningen).
Doel: Het herstellen van de oorspronkelijke volgorde uitsluitend op basis van content-embeddings, zonder externe metadata.

2. Methodologie

Dataset

Omvang: 5.461 WOO-documenten (2 tot 25 pagina's).
Bron: Open.overheid.nl.
Verdeling: 22,8% korte documenten (2-5 pagina's) tot 9,9% lange documenten (21-25 pagina's). De dataset is scheef verdeeld naar kortere documenten.
Preprocessing: Tekstextractie via PyMuPDF met OCR (Tesseract). Gebruik van text-embedding-3-large (OpenAI) voor het genereren van 3072-dimensionale embeddings. Visuele elementen (grafieken, tabellen) werden uitgesloten.

Evalueringsmetriek

Kendall's Tau ( $\tau$ ): Meet de rangcorrelatie tussen de voorspelde en de werkelijke volgorde. Een score van +1 betekent perfecte overeenstemming, -1 betekent een perfecte omkering.

Vergelijkde Methoden

De auteurs testten vijf hoofdcategorieën met in totaal elf modelconfiguraties:

Heuristieken: Random, Greedy Nearest Neighbor, en TSP (Traveling Salesman Problem) benaderingen.
BiLSTM Positie Classificatie: Voorspelt onafhankelijk een positie-score voor elke pagina.
Pointer Networks: Autoregressieve modellen die pagina's één voor één selecteren uit de resterende kandidaten (MLP- en LSTM-varianten).
Seq2Seq Transformers: Encoder-decoder architectuur die een geschoffelde reeks mapt naar een geordende reeks. Drie varianten werden getest met betrekking tot positional encodings:
- Learned: Leren van positie-signalen uit data.
- Sinusoidal: Vaste wiskundige patronen.
- Geen encoding: Uitsluitend gebaseerd op content.
Pairwise Ranking Transformers: In plaats van een volledige sequentie te voorspellen, voorspelt het model voor elk paar pagina's $(i, j)$ $(i, j)$ of $j$ $j$ na $i$ $i$ komt.
- Universeel model: Getraind op alle lengtes.
- Gespecialiseerde modellen (Direct): Vijf aparte modellen, elk getraind met een 5x gewogen verlies op een specifiek lengtebereik (bijv. 2-5, 6-10, ..., 21-25 pagina's).
- Gespecialiseerde modellen (Curriculum Learning): Modellen die eerst op korte documenten worden getraind en geleidelijk complexer worden.

3. Belangrijkste Resultaten

Algemene Prestaties

Beste Methode: De gespecialiseerde pairwise ranking transformer (direct training) presteerde het beste.
- Voor korte documenten (2-5 pagina's): $\tau = 0,953$ .
- Voor middellange documenten (11-15 pagina's): $\tau = 0,722$ .
- Voor lange documenten (21-25 pagina's): $\tau = 0,380$ (een aanzienlijke verbetering ten opzichte van het universele model).
Vergelijking: De pairwise ranking architectuur overtrof autoregressieve methoden (zoals pointer networks) met +0,150 $\tau$ op documenten van 11-15 pagina's.

Falen van Seq2Seq Transformers

Er werd een catastrofaal verlies van prestaties waargenomen bij lange documenten.
- Korte documenten (2-5): $\tau = 0,918$ .
- Lange documenten (21-25): $\tau = 0,014$ (nagenoeg willekeurig).
Ablatiestudies: Het verwijderen van positional encodings of het gebruik van sinusoidal encodings verbeterde de situatie slechts marginaal. Dit suggereert dat het probleem multi-causaal is (data-ongelijkheid, beperkingen van encodings, en architecturale diepte).

Curriculum Learning vs. Directe Training

Curriculums leren (eerst kort, dan lang) presteerde 39% slechter dan directe training op lange documenten.
Oorzaak: Analyse van attention-patronen toonde aan dat korte en lange documenten fundamenteel verschillende strategieën vereisen:
- Korte documenten: Lokale attention (gemiddelde afstand 1,53 posities).
- Lange documenten: Globale attention (gemiddelde afstand 7,59 posities).
- Het model leert bij curriculum learning een lokale strategie die niet overdraagbaar is naar de globale strategie die nodig is voor lange documenten.

Heuristieken

Simpele heuristieken (zoals Greedy NN) faalden volledig ( $\tau < 0,17$ ), omdat pagina's in de embedding-ruimte niet semantisch dicht bij elkaar liggen als ze opeenvolgend zijn in het originele document.

4. Bijdragen en Significantie

Nieuwe Benchmark: Het creëren van een dataset en evaluatieframework voor het ordenen van heterogene, geschoffelde administratieve documenten, een probleem dat verschilt van traditionele zinnen- of gebeurtenisordening.
Architecturale Inzichten:
- Non-autoregressief wint: Pairwise ranking (die de volledige permutatie decomposeert in paarwise vergelijkingen) generaliseert beter dan autoregressieve generatie (seq2seq) voor lange sequenties in dit domein.
- Specialisatie is cruciaal: Het trainen van aparte modellen voor specifieke lengtebereiken levert aanzienlijke winst op voor lange documenten (+0,21 $\tau$ ), omdat de representatiestrategieën per lengte verschillen.
Curriculum Learning Grenzen: Het paper demonstreert dat curriculum learning niet universeel gunstig is; als de vaardigheden voor "simpele" en "complexe" gevallen fundamenteel verschillen (lokaal vs. globaal kijken), kan het zelfs schadelijk zijn voor generalisatie.
Seq2Seq Beperkingen: Het bevestigt dat standaard Transformer-architecturen, zelfs met verschillende positional encodings, moeite hebben om te extrapoleren naar sequentielengtes die significant langer zijn dan die in de trainingsdata, vooral bij complexe, niet-semantisch samenhangende taken.

Conclusie

Het onderzoek concludeert dat het herstellen van paginvolgorde in heterogene WOO-documenten een unieke uitdaging is die niet opgelost kan worden met standaard semantische ordeningsmodellen. De beste aanpak combineert pairwise ranking met gespecialiseerde modellen per documentlengte. De resultaten benadrukken dat architecturale keuzes en trainingsstrategieën (zoals het vermijden van curriculum learning bij fundamenteel verschillende taken) kritiek zijn voor generalisatie naar langere sequenties. Code en data zijn beschikbaar via GitHub en HuggingFace.