MoDora: Tree-Based Semi-Structured Document Analysis System

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, rommelige schuur binnenloopt. Deze schuur is volgestopt met alles wat je maar kunt bedenken: losse bladen papier, ingelijste foto's, ingekleefde krantenknipsels, handgeschreven aantekeningen, en zelfs een paar oude kasten met laden. Dit is wat een semi-gestructureerd document is. Het is niet netjes als een boek (alleen tekst), en het is niet puur een database (alleen cijfers). Het is een mix van tekst, tabellen, grafieken en afbeeldingen, vaak in een willekeurige volgorde.

De uitdaging? Als je vraagt: "Hoeveel kippen hadden last van verenverlies in de winter?", dan moet je niet alleen de tekst lezen, maar ook de tabel op pagina 2 vinden, zien dat die tabel hoort bij hoofdstuk 3, en weten dat hoofdstuk 3 in de winter plaatsvond.

Bestaande computersystemen zijn hier slecht in. Ze zien vaak alleen losse woorden of hele pagina's, maar missen de connecties. Ze raken de "samenhang" kwijt.

MoDora is de nieuwe, slimme schuurmeester die dit probleem oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Puzzelstukjes" Samenvoegen (Local-Alignment Aggregation)

Stel je voor dat je een document hebt dat door een scanner is gelezen. De scanner ziet alleen losse blokjes tekst en plaatjes.

Het probleem: De scanner ziet "Hoofdstuk 3" en "Tabel 1" als twee totaal losse dingen.
MoDora's oplossing: MoDora is slim genoeg om te zien: "Ah, deze titel hoort bij die tabel!" of "Deze paragraaf en dit plaatje horen bij elkaar."
De analogie: In plaats van een berg losse puzzelstukjes te hebben, plakt MoDora de stukjes die bij elkaar horen direct aan elkaar tot een compleet plaatje (een 'component'). Zo krijgt hij een "Titel + Paragraaf" blokje en een "Tabel + Legenda" blokje.

2. De "Levende Stamboom" bouwen (CCTree)

Nu MoDora zijn puzzelstukjes heeft samengevoegd, moet hij ze ordenen.

Het probleem: Veel systemen lezen een document van links naar rechts, alsof het een lange, saaie lijn is. Maar een document heeft diepgang: hoofdstukken, subhoofdstukken, en bijlagen.
MoDora's oplossing: MoDora bouwt een CCTree (Component-Correlation Tree). Denk hierbij niet aan een lijst, maar aan een levende boom.
- De stam is de titel van het hele document.
- De grote takken zijn de hoofdstukken.
- De kleine takjes zijn de paragrafen en de bladeren zijn de tabellen en plaatjes die bij die paragraaf horen.
- Zelfs de "bijlagen" (zoals paginanummers of kanttekeningen) krijgen hun eigen takje aan de zijkant, zodat ze de hoofdtekst niet verstoren.
De magie: MoDora loopt deze boom van onderen naar boven (van blad naar stam). Hij vat elke tak samen in een paar sleutelwoorden. Zo weet de stam (het hoofdstuk) al precies wat er in de bladeren (de details) staat, zonder dat hij alles opnieuw hoeft te lezen.

3. De "Slimme Zoeker" (Question-Type Aware Retrieval)

Als je nu een vraag stelt, weet MoDora precies hoe hij moet zoeken, afhankelijk van wat je vraagt.

Vraag: "Wat staat er onderin op pagina 1?"
- MoDora kijkt niet naar de betekenis van de woorden, maar naar de locatie. Hij kijkt in zijn boomstructuur naar het blokje dat fysiek onderaan op pagina 1 hangt.
Vraag: "Wat is de gemiddelde temperatuur in experiment 3?"
- MoDora zoekt naar de betekenis. Hij gebruikt zijn samenvattingen (de sleutelwoorden op de takken) om snel te zien welke tak hij moet beklimmen. Hij slaat takken over die niets met "temperatuur" te maken hebben.
De controle: Als hij een antwoord vindt, laat hij een slimme assistent (een AI) het antwoord controleren door de originele tekst en het plaatje te bekijken. Dit voorkomt dat hij iets verzonnen antwoordt (hallucinaties).

Waarom is dit zo goed?

In de testresultaten (de "wedstrijd" met andere systemen) deed MoDora het veel beter.

Andere systemen (zoals ZenDB of GPT-5 alleen) waren vaak te slordig: ze zagen de structuur niet, of ze zagen wel de structuur maar misten de details in de tabellen.
MoDora combineert het beste van twee werelden: hij ziet de structuur (de boom) én hij begrijpt de inhoud (de samenvattingen).

Kortom:
MoDora is als een super-georganiseerde bibliothecaris die niet alleen weet waar elk boek staat, maar die ook precies weet welke pagina bij welk hoofdstuk hoort, en die in staat is om snel de juiste informatie te vinden, zelfs als die verspreid zit over verschillende pagina's en in verschillende vormen (tekst, tabel, plaatje). Hij maakt van een rommelige schuur een perfect georganiseerd archief.

MoDora: Tree-Based Semi-Structured Document Analysis System

1. De "Puzzelstukjes" Samenvoegen (Local-Alignment Aggregation)

2. De "Levende Stamboom" bouwen (CCTree)

3. De "Slimme Zoeker" (Question-Type Aware Retrieval)

Waarom is dit zo goed?

Probleemstelling

Methodologie: MoDora

1. Document Preprocessing (Document Voorverwerking)

2. Boomconstructie: Component-Correlation Tree (CCTree)

3. Boomgebaseerde Documentanalyse (Retrieval & Reasoning)

Belangrijkste Bijdragen

Resultaten

Betekenis

MoDora: Tree-Based Semi-Structured Document Analysis System

1. De "Puzzelstukjes" Samenvoegen (Local-Alignment Aggregation)

2. De "Levende Stamboom" bouwen (CCTree)

3. De "Slimme Zoeker" (Question-Type Aware Retrieval)

Waarom is dit zo goed?

Probleemstelling

Methodologie: MoDora

1. Document Preprocessing (Document Voorverwerking)

2. Boomconstructie: Component-Correlation Tree (CCTree)

3. Boomgebaseerde Documentanalyse (Retrieval & Reasoning)

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá