Agentar-Fin-OCR

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, honderden pagina's tellende jaarverslag van een bank moet lezen. Het is niet zomaar een boek; het is een doolhof van tabellen die over pagina's heen lopen, koppen die verdwalen, en cijfers die zo nauwkeurig moeten zijn dat je ze kunt terugvinden tot op het pixel-niveau voor een controle.

Dit is precies het probleem waar Agentar-Fin-OCR voor is bedacht. Het is een slimme digitale "vertaler" die speciaal is getraind voor financiële documenten. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Losse Pijlen" van de Financiële Wereld

Normale computers die documenten lezen, kijken vaak naar één pagina tegelijk. Ze zijn als iemand die een raadsel oplost door alleen naar één stukje van de puzzel te kijken.

Het probleem: Financiële documenten zijn als een lange trein. Als de trein over de grens gaat (van pagina 1 naar pagina 2), breekt de computer de trein vaak in stukken. Een tabel die over twee pagina's loopt, wordt gezien als twee losse, onbegrijpelijke stukjes. Koppen verdwijnen uit hun context. Voor een accountant of auditor is dit een ramp: je kunt niet zien waar een cijfer vandaan komt.

2. De Oplossing: Agentar-Fin-OCR als de "Super-Regisseur"

Agentar-Fin-OCR is niet zomaar een lezer; het is een regisseur die het hele verhaal in één keer ziet. Het doet drie belangrijke dingen:

A. Het Lijmen van de Gaten (Cross-page Consolidation)

Stel je voor dat je een brief hebt die over twee pagina's is verdeeld, maar de computer leest de eerste zin op pagina 1 en de rest op pagina 2 alsof het twee verschillende brieven zijn.

De oplossing: Agentar-Fin-OCR kijkt naar de randen van de pagina's. Als het ziet dat een zin of een tabel "halverwege" wordt afgebroken, plakt hij de stukken weer netjes aan elkaar. Het is alsof je een kapotte trein weer aan elkaar koppelt zodat hij weer één lange, vloeiende trein wordt. Het verwijdert ook de storende kop- en voetteksten die de tekst verstoren.

B. De Grote Kaart (Document-level Heading Hierarchy)

Financiële rapporten hebben vaak een ingewikkelde structuur: Hoofdstuk > Sectie > Subsectie. Omdat de pagina's vaak worden gesplitst, raakt de computer de "hoofdlijn" kwijt.

De oplossing: Het systeem bouwt een digitale inhoudsopgave (een soort boomstructuur) van het hele document. Het kijkt niet alleen naar de tekst, maar ook naar hoe de tekst eruitziet (grootte, dikte van het lettertype) en waar hij staat. Zo weet het zeker dat "Hoofdstuk 3" echt boven "Paragraaf 3.1" staat, zelfs als ze op verschillende pagina's staan. Het is alsof je een boek niet alleen leest, maar ook een perfecte, interactieve kaart maakt van de structuur.

C. De "X-Ray" voor Tabellen (Cell-Level Visual Reference)

Dit is misschien wel het coolste deel. In de financiële wereld moet je elke cel in een tabel kunnen terugvinden in het originele document. "Waar staat dat cijfer precies?"

De oplossing: Normaal gesproken zeggen AI-modellen: "Hier is de tabel." Agentar-Fin-OCR zegt: "Hier is de tabel, en hier is de exacte coördinaat van elke cel, alsof ik er een rood kader omheen heb getrokken."
De truc: In plaats van extra, zware hulpmiddelen te gebruiken, gebruikt het systeem de "geheime taal" van de tabel zelf (de HTML-codes) om direct te weten waar elke cel zit. Het is alsof de AI een X-ray-bril draagt die direct door de tabel heen ziet en elke cel markeert. Dit is cruciaal voor audits: je kunt een foutje vinden en direct zien op welke pagina en in welk vakje het staat.

3. De Oefenboeken (FinDocBench)

Omdat er geen goede test was om te zien of deze systemen echt goed zijn in financiële documenten (de meeste tests zijn voor algemene teksten), hebben de makers een nieuwe testbank bedacht: FinDocBench.

Dit is een verzameling van echte, moeilijke financiële documenten (van jaarverslagen tot verzekeringspolissen) die door experts handmatig zijn gecontroleerd.
Het is als een "Olympische Spelen" voor documentlezers, maar dan specifiek voor de financiële wereld, met onderdelen zoals "tabellen samenvoegen over pagina's heen" en "koppen in de juiste volgorde zetten".

Samenvattend

Agentar-Fin-OCR is als een super-intelligente, geduldige assistent die:

Geen losse pagina's ziet, maar één groot, samenhangend verhaal.
Tabellen die over pagina's breken, weer heel maakt.
Elke cijfer in een tabel kan aanwijzen met een laserpointer op het originele document.

Dit maakt het mogelijk om financiële documenten niet alleen te lezen, maar ze ook te vertrouwen voor belangrijke beslissingen, audits en automatische rapportages. Het sluit de kloof tussen een rommelige PDF en een strakke, controleerbare database.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Agentar-Fin-OCR" in het Nederlands.

Titel: Agentar-Fin-OCR: Een gespecialiseerd documentparsingsysteem voor financiële documenten

1. Het Probleem

Documentparsing (het extraheren van machine-leesbare data uit ongestructureerde bestanden zoals PDF's) is cruciaal voor Retrieval-Augmented Generation (RAG) en andere AI-toepassingen. Bestaande modellen en benchmarks richten zich echter voornamelijk op pagina-niveau, wat leidt tot ernstige tekortkomingen in de financiële sector:

Semantische Fragmentatie: Financiële documenten (zoals jaarverslagen, auditrapporten en prospectussen) zijn vaak extreem lang (honderden pagina's). Bestaande systemen behandelen pagina's als geïsoleerde entiteiten, waardoor de logische flow en hiërarchische structuur verloren gaan (bijv. koppen worden gescheiden van hun bijbehorende tekst).
Complexe Lay-outs: Financiële documenten gebruiken vaak meerkolomige ontwerpen en complexe tabellen die over meerdere pagina's lopen. Standaard parsers lezen hier vaak dwars door kolommen heen of kunnen tabellen niet correct samenvoegen.
Auditvereisten: Financiële instellingen vereisen traceerbaarheid. Elke datapunt in een tabel moet kunnen worden gelinkt aan de exacte coördinaten in het bronbestand voor compliance en auditing. Bestaande modellen bieden zelden deze cell-level visuele referentie.
Gebrek aan Benchmarks: Er is geen specifieke benchmark voor financiële documenten die rekening houdt met deze unieke uitdagingen (extreme lengte, hiërarchie, kruis-pagina tabellen).

2. Methodologie: Agentar-Fin-OCR

Het voorgestelde systeem transformeert ongestructureerde financiële PDF's in semantisch consistente, gestructureerde outputs met audit-grade traceerbaarheid. De architectuur bestaat uit drie kerncomponenten:

A. Cross-page Contents Consolidation (Samenvoegen van inhoud over pagina's)
Om de continuïteit te herstellen die door paginabreuken wordt verbroken:

Tekstsamenvoeging: Het systeem identificeert tekstfragmenten op pagina-grenzen, verwijdert headers/footers en voegt de tekst naadloos samen.
Adaptieve Tabelsamenvoeging: Voor tabellen die over meerdere pagina's lopen, wordt een heuristische splicing-methode gebruikt. Deze baseert zich op drie criteria:
1. Structurele Alignering: Kolomdimensies moeten identiek zijn.
2. Contextuele Nabijheid: Er mogen geen tussenliggende semantische elementen (zoals ongerelateerde tekst) tussen de fragmenten zitten.
3. Adaptieve Header-Splicing: Als de volgende pagina een identieke header heeft, wordt deze genegeerd (seamless merge). Als er een nieuwe sub-header is, wordt deze behouden om de hiërarchie te bewaren.

B. Document-level Heading Hierarchy Reconstruction (DHR)
Om een globale structuur (Inhoudsopgave) te bouwen voor lange documenten:

Pseudo-TOC Aggregatie: Het systeem cropt alle koppen uit het document en plaatst ze op een virtuele pagina (een "pseudo-TOC"), waarbij visuele cues (lettergrootte, vetgedrukt) en spatiale posities (inspringing) behouden blijven.
VLM Prompting: Een Vision Language Model (VLM) analyseert deze pseudo-TOC in combinatie met de tekstuele inhoud om de hiërarchische niveaus (Hoofdstuk, Sectie, Sub-sectie) correct toe te wijzen aan de hele documentreeks, zelfs als deze over honderden pagina's verspreid is.

C. Geavanceerde Tabelparsing met Visuele Referentie

Curriculum Learning & Reinforcement Learning (GRPO): Het model wordt getraind met een difficulty-adaptieve strategie. Eerst worden eenvoudigere tabellen getraind, daarna complexere. Reinforcement Learning (GRPO) wordt gebruikt om de uitlijning van rijen en kolommen te optimaliseren, met name voor de laatste rijen/kolommen waar fouten vaak optreden.
CellBBoxRegressor: Om cellen te lokaliseren zonder externe detectoren, gebruikt het model structurele anker-tokens (de <td> tags in de gegenereerde HTML). De decoder hidden states van deze tokens worden gebruikt om direct de bounding box-coördinaten $(x, y, w, h)$ te regresseren. Dit stelt het systeem in staat om elke cel visueel terug te koppelen naar de originele PDF.

3. FinDocBench: Een Nieuwe Benchmark

Om deze systemen te evalueren, introduceert het team FinDocBench, de eerste benchmark specifiek voor financiële documenten:

Data: Bestaat uit 176 financiële documenten (6 categorieën: jaarverslagen, onderzoeksrapporten, auditrapporten, schuldemissies, prospectussen, verzekeringsdocumenten).
Kenmerken: Bevat 1.044 tabellen (waarvan 472 over meerdere pagina's), 12.467 gelabelde koppen en complexe lay-outs.
Nieuwe Metrieken:
- TocEDS: Een op edit-distance gebaseerde gelijkenis voor de structuur van de inhoudsopgave (TOC).
- Cross-page TEDS: TEDS-score voor samengevoegde tabellen over pagina-grenzen heen.
- C-IoU (Cell Intersection over Union): Meet de nauwkeurigheid van de cell-level visuele referentie.

4. Resultaten

De experimenten tonen aan dat Agentar-Fin-OCR state-of-the-art prestaties levert:

Algemene Documentparsing (OmniDocBench): Het model scoort zeer hoog op tabelparsing (TableTEDS: 92.82, TableTEDS-S: 95.88), wat een significante verbetering is ten opzichte van bestaande gespecialiseerde modellen zoals MinerU2.5 en DeepSeek-OCR2.
FinDocBench Prestaties:
- Hiërarchieherstel: De DHR-module verbetert de TOC-herkenning aanzienlijk bij lange documenten (bijv. +18.5% bij Auditrapporten) ten opzichte van tekst-only baselines.
- Tabelparsing: Bereikt een TEDS-score van 95.7 op de interne FinDocBench-set, wat de overtreffende prestaties van de curriculum learning en GRPO-strategie bevestigt.
- Visuele Referentie: De CellBBoxRegressor bereikt een hoge C-IoU (Mean IoU: 0.72), wat aantoont dat cellen nauwkeurig kunnen worden gelokaliseerd voor auditingdoeleinden.
Cross-page Samenvoeging: De heuristische splicing-logica bereikt een gemiddelde TEDS van 0.8915 voor samengevoegde tabellen, wat de robuustheid van de methode bewijst.

5. Betekenis en Conclusie

Agentar-Fin-OCR lost het "laatste mijl"-probleem op in de financiële documentverwerking door te schakelen van pagina-niveau naar document-niveau parsing.

Compliance & Audit: Door de mogelijkheid om elke datapunt terug te koppelen naar de originele pixel-coördinaten, voldoet het systeem aan de strenge traceerbaarheidseisen van de financiële sector.
Betrouwbare RAG: De herstelde globale structuur en hiërarchie maken het mogelijk om Retrieval-Augmented Generation-systemen te voeden met contextueel correcte informatie, wat essentieel is voor complexe vragen over lange rapporten.
Industriële Toepassing: Samen met FinDocBench biedt dit werk een praktische basis voor het automatiseren van financiële workflows, van audit tot compliance, en stelt een nieuwe standaard voor documentintelligentie in gespecialiseerde verticale markten.