AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

AgenticOCR is een dynamisch, query-gedreven OCR-systeem dat de efficiëntie en nauwkeurigheid van visuele Retrieval-Augmented Generation verbetert door alleen relevante documentsecties te analyseren in plaats van volledige pagina's te verwerken.

Zhengren Wang, Dongsheng Ma, Huaping Zhong, Jiayu Li, Wentao Zhang, Bin Wang, Conghui He

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, rommelige bibliotheek binnenstapt met duizenden boeken. Je hebt een specifieke vraag, bijvoorbeeld: "Hoeveel geld heeft deze firma verdiend in 2023?"

In de oude manier van werken (de traditionele OCR en RAG-systemen), zou de bibliothecaris (het computerprogramma) het hele boek van de eerste tot de laatste pagina uit elkaar halen, alles in één grote stapel gooien en zeggen: "Hier is het hele boek, zoek het zelf maar uit."

Het probleem? Je moet nu door 300 pagina's met saaie juridische tekst, advertenties en lege witruimtes bladeren om op één klein getal te komen. Het computerprogramma wordt hierdoor overbelast, raakt in de war door alle "ruis" en maakt soms fouten omdat het te veel informatie tegelijk moet verwerken.

AgenticOCR is de slimme, nieuwe bibliothecaris die dit probleem oplost. Hier is hoe het werkt, in gewone taal:

1. Van "Alles Lezen" naar "Alleen Kijken waar het Moet"

Stel je voor dat AgenticOCR een detective is met een vergrootglas. In plaats van het hele boek te scannen, kijkt deze detective eerst naar de vraag.

  • Vraag: "Hoeveel geld verdiend?"
  • Actie: De detective zegt: "Ah, ik zie een tabel met cijfers op pagina 42. Ik ga daarheen, ik zoom in op die tabel, draai hem eventueel recht als hij scheef staat, en lees alleen die regels voor me."

Het systeem leest niet de hele pagina. Het pakt alleen het stukje papier (de "evidence") dat relevant is voor jouw vraag. Dit noemen ze "on-demand decompression": het maakt alleen de informatie leesbaar die je nu nodig hebt.

2. Het "Zoom- en Draai-Gereedschap"

In het paper wordt een speciaal gereedschap beschreven, de image_zoom_and_ocr_tool.

  • De Metafoor: Stel je voor dat je een oude, krullende krant hebt. Je wilt een klein advertentietje lezen, maar de tekst is te klein en de krant ligt scheef.
  • De Oude Manier: Je probeert de hele krant te scannen met een scanner die alles in één keer vastlegt (vaak wazig of onleesbaar).
  • De AgenticOCR Manier: Je pakt de krant, vouwt hem open op de juiste plek, draait hem recht, zet een vergrootglas erop en leest alleen die ene advertentie.

Dit gebeurt digitaal. Het systeem kan een afbeelding van een document "inzoomen", roteren (draaien) en dan pas de tekst eruit halen. Dit zorgt voor veel scherper en accurater lezen.

3. Waarom is dit zo slim? (De "Signal-to-Noise" Ratio)

Stel je voor dat je een radio luistert.

  • Oude methode: Je hoort het hele station, inclusief reclames, stiltes en andere zenders die erdoorheen kraakken. Het echte nieuws (het signaal) gaat hierdoor verloren in de ruis.
  • AgenticOCR: De radio schakelt direct over op het exacte moment van het nieuwsbericht. Geen ruis, geen reclame, alleen het pure nieuws.

Door alleen het relevante stukje te laten zien aan het grote taalmodel (de "generator"), wordt het antwoord veel nauwkeuriger. Het model hoeft niet te gissen tussen alle rommel; het krijgt precies de bewijsstukken die het nodig heeft.

4. De Resultaten

In de proeven die in het paper worden beschreven, werkt dit systeem als een wonder:

  • Het is sneller omdat het minder informatie hoeft te verwerken.
  • Het is nauwkeuriger omdat het niet wordt afgeleid door irrelevante tekst.
  • Het kan zelfs fouten voorkomen (hallucinaties) omdat het zich baseert op scherpe, geselecteerde bewijsstukken in plaats van een vaag beeld van een hele pagina.

Samenvattend

AgenticOCR is als een slimme assistent die voor jou de stapel papieren sorteert. In plaats van jou een hele doos met losse bladen te geven, pakt hij alleen de drie briefjes eruit die antwoord geven op je vraag, legt ze netjes voor je neer en zegt: "Hier is het antwoord, ik heb de rest voor je weggelaten zodat je niet in de war raakt."

Het is een stap van "blind alles scannen" naar "slim en gericht zoeken", wat essentieel is voor het lezen van complexe documenten zoals financiële rapporten of technische handleidingen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →