DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

DocCogito is een nieuw raamwerk voor documentbegrip dat globale lay-outperceptie koppelt aan gestructureerde, regio-gebaseerde redenering via een deterministische Visual-Semantic Chain en een progressieve trainingsmethode, wat leidt tot state-of-the-art resultaten op meerdere benchmarks.

Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel complexe, volgepropte pagina uit een oud boek of een ingewikkeld belastingformulier moet begrijpen. Je moet niet alleen de tekst lezen, maar ook weten waar die tekst staat, hoe de tabellen zijn opgebouwd en welke cijfers bij elkaar horen.

Vroeger waren computers (AI) hier slecht in. Ze konden wel tekst "zien", maar ze hadden geen goed gevoel voor de opmaak (de layout) en hun redenering was vaak een rommelig gedachtestroomje zonder bewijs. Het was alsof ze gissen naar het antwoord zonder de pagina echt te bestuderen.

De auteurs van dit paper, DocCogito, hebben een nieuwe manier bedacht om dit op te lossen. Hier is hoe het werkt, vertaald naar simpele taal met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde" Lezer

Stel je voor dat je een detective bent die een moordzaak moet oplossen, maar je mag alleen naar de tekst kijken, niet naar de foto's of de plattegrond van het huis. Je ziet wel woorden, maar je weet niet of een getal bij de "inkomsten" of de "uitgaven" hoort omdat je de indeling van het document niet ziet.

Bestaande AI-modellen deden dit: ze probeerden het antwoord te raden op basis van tekst, maar ze misten de context van de ruimte. Ze wisten niet dat een tabel in de rechterbovenhoek iets anders betekent dan een tabel links onderaan.

2. De Oplossing: DocCogito (De Slimme Architect)

DocCogito is als een detective die twee superkrachten heeft:

  1. Een "Blik van boven" (Layout Cognition): Voordat hij ook maar één woord leest, kijkt hij naar de hele pagina en maakt hij een mentale plattegrond. Hij weet direct: "Ah, hier is de titel, hier is een tabel, en hier staat de belangrijke datum."
  2. Een Strikt Stappenplan (VSC): In plaats van vrijuit te praten ("Ik denk dat het 50 euro is omdat..."), volgt hij een strak, machineleesbaar stappenplan.

De Vergelijking: De Bouwplaat

Stel je voor dat je een ingewikkeld meubelstuk moet bouwen.

  • Oude AI: Pakt alle schroeven en planken, probeert ze erin te draaien en hoopt dat het meubel staat. Als het mislukt, zegt hij: "Ik dacht dat dit een stoel was."
  • DocCogito:
    1. Kijkt eerst naar de plattegrond (de layout) om te zien welke onderdelen waar horen.
    2. Volgt daarna een bouwplaat (de Visual-Semantic Chain of VSC).
      • Stap 1: Kies het juiste onderdeel (bijv. "de poot").
      • Stap 2: Lees de instructie voor die poot.
      • Stap 3: Vergelijk of het past.
      • Stap 4: Bereken het eindresultaat.

Elke stap is gekoppeld aan een specifiek stukje van de pagina. De AI kan niet "wegkijken" van het bewijs; hij moet laten zien waar hij het antwoord vandaan heeft gehaald.

3. Hoe leren ze dit? (De Training)

De makers van DocCogito hebben de AI niet zomaar laten oefenen. Ze volgden een slim trainingsprogramma, net als het opleiden van een stagiair:

  • Fase 1: De Opmaak-Les: Eerst leren ze de AI alleen naar de indeling van documenten te kijken, zonder tekst. Het is alsof je een kind leert een plattegrond van een stad te lezen voordat je hem de straten laat benoemen.
  • Fase 2: Het Stappenplan: Dan leren ze de AI om vragen te beantwoorden volgens dat strakke stappenplan (Selectie -> Lezen -> Berekenen).
  • Fase 3: De "Niet Goed, Geen Geld"-methode (Rejection Sampling): Als de AI een antwoord geeft dat niet logisch is of niet past bij de plaatjes, wordt het antwoord weggegooid. Alleen de goede, logische antwoorden blijven over.
  • Fase 4: De Meesterklas (GRPO): Hier krijgen ze een extra prikkel. Als de AI niet alleen het juiste antwoord geeft, maar ook precies laat zien waar hij het vandaan haalt (bijvoorbeeld: "Ik heb dit getal hier op de pagina gevonden"), krijgen ze een extra beloning. Dit zorgt ervoor dat ze steeds beter worden in het koppelen van tekst aan de juiste plek op de pagina.

4. Waarom is dit belangrijk?

In de echte wereld, bijvoorbeeld bij juridische contracten of financiële rapporten, is het niet genoeg om het juiste antwoord te hebben. Je moet ook kunnen bewijzen waarom het antwoord klopt.

DocCogito is als een accountant die niet alleen zegt: "De winst is 1 miljoen," maar ook direct de pagina en de regel aanwijst waar dat getal staat, en uitlegt hoe hij de som heeft gemaakt. Dit maakt de AI betrouwbaarder, vooral in situaties waar fouten duur kunnen zijn.

Kort samengevat:
DocCogito is een slimme AI die eerst de structuur van een document begrijpt (de plattegrond) en daarna stap voor stap, met bewijs, het antwoord opbouwt. Het is geen giswerk meer, maar een gedetailleerde, controleerbare zoektocht naar de waarheid op de pagina.