DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

Dit paper introduceert DianJin-OCR-R1, een redenerend visueel-taalmodel dat door het afwisselend gebruiken van eigen OCR-herkenning en deskundige hulpmiddelen, gevolgd door een verificatiestap, hallucinaties vermindert en de nauwkeurigheid van tekstherkenning in documenten significant verbetert.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat overmoedige assistent hebt die foto's van documenten kan lezen. Deze assistent, een Vision-Language Model (VLM), is fantastisch in het begrijpen van de context. Hij weet dat als er "Bank" en "Rekening" op een foto staat, het waarschijnlijk om een bankafschrift gaat.

Maar deze assistent heeft een groot gebrek: hij is zo gewend aan hoe taal moet klinken, dat hij soms woorden "uit zijn duim zuigt" die er niet op de foto staan. Hij hallucineert. Als hij een vage handtekening ziet, denkt hij misschien: "Ah, dit is vast 'Jan Jansen'", terwijl er eigenlijk "J. Janssen" staat. Hij vertrouwt te veel op wat hij al weet, en te weinig op wat hij echt ziet.

Aan de andere kant heb je de ouderwetse OCR-specialisten. Dit zijn als het ware de "briljante maar stijve boekhouders". Ze kijken alleen naar de pixels en de lijntjes. Ze maken bijna nooit fouten door hallucinatie, maar ze begrijpen de context niet. Als ze een rare letter zien, zeggen ze "ik zie een rare vorm" in plaats van "oh, dat is waarschijnlijk een 'g'".

De Oplossing: DianJin-OCR-R1 (De Slimme Redenerende Detective)

De onderzoekers van Alibaba hebben een nieuwe methode bedacht, genaamd DianJin-OCR-R1. Ze hebben een manier gevonden om de slimme, context-kunnende assistent te trainen om te werken als een detective die niet alleen giswerk doet, maar ook bewijs verzamelt.

Hier is hoe het werkt, stap voor stap, met een simpele analogie:

1. De Eerste Gissing (Het "Denk"-stadium)

Stel je voor dat je een moeilijke handgeschreven brief moet lezen.

  • De assistent kijkt eerst zelf: Hij zegt: "Ik denk dat hier '1995' staat." (Dit is zijn eerste gedachte, of Chain of Thought).
  • Het probleem: Hij is niet 100% zeker, maar hij durft het niet toe te geven.

2. Het Hulpje Halen (Het "Tool"-stadium)

In plaats van direct een antwoord te geven, zegt de assistent: "Wacht even, ik ga even een expert bellen."

  • Hij roept andere, gespecialiseerde modellen (de "ouderwetse boekhouders") aan om hun mening te vragen.
  • Die experts zeggen: "Wij zien '1996'."
  • De assistent noteert dit: "Oké, de experts zeggen 1996."

3. Het Tweede Kijken (Het "Nadenken" of Rethink-stadium)

Dit is het magische moment. De assistent wordt nu aangespoord om opnieuw naar de foto te kijken, maar nu met de kennis van de experts.

  • Hij denkt: "Ik zei 1995, maar de experts zeiden 1996. Laten we nog eens heel goed kijken naar die laatste cijfers."
  • Hij vergelijkt zijn eigen visie met die van de experts. Misschien ziet hij nu dat de '5' inderdaad meer op een '6' lijkt als je de context van de experts meeneemt.
  • Hij zegt: "Ah, ik heb het mis. De experts hadden gelijk, het is 1996. Ik had te veel vertrouwen in mijn eigen gevoel."

4. Het Definitieve Antwoord

Nu, met alle bewijsmateriaal (zijn eigen kijk, de experts' kijk, en zijn eigen heroverweging), geeft hij het juiste antwoord: "Het is 1996."

Waarom is dit zo slim?

  • Het leert de assistent om te twijfelen: In plaats van blindelings te vertrouwen op wat hij "weet", leert hij om zijn eigen visie te controleren.
  • Het gebruikt de beste tools: Als een expert-model beter is in het lezen van handgeschreven cijfers, gebruikt de assistent die hulp. Hij hoeft niet zelf alles perfect te kunnen; hij moet wel weten wie hij moet vragen.
  • Het kost minder geld: In plaats van de hele assistent opnieuw te trainen (wat heel duur is), kunnen ze gewoon de "experts" (de tools) vervangen door betere versies. De assistent leert dan automatisch om die betere experts te gebruiken.

De Resultaten

De onderzoekers hebben dit getest op moeilijke taken, zoals het lezen van zegels (vaak met rare letters), tabellen (met veel lijntjes) en wiskundige formules.

Het resultaat? De nieuwe "detective" (DianJin-OCR-R1) was veel beter dan:

  1. De assistent zonder deze methode (die veel hallucineerde).
  2. De oude, stijve experts (die de context misten).
  3. Zelfs de beste modellen die er nu op de markt zijn.

Kortom: DianJin-OCR-R1 is als het geven van een spiegel aan een slimme AI. Het dwingt de AI om niet alleen te praten, maar echt te kijken, te twijfelen, advies in te winnen bij specialisten, en pas dan een oordeel te vellen. Hierdoor maakt hij veel minder fouten en wordt hij veel betrouwbaarder voor het lezen van documenten.