DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model
Dit paper introduceert DianJin-OCR-R1, een redenerend visueel-taalmodel dat door het afwisselend gebruiken van eigen OCR-herkenning en deskundige hulpmiddelen, gevolgd door een verificatiestap, hallucinaties vermindert en de nauwkeurigheid van tekstherkenning in documenten significant verbetert.