DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model
Il paper presenta DianJin-OCR-R1, un modello visione-linguaggio potenziato dal ragionamento che combina capacità di riconoscimento interne con l'uso di strumenti esterni e un processo di "ripresa" visiva per ridurre le allucinazioni e migliorare l'accuratezza nell'OCR rispetto ai modelli tradizionali e ai VLM non ragionanti.