From Press to Pixels: Evolving Urdu Text Recognition

本文针对乌尔都语报纸中 Nastaliq 字体、多栏排版及低分辨率扫描带来的识别挑战,提出了结合 YOLOv11x 文本块提取与 SwinIR 超分辨率增强的预处理方案,并发布了包含近万句标注数据的乌尔都语报纸基准(UNB),通过系统对比证实了微调大语言模型(如 GPT-4o 和 Gemini-2.5-Pro)在低资源复杂脚本识别任务中显著优于传统 OCR 系统。

Samee Arif, Sualeha Farid2026-03-05💻 cs