From Press to Pixels: Evolving Urdu Text Recognition

本文针对乌尔都语报纸中 Nastaliq 字体、多栏排版及低分辨率扫描带来的识别挑战,提出了结合 YOLOv11x 文本块提取与 SwinIR 超分辨率增强的预处理方案,并发布了包含近万句标注数据的乌尔都语报纸基准(UNB),通过系统对比证实了微调大语言模型(如 GPT-4o 和 Gemini-2.5-Pro)在低资源复杂脚本识别任务中显著优于传统 OCR 系统。

Samee Arif, Sualeha Farid2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

本文提出了一种名为快速等变成像(FEI)的新型无监督学习框架,该方法通过结合拉格朗日乘子法与即插即用去噪器,在无需真实标签数据的情况下,实现了比传统等变成像快约 10 倍的训练速度,并显著提升了 X 射线 CT 重建和图像修复等任务的性能及泛化能力。

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG