TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression

本文提出了 TextBoost 方法,通过引入由 OCR 提取并作为辅助信息传输的文本语义引导,利用自适应过滤、注意力融合及正则化损失等策略,在超低比特率图像压缩中实现了小字体场景文本保真度与整体视觉质量的显著提升,有效解决了局部文本精度与全局图像质量之间的权衡难题。

Bingxin Wang, Yuan Lan, Zhaoyi Sun + 2 more2026-03-05💻 cs

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

本文提出了 Real5-OmniDocBench,这是首个对 OmniDocBench v1.5 进行全规模物理重建的基准测试,通过覆盖扫描、形变、屏幕拍摄、光照和倾斜五种真实场景,首次实现了对文档解析性能下降因素的精确归因,揭示了当前视觉语言模型在真实物理世界中的显著差距。

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs