Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

本文提出了名为 MIGM-Shortcut 的新方法,通过引入一个融合历史特征与采样 token 的轻量级模型来学习特征演化的平均速度场,从而在保持生成质量的同时显著加速了掩码图像生成模型(如在 Lumina-DiMOO 上实现超 4 倍加速),有效解决了现有缓存方案在激进加速下误差过大的问题。

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

本文提出了 AgenticOCR,一种将 OCR 从静态全量处理转变为查询驱动的按需提取的动态解析范式,通过智能识别并仅提取感兴趣区域,有效解决了视觉文档检索增强生成(RAG)中因页面级检索导致的上下文冗余与幻觉问题,从而显著提升了长文档理解的效率与准确性。

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL