SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

本文提出了一种名为 SJD-PV 的训练-free 加速框架,通过分析训练语料中的 token 共现统计规律构建语义连贯的视觉短语,并利用短语级联合验证机制替代传统的独立 token 验证,从而在保持图像生成质量的同时显著降低了自回归图像模型的推理延迟。

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

该论文提出了一种利用加权光谱角距离损失函数的无监督 CNN 自编码器,用于对历史油画(如根特祭坛画)横截面的 ATR-μFTIR 高光谱图像进行盲解混,从而在克服大气干扰和采集伪影的同时,实现了对复杂混合光谱中端元光谱及其丰度图的自动、客观提取。

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

本文提出了名为 TimeSpot 的基准测试,旨在评估视觉语言模型在真实世界场景下仅凭视觉输入推断地理位置和时间信息的能力,结果显示当前最先进的模型在此类任务上表现不足,亟需新方法以实现鲁棒的地理时空理解。

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本文提出了名为“叙事编织者(Narrative Weaver)”的新框架,通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制,并发布了首个电商广告视频分镜数据集(EAVSD),从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs