SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

本文提出了一种名为 SJD-PV 的训练-free 加速框架,通过分析训练语料中的 token 共现统计规律构建语义连贯的视觉短语,并利用短语级联合验证机制替代传统的独立 token 验证,从而在保持图像生成质量的同时显著降低了自回归图像模型的推理延迟。

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本文提出了名为“叙事编织者(Narrative Weaver)”的新框架,通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制,并发布了首个电商广告视频分镜数据集(EAVSD),从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

该论文提出了一种名为 HARP 的深度学习框架,通过仅在可移动的扩散体模上进行训练,成功消除了多站点体内扩散 MRI 数据间的扫描仪差异,从而无需依赖复杂且难以获取的多站点人体受试者队列即可实现数据标准化。

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

该论文提出利用眼动追踪数据作为监督信号,通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程,从而显著提升了模型在医学影像推理任务中的性能与泛化能力。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

该论文提出了科学图像质量评估(SIQA)框架,通过构建包含知识(科学有效性与完整性)和感知(认知清晰度与学科规范性)的双维评估体系及 SIQA 挑战基准,揭示了现有多模态大模型在科学图像评分一致性上表现良好但科学理解能力不足的差距,从而强调了多维评估对于科学图像质量判断的必要性。

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs