Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

该论文提出了一种名为 CAPL 的框架,通过引入可选择的图像令牌交互注意力机制和基于跨图像建模的偏好优化策略,有效增强了大型视觉语言模型在多图像任务中的跨图像关联感知能力,从而显著缓解了幻觉问题并提升了整体性能。

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

本文提出了 SODA(敏感性导向动态加速)方法,通过构建跨时间步、层和模块的细粒度敏感性误差建模框架,利用动态规划自适应优化缓存与剪枝策略,从而在显著提升扩散 Transformer 推理效率的同时,有效克服了现有固定启发式方法导致的生成质量下降问题。

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

该论文提出了一种名为 NuNext 的新方法,通过将细胞核检测重构为基于多模态大语言模型的“下一点预测”任务,并采用包含空间感知软监督、视觉思维链策略及强化学习微调的两阶段训练框架,在无需复杂后处理的情况下显著提升了组织病理学图像中细胞核检测的精度。

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

该论文提出了一种名为“图像间像素混洗(IPS)”的新方法,通过将多聚焦图像融合重构为像素级分类任务,利用单张清晰图像及其低通滤波版本生成无需真实多聚焦数据的合成训练集,并结合卷积神经网络与状态空间模型构建的跨图像融合网络,实现了在缺乏真实多聚焦训练数据的情况下仍能显著超越现有方法的高质量融合效果。

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

本文提出了 EyExIn 框架,通过专家感知双流编码、语义自适应门控融合及自适应深度专家注入机制,有效解决了视网膜视觉语言模型在细粒度病理感知和推理过程中因语言先验主导而产生的幻觉问题,显著提升了眼科视觉问答的精度与可信度。

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs