When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

该论文揭示了视觉大语言模型深层中存在“信息视界”现象,即视觉令牌信息随层数加深而逐渐均匀化直至消失,导致深层训练无关剪枝效果不优于随机剪枝,进而提出在深层结合随机剪枝的策略,在大幅降低计算成本的同时保持了模型的高性能。

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

本文提出了无需训练的 ReMeDI-SAM3 方法,通过引入相关性感知记忆过滤、分段插值扩展及基于特征的时序投票重识别模块,有效解决了 SAM3 在手术视频分割中因频繁遮挡和长时重入导致的身份混淆问题,并在多个数据集上实现了超越现有训练方法的零样本性能提升。

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

该研究通过分析来自五个国家的 1000 名受访者的街景图像与主观感知数据,发现人口统计学特征和个性对绿视感知影响甚微,而居住地点(反映文化、环境及经验因素)是解释客观绿量与主观感知差异的最关键因素。

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

该论文提出了一种结合多头选择性状态空间模型与轻量级通道 MLP 的高效混合扫描视觉 Mamba 框架,通过极低的计算成本在 7T 脑部和 1.5T 前列腺 MRI 超分辨率任务中实现了超越现有方法的精度与解剖细节保留能力。

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

本文提出了 DrivingGen,这是首个针对自动驾驶生成式世界模型的综合基准,通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标,解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

该论文提出了一种基于 Swin Transformer 和序列到序列解码器的轻量级两阶段多任务视觉语言框架,通过先训练后冻结视觉编码器的策略,在作物病害视觉问答任务中实现了接近完美的分类精度、优异的语言生成能力及良好的可解释性,并在外部基准测试中展现了出色的泛化性能。

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

本文提出了名为 R^4 的自改进智能体框架,通过路由、检索、反思与修复四个协同智能体,在不进行梯度微调的情况下显著提升了大型视觉语言模型在医学影像(如胸部 X 光)报告生成与弱监督检测任务中的准确性、安全性及空间定位能力。

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

本文通过审计和数字民族志研究发现,广泛用于训练视觉生成模型的 LAION 美学预测器(LAP)存在显著的性别、性取向及文化偏见,其“算法凝视”强化了西方艺术史中的帝国与男性凝视,因此呼吁开发者摒弃单一的美学标准,转向更具包容性的多元评估体系。

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

本文提出了专为移动设备设计的 S2DiT(流式三明治扩散 Transformer),通过混合高效注意力机制、预算感知的动态规划搜索以及 2 合 1 蒸馏框架,在 iPhone 上实现了超过 10 FPS 的实时流式视频生成,同时达到了与顶尖服务器模型相当的高质量。

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

本文针对视觉 - 语言 - 动作(VLA)模型中因模态失衡导致的“虚假完成”问题,提出了首个评估基准套件,并设计了通过引入任务阶段感知视觉线索来动态平衡视觉与本体感觉的 ReViP 框架,显著提升了模型在扰动下的鲁棒性与任务成功率。

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

本文提出了 ScenePilot-Bench,这是一个基于 3847 小时多粒度标注驾驶视频构建的大规模基准,旨在通过涵盖场景理解、空间感知、运动规划及安全评估的四维体系,全面评估视觉语言模型在自动驾驶场景中的能力与局限。

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

本文提出了名为 MeanCache 的训练无关缓存框架,通过利用缓存的 Jacobian-向量积构建平均速度以替代瞬时速度,并配合轨迹稳定性调度策略,在 FLUX.1、Qwen-Image 和 HunyuanVideo 等模型上实现了显著加速(最高达 4.56 倍)的同时保持了优于现有基线的生成质量。

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG