When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

该论文揭示了视觉大语言模型深层中存在“信息视界”现象,即视觉令牌信息随层数加深而逐渐均匀化直至消失,导致深层训练无关剪枝效果不优于随机剪枝,进而提出在深层结合随机剪枝的策略,在大幅降低计算成本的同时保持了模型的高性能。

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

本文提出了无需训练的 ReMeDI-SAM3 方法,通过引入相关性感知记忆过滤、分段插值扩展及基于特征的时序投票重识别模块,有效解决了 SAM3 在手术视频分割中因频繁遮挡和长时重入导致的身份混淆问题,并在多个数据集上实现了超越现有训练方法的零样本性能提升。

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

该研究通过分析来自五个国家的 1000 名受访者的街景图像与主观感知数据,发现人口统计学特征和个性对绿视感知影响甚微,而居住地点(反映文化、环境及经验因素)是解释客观绿量与主观感知差异的最关键因素。

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs