cs.CV 篇论文 | Gist.Science

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

该论文提出了一种名为“后融合稳定器”（PFS）的轻量级模块，它作为现有鸟瞰图融合检测器的即插即用组件，通过稳定特征统计、抑制退化区域及自适应残差校正，在不改变原有架构的前提下显著提升了多模态 3D 检测在相机丢失、低光照等域偏移和传感器故障场景下的鲁棒性。

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

本文提出了名为 CBM-Suite 的方法论框架，通过引入基于熵的概念适用性度量、在概念与分类器间插入非线性层以解决线性问题、利用教师探针蒸馏缩小精度差距，以及系统分析不同视觉骨干与 VLM 的影响，全面解决了概念瓶颈模型（CBM）在概念评估、线性绕过、精度差距及组件交互研究方面的关键局限。

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

该论文提出了一种名为插值 FID（iFID）的新指标，通过检索数据集中每个样本在潜在空间中的最近邻并插值其潜在表示，成功解决了传统重建 FID 与扩散生成 FID 相关性差的问题，实现了高达 0.85 的强相关性预测。

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

本文针对缺乏理想参考答案的参考自由强化学习场景，提出了通过加权枚举错误而非构建评分标准来生成奖励的“隐式错误计数”（IEC）方法，并在虚拟试衣任务中验证了其优于传统“评分标准即奖励”（RaR）及多种基线的性能。

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

本文提出了名为 SemVID 的训练无关视频时间定位剪枝框架，通过引入证据保留与连通性强度原则，动态分配帧级令牌预算并筛选对象、运动及上下文令牌，在显著降低计算成本的同时有效保持了关键语义证据链的完整性。

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

该论文提出了一种利用调制高斯包络以在任意 k 空间位置放置频谱支持的 Gabor 基元方法，结合低秩时空分解，实现了无需大规模训练数据即可从高度欠采样数据中高效重建具有物理可解释参数的高分辨率心脏电影 MRI 图像，其性能优于压缩感知、高斯基元及哈希网格隐式神经表示等现有基线。

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

本文提出了一种名为 OWL 的新型感知函数，它仅利用视觉运动线索（如局部视觉膨胀和相对旋转）即可在无需预先知道环境或相机运动信息的情况下，实现实时的缩放 3D 场景重建与相机航向估计，从而为机器人导航及理解自然感知提供了新的理论视角。

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

该论文提出了一种基于区域感知扩散模型的伪 3D 纵向脑 MRI 病灶修复框架，通过融合多时相上下文信息，在显著提升图像感知保真度与纵向稳定性的同时，实现了比现有最先进方法快约 10 倍的修复效率。

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

该论文提出了首个名为 MultiHaystack 的大规模跨模态基准测试，旨在评估多模态大模型在包含 4 万多个文档、图像和视频的异构语料库中进行检索与推理的能力，并揭示了当前模型在从大规模混合数据中精准定位证据并据此推理方面存在显著瓶颈。

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

本文提出了名为 AVG 的框架，通过构建包含 20,000 个视频片段的高质量全球基准，利用可解释的听觉感知（将音频分解为“声学原子”）与多模态推理相结合，显著提升了全球音视频地理定位的精度。

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

本文提出了 Any2Full，一种单阶段、领域通用且模式无关的深度补全框架，它通过设计尺度感知提示编码器，将稀疏深度信息转化为提示信号以微调预训练的单目深度估计模型，从而在无需两阶段对齐的情况下实现了更优的鲁棒性与效率。

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

本文提出了一种轻量级且可解释的三维判别直方图梯度幅值（DHoGM）框架，通过融合切片级与体素级特征及低参数分类器，实现了在跨站点条件下对结构脑 MRI 运动伪影的高效、准确且鲁棒的自动检测。

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

该论文提出了一种基于自监督视觉 Transformer 的自动化流水线，将 ImageNet 训练集转换为大规模多标签数据集，在无需人工标注的情况下显著提升了模型的分类精度与下游任务迁移能力。

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

该论文提出了一种基于 CLIP 的多模态框架，通过自动对齐手术视频帧与手势文本描述，生成结构化的手术时间轴和叙事，从而减少对外科医生手动标注的依赖。

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

本文提出了 Uni-LVC，一种通过跨注意力适配模块和可靠性感知分类器，将帧间编码统一为基于参考帧条件化的帧内编码的单一模型，从而在低延迟和随机访问模式下同时实现高效且鲁棒的视频压缩。

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

本文提出了名为 Icarus 的全天气天空模型，该模型能够学习全动态范围（FDR）物理捕获的户外图像曝光范围，通过条件生成支持用户控制太阳与云层位置及纹理，从而在基于图像的照明（IBL）中实现超越现有深度学习方法的高精度、高保真度且光照方向准确的自然天空模拟。

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

该论文提出了一种名为 SCORE 的新方法，通过计算各模型主奇异向量的共享正交基并剪枝冲突分量，有效解决了多领域微调模型合并时的子空间冲突问题，从而显著提升了模型在未见领域上的泛化性能。

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

该论文提出了一种名为 LayerBind 的无需训练且即插即用的方法，通过将区域生成建模为独立层并在早期去噪阶段进行实例绑定与语义增强，实现了基于文本到图像扩散 Transformer 的精确区域布局控制、遮挡顺序管理及灵活的后期编辑能力。

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

该论文提出了 BM25-V 方法，通过将稀疏自编码器生成的视觉词激活与 Okapi BM25 评分相结合，利用逆文档频率（IDF）加权机制在无需微调的情况下实现了高效、可解释且高精度的图像检索。

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

该论文提出了一种包含六个指标的频谱诊断框架，揭示了在 2D 转 3D 重建中，特征上采样器的性能更取决于频谱结构的保持而非空间细节的增强，并发现结构频谱一致性是预测新视图合成质量的最强指标。

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs