Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

该论文提出了一种名为“后融合稳定器”(PFS)的轻量级模块,它作为现有鸟瞰图融合检测器的即插即用组件,通过稳定特征统计、抑制退化区域及自适应残差校正,在不改变原有架构的前提下显著提升了多模态 3D 检测在相机丢失、低光照等域偏移和传感器故障场景下的鲁棒性。

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

本文提出了名为 CBM-Suite 的方法论框架,通过引入基于熵的概念适用性度量、在概念与分类器间插入非线性层以解决线性问题、利用教师探针蒸馏缩小精度差距,以及系统分析不同视觉骨干与 VLM 的影响,全面解决了概念瓶颈模型(CBM)在概念评估、线性绕过、精度差距及组件交互研究方面的关键局限。

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

本文提出了名为 SemVID 的训练无关视频时间定位剪枝框架,通过引入证据保留与连通性强度原则,动态分配帧级令牌预算并筛选对象、运动及上下文令牌,在显著降低计算成本的同时有效保持了关键语义证据链的完整性。

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

该论文提出了一种利用调制高斯包络以在任意 k 空间位置放置频谱支持的 Gabor 基元方法,结合低秩时空分解,实现了无需大规模训练数据即可从高度欠采样数据中高效重建具有物理可解释参数的高分辨率心脏电影 MRI 图像,其性能优于压缩感知、高斯基元及哈希网格隐式神经表示等现有基线。

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

该论文提出了首个名为 MultiHaystack 的大规模跨模态基准测试,旨在评估多模态大模型在包含 4 万多个文档、图像和视频的异构语料库中进行检索与推理的能力,并揭示了当前模型在从大规模混合数据中精准定位证据并据此推理方面存在显著瓶颈。

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

该论文提出了一种名为 LayerBind 的无需训练且即插即用的方法,通过将区域生成建模为独立层并在早期去噪阶段进行实例绑定与语义增强,实现了基于文本到图像扩散 Transformer 的精确区域布局控制、遮挡顺序管理及灵活的后期编辑能力。

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs