Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

本文提出了名为 SemVID 的训练无关视频时间定位剪枝框架,通过引入证据保留与连通性强度原则,动态分配帧级令牌预算并筛选对象、运动及上下文令牌,在显著降低计算成本的同时有效保持了关键语义证据链的完整性。

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

该论文提出了一种利用调制高斯包络以在任意 k 空间位置放置频谱支持的 Gabor 基元方法,结合低秩时空分解,实现了无需大规模训练数据即可从高度欠采样数据中高效重建具有物理可解释参数的高分辨率心脏电影 MRI 图像,其性能优于压缩感知、高斯基元及哈希网格隐式神经表示等现有基线。

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

该论文提出了首个名为 MultiHaystack 的大规模跨模态基准测试,旨在评估多模态大模型在包含 4 万多个文档、图像和视频的异构语料库中进行检索与推理的能力,并揭示了当前模型在从大规模混合数据中精准定位证据并据此推理方面存在显著瓶颈。

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

该论文提出了一种名为 LayerBind 的无需训练且即插即用的方法,通过将区域生成建模为独立层并在早期去噪阶段进行实例绑定与语义增强,实现了基于文本到图像扩散 Transformer 的精确区域布局控制、遮挡顺序管理及灵活的后期编辑能力。

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs