Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

Het artikel introduceert SemVID, een trainingsvrij raamwerk voor semantische toewijzing van bewijsmateriaal dat door het behoud van object-, bewegings- en contexttokens de nauwkeurigheid van video-temporale gronding behoudt terwijl het het aantal visuele tokens drastisch reduceert en de verwerkingssnelheid aanzienlijk verbetert.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Dit artikel introduceert Gabor-primitieven voor versnelde reconstructie van cardiale cine-MRI, die door het moduleren van Gaussische enveloppen met complexe exponentiële functies en het ontleden van spatiotemporele redundantie, een compacte en fysisch interpreteerbare representatie bieden die bestaande methoden zoals Compressed Sensing en Implicit Neural Representations overtreft.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Het paper introduceert MultiHaystack, een nieuw benchmark met meer dan 46.000 multimodale documenten, afbeeldingen en video's om de prestaties van multimodale grote taalmodellen te evalueren bij het ophalen van relevante bewijsstukken uit grote verzamelingen en het redeneren daarover, waarbij blijkt dat de huidige modellen sterk presteren bij gegeven bewijs maar aanzienlijk falen bij het zelf vinden van dat bewijs.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

Het paper introduceert LayerBind, een trainingsvrije methode voor Diffusion Transformers die door het modelleren van regionale generatie als distincte lagen en het binden daarvan tijdens het generatieproces, nauwkeurige controle biedt over de lay-out en het occlusie-ordening van afbeeldingen zonder kwaliteitsverlies.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

Dit paper introduceert LIPAR, een trainingsvrij kader dat de rekentijd voor videogeneratie verlaagt door tijdsredundantie in latente patches te omzeilen en een nieuwe Attention Recovery-mechanisme te gebruiken om visuele artefacten te voorkomen, waardoor de doorvoer met 1,45 keer toeneemt zonder kwaliteitsverlies.

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Dit artikel introduceert een unificerend architecturaal raamwerk dat door middel van enkelvoudige, fysisch consistente beeld-Stokes-verwerking state-of-the-art prestaties bereikt bij het herstellen van gepolariseerde beelden die lijden aan diverse degradaties zoals ruis, bewegingsonscherpte en mosaïekartefacten.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs