Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

L'article présente SemVID, un cadre d'élagage de tokens sans entraînement pour l'ancrage temporel vidéo qui préserve la chaîne de preuves sémantiques en allouant dynamiquement des budgets de tokens et en sélectionnant des tokens d'objets, de mouvement et de contexte, permettant ainsi d'accélérer considérablement le traitement tout en maintenant une précision élevée.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Cet article propose une méthode de reconstruction accélérée pour l'IRM cardiaque ciné utilisant des primitives de Gabor, qui combinent l'interprétabilité géométrique des gaussiennes avec une capacité à représenter les hautes fréquences, surpassant ainsi les approches existantes tout en exploitant la redondance spatio-temporelle via une décomposition en bases de rang faible.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Cet article présente un cadre novateur d'inpainting longitudinal des lésions en IRM cérébrale basé sur des modèles de diffusion 3D sensibles aux régions, qui améliore significativement la fidélité temporelle et la cohérence anatomique tout en offrant une accélération de traitement dix fois supérieure aux méthodes existantes.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Le papier présente MultiHaystack, le premier benchmark conçu pour évaluer la capacité des modèles de langage multimodaux à récupérer et raisonner sur des corpus hétérogènes à grande échelle, révélant que la récupération d'informations pertinentes reste un goulot d'étranglement majeur limitant leurs performances réelles.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Ce papier présente un cadre novateur pour la géolocalisation audiovisuelle qui surpasse les méthodes unimodales en combinant un benchmark vidéo mondial (AVG), une décomposition audio interprétable en « atomes acoustiques », un raisonnement multimodal optimisé par GRPO et une prédiction de précision sur la sphère, démontrant ainsi l'apport crucial des indices auditifs pour résoudre les ambiguïtés géographiques.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Le papier présente Any2Full, un cadre de complétion de profondeur en une seule étape qui adapte un modèle d'estimation de profondeur monoculaire pré-entraîné via un encodeur d'invite sensible à l'échelle pour générer des prédictions denses et robustes à partir de mesures éparses, surpassant ainsi les méthodes existantes en précision et en efficacité.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

Le papier présente LayerBind, une méthode sans entraînement et plug-and-play pour les transformateurs de diffusion, qui permet un contrôle précis de la disposition régionale et de l'ordre d'occlusion dans la génération d'images par texte en liant des instances à différentes couches durant les étapes précoces du processus.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Ce papier présente BM25-V, une méthode de récupération d'images qui applique le scoring Okapi BM25 aux activations de mots visuels issues d'un auto-encodeur épars sur des caractéristiques de Vision Transformer, permettant ainsi d'atteindre une précision quasi équivalente aux méthodes denses tout en offrant une grande efficacité et une interprétabilité accrue grâce à une pondération par fréquence inverse de document.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Cet article propose un cadre architectural unifié pour l'imagerie polarimétrique qui, grâce à un traitement conjoint unique des images et des paramètres de Stokes, surpasse les méthodes existantes en éliminant l'accumulation d'erreurs et en garantissant la cohérence physique pour diverses dégradations telles que le bruit faible lumière, le flou de mouvement et les artefacts de mosaïquage.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs