cs.CV articles | Gist.Science

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

L'article présente SemVID, un cadre d'élagage de tokens sans entraînement pour l'ancrage temporel vidéo qui préserve la chaîne de preuves sémantiques en allouant dynamiquement des budgets de tokens et en sélectionnant des tokens d'objets, de mouvement et de contexte, permettant ainsi d'accélérer considérablement le traitement tout en maintenant une précision élevée.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Cet article propose une méthode de reconstruction accélérée pour l'IRM cardiaque ciné utilisant des primitives de Gabor, qui combinent l'interprétabilité géométrique des gaussiennes avec une capacité à représenter les hautes fréquences, surpassant ainsi les approches existantes tout en exploitant la redondance spatio-temporelle via une décomposition en bases de rang faible.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

Ce papier présente OWL, une nouvelle approche analytique et temps réel qui permet la reconstruction 3D d'une scène et la détermination de l'orientation de la caméra à partir de simples indices de mouvement visuel, sans nécessiter de connaissances préalables sur l'environnement ou le mouvement de la caméra.

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Cet article présente un cadre novateur d'inpainting longitudinal des lésions en IRM cérébrale basé sur des modèles de diffusion 3D sensibles aux régions, qui améliore significativement la fidélité temporelle et la cohérence anatomique tout en offrant une accélération de traitement dix fois supérieure aux méthodes existantes.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Le papier présente MultiHaystack, le premier benchmark conçu pour évaluer la capacité des modèles de langage multimodaux à récupérer et raisonner sur des corpus hétérogènes à grande échelle, révélant que la récupération d'informations pertinentes reste un goulot d'étranglement majeur limitant leurs performances réelles.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Ce papier présente un cadre novateur pour la géolocalisation audiovisuelle qui surpasse les méthodes unimodales en combinant un benchmark vidéo mondial (AVG), une décomposition audio interprétable en « atomes acoustiques », un raisonnement multimodal optimisé par GRPO et une prédiction de précision sur la sphère, démontrant ainsi l'apport crucial des indices auditifs pour résoudre les ambiguïtés géographiques.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Le papier présente Any2Full, un cadre de complétion de profondeur en une seule étape qui adapte un modèle d'estimation de profondeur monoculaire pré-entraîné via un encodeur d'invite sensible à l'échelle pour générer des prédictions denses et robustes à partir de mesures éparses, surpassant ainsi les méthodes existantes en précision et en efficacité.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

Cet article propose un cadre léger et interprétable pour la détection des artefacts de mouvement dans les IRM cérébrales structurales, en combinant des caractéristiques 2D et 3D basées sur l'histogramme discriminatif des magnitudes de gradient pour obtenir une évaluation de la qualité robuste et généralisable avec un nombre minimal de paramètres.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

Cette présentation propose un pipeline automatisé utilisant des Transformers de vision auto-supervisés pour convertir l'ensemble de données ImageNet en annotations multilabels de haute qualité sans intervention humaine, améliorant ainsi significativement la précision des modèles et leur transférabilité vers d'autres tâches.

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

Ce papier propose une méthode basée sur un cadre multimodal CLIP pour générer automatiquement des chronologies et des récits chirurgicaux structurés à partir de vidéos opératoires, réduisant ainsi la nécessité d'annotations manuelles fastidieuses.

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

Le papier présente Uni-LVC, une méthode unifiée de compression vidéo apprise qui intègre le codage intra et inter dans un seul modèle grâce à une adaptation par attention croisée et une classification fiable, surpassant ainsi les performances des codecs existants tout en maintenant une efficacité computationnelle comparable.

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

Ce papier présente Icarus, un modèle de ciel tout-temps basé sur l'apprentissage profond capable de générer des cartes d'environnement en pleine plage dynamique (FDR) photoréalistes et contrôlables par l'utilisateur, surmontant ainsi les limitations des modèles actuels dans la reproduction précise des zones solaires et nuageuses pour l'éclairage basé sur l'image (IBL).

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

Ce papier présente SCORE, une méthode de fusion de modèles qui améliore la généralisation de domaine en résolvant les conflits de sous-espaces singuliers entre modèles entraînés sur des distributions différentes grâce à la projection dans une base orthogonale partagée.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

Le papier présente LayerBind, une méthode sans entraînement et plug-and-play pour les transformateurs de diffusion, qui permet un contrôle précis de la disposition régionale et de l'ordre d'occlusion dans la génération d'images par texte en liant des instances à différentes couches durant les étapes précoces du processus.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Ce papier présente BM25-V, une méthode de récupération d'images qui applique le scoring Okapi BM25 aux activations de mots visuels issues d'un auto-encodeur épars sur des caractéristiques de Vision Transformer, permettant ainsi d'atteindre une précision quasi équivalente aux méthodes denses tout en offrant une grande efficacité et une interprétabilité accrue grâce à une pondération par fréquence inverse de document.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

Cette étude introduit un cadre diagnostique spectral pour démontrer que la préservation de la cohérence spectrale des caractéristiques, plutôt que l'enrichissement des détails spatiaux, est le facteur déterminant pour la qualité de la reconstruction 3D dans les pipelines 2D vers 3D.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

L'article présente EventGeM, une méthode de reconnaissance visuelle de lieux basée sur des caméras d'événements qui fusionne des caractéristiques globales et locales via des modèles de vision pré-entraînés pour atteindre des performances de pointe en temps réel et en conditions variées.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

Ce papier propose LIPAR, une méthode sans entraînement qui accélère la génération vidéo en éliminant les redondances temporelles des patches latents tout en restaurant les valeurs d'attention pour préserver la qualité visuelle.

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Ce papier présente MaCS, un cadre de régularisation simple et indépendant de l'architecture qui améliore simultanément la calibration et la robustesse des modèles de vision en combinant une pénalité de marge dans l'espace des logits et une régularisation de consistance locale, sans nécessiter de données supplémentaires ni modifier l'inférence.

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Cet article propose un cadre architectural unifié pour l'imagerie polarimétrique qui, grâce à un traitement conjoint unique des images et des paramètres de Stokes, surpasse les méthodes existantes en éliminant l'accumulation d'erreurs et en garantissant la cohérence physique pour diverses dégradations telles que le bruit faible lumière, le flou de mouvement et les artefacts de mosaïquage.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

← Précédent Suivant →