cs.CV articles | Gist.Science

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

Le papier présente AutoV, un cadre léger qui améliore les modèles vision-langage en remplaçant l'ingénierie manuelle des prompts visuels par une récupération adaptative guidée par un classement basé sur la perte d'un modèle pré-entraîné, éliminant ainsi le besoin d'annotations manuelles tout en augmentant significativement les performances sur diverses tâches.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Cet article présente TreeBench, un benchmark diagnostique évaluant le raisonnement visuel ancré par des preuves traçables, et propose TreeVGR, une méthode d'apprentissage par renforcement qui améliore significativement les performances des modèles en localisation et en raisonnement explicite.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

Cet article présente GMLN-BTS, un réseau neuronal léger basé sur des graphes pour la segmentation adaptative des tumeurs cérébrales qui, grâce à ses modules innovants d'encodage, d'interaction multimodale et de raffinement, atteint des performances de pointe avec une réduction massive de 98 % des paramètres par rapport aux modèles 3D Transformer dominants.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Cet article propose EDA, un cadre théorique unifié qui étend les modèles de diffusion EDM aux bruits arbitraires pour améliorer la restauration d'images médicales et naturelles sans surcharge computationnelle, tout en démontrant une forte capacité de généralisation avec seulement cinq étapes d'échantillonnage.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

Le papier présente SAMPO, un cadre d'optimisation des préférences qui aligne les modèles de fondation en pathologie sur l'intention clinique de segmentation en adaptant l'optimisation directe des préférences (DPO) aux modèles de vision pure pour améliorer la précision et la robustesse face aux prompts imparfaits.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

Cet article propose un cadre de réglage fin régularisé par la signification des paramètres pour optimiser les trackers multi-modaux, en équilibrant efficacement plasticité et stabilité afin de surpasser les méthodes actuelles sur divers benchmarks.

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Cet article présente une méthode de navigation pour quadrotor basée sur l'apprentissage par renforcement qui, en exploitant des cartes de temps d'arrivée et une fonction de perte d'alignement de lacet, surpasse les méthodes existantes pour éviter de grands obstacles et a été validée avec succès lors de 20 vols réels en extérieur, jour et nuit, sans aucune collision.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

Cet article propose une méthode fiable pour la localisation 3D d'objets distants à partir de séquences d'images bruitées, utilisant la triangulation multi-vues ou des filtres à particules, ce qui permet une surveillance efficace des incendies de forêt par drone avec des ressources computationnelles limitées.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Le papier présente BridgeDrive, une nouvelle politique de planification de trajectoire en boucle fermée pour la conduite autonome qui utilise un pont de diffusion guidé par des ancêtres pour transformer de manière théoriquement cohérente des trajectoires grossières en plans précis, atteignant ainsi des performances de pointe sur le benchmark Bench2Drive.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

Le papier présente SphereAR, une méthode qui améliore la génération d'images par modèles autoregressifs à tokens continus en contraignant les latents sur une hypersphère pour stabiliser la variance et atteindre des performances record surpassant les modèles de diffusion et de génération masquée.

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

Cet article présente une nouvelle méthode de super-résolution vidéo spatio-temporelle continue basée sur des champs de Fourier 3D (VFF) qui, en évitant le décalage explicite des trames, permet un échantillonnage flexible à n'importe quelle résolution tout en garantissant une reconstruction sans repliement spectral et en surpassant l'état de l'art en termes de netteté, de cohérence temporelle et d'efficacité computationnelle.

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Cet article présente EgoTraj-Bench, le premier benchmark réel pour la prédiction de trajectoires en vision ego-centrique sous observations bruitées, ainsi que le modèle BiFlow qui, grâce à son mécanisme EgoAnchor, atteint des performances de pointe en réduisant significativement les erreurs de prédiction.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

Cet article propose une méthode de détection des nuages faiblement supervisée, nommée SpecMCD, qui combine des caractéristiques spectrales et un réseau profond multi-échelle pour générer des masques de nuages précis au niveau des pixels, surpassant les méthodes existantes en termes de score F1 sur des images satellitaires multispectrales.

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

VidGuard-R1 est un détecteur de vidéos générées par IA innovant qui utilise l'optimisation de politique relative de groupe (GRPO) pour surmonter les limites des méthodes supervisées traditionnelles en identifiant des incohérences physiques complexes et en fournissant des explications forensiques interprétables avec des performances de pointe en zéro-shot.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Ce papier présente SpineMed, un écosystème comprenant le jeu de données SpineMed-450k et le benchmark SpineBench, conçus pour améliorer le raisonnement diagnostique au niveau vertébral spécifique en surmontant les lacunes actuelles des modèles d'IA grâce à des données cliniques de haute qualité et à une évaluation rigoureuse.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Ce papier présente ExposureEngine, un système automatisé et orienté objet qui améliore la précision de l'analyse de visibilité des sponsors dans les retransmissions sportives en utilisant des boîtes englobantes orientées et une interface conversationnelle pour générer des rapports détaillés.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

Le papier présente TerraCodec, une famille de codecs appris préentraînés sur des données Sentinel-2 qui surpassent les méthodes classiques en compressant les images d'observation de la Terre grâce à une architecture temporelle innovante et une nouvelle méthode de « Latent Repacking » pour des débits flexibles, tout en permettant l'inpainting de nuages.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Cet article présente XFactor, le premier modèle auto-supervisé sans géométrie capable de synthèse de nouvelles vues véritablement transférable, démontrant que l'on peut dissocier la pose de la caméra du contenu de la scène et prédire des trajectoires cohérentes sur différents environnements sans recourir à des biais inductifs 3D explicites.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

Le papier présente VIST3A, un cadre général qui combine un générateur de vidéos text-to-video et un réseau de reconstruction 3D par assemblage de modèles et alignement par récompense directe, permettant ainsi une génération de scènes 3D de haute qualité et cohérente à partir de texte.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Ce papier propose DRBD-Mamba, un modèle de segmentation 3D efficace et robuste pour les tumeurs cérébrales qui améliore la précision et l'efficacité computationnelle grâce à une architecture Mamba bidirectionnelle à double résolution et à des courbes de remplissage d'espace, tout en introduisant une évaluation rigoureuse sur des plis systématiques de BraTS2023.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

← Précédent Suivant →