cs.CV articles | Gist.Science

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

Cet article propose un cadre de réglage fin régularisé par la signification des paramètres pour optimiser les trackers multi-modaux, en équilibrant efficacement plasticité et stabilité afin de surpasser les méthodes actuelles sur divers benchmarks.

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Cet article présente une méthode de navigation pour quadrotor basée sur l'apprentissage par renforcement qui, en exploitant des cartes de temps d'arrivée et une fonction de perte d'alignement de lacet, surpasse les méthodes existantes pour éviter de grands obstacles et a été validée avec succès lors de 20 vols réels en extérieur, jour et nuit, sans aucune collision.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

Cet article propose une méthode fiable pour la localisation 3D d'objets distants à partir de séquences d'images bruitées, utilisant la triangulation multi-vues ou des filtres à particules, ce qui permet une surveillance efficace des incendies de forêt par drone avec des ressources computationnelles limitées.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Le papier présente BridgeDrive, une nouvelle politique de planification de trajectoire en boucle fermée pour la conduite autonome qui utilise un pont de diffusion guidé par des ancêtres pour transformer de manière théoriquement cohérente des trajectoires grossières en plans précis, atteignant ainsi des performances de pointe sur le benchmark Bench2Drive.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

Le papier présente SphereAR, une méthode qui améliore la génération d'images par modèles autoregressifs à tokens continus en contraignant les latents sur une hypersphère pour stabiliser la variance et atteindre des performances record surpassant les modèles de diffusion et de génération masquée.

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

Cet article présente une nouvelle méthode de super-résolution vidéo spatio-temporelle continue basée sur des champs de Fourier 3D (VFF) qui, en évitant le décalage explicite des trames, permet un échantillonnage flexible à n'importe quelle résolution tout en garantissant une reconstruction sans repliement spectral et en surpassant l'état de l'art en termes de netteté, de cohérence temporelle et d'efficacité computationnelle.

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Cet article présente EgoTraj-Bench, le premier benchmark réel pour la prédiction de trajectoires en vision ego-centrique sous observations bruitées, ainsi que le modèle BiFlow qui, grâce à son mécanisme EgoAnchor, atteint des performances de pointe en réduisant significativement les erreurs de prédiction.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

Cet article propose une méthode de détection des nuages faiblement supervisée, nommée SpecMCD, qui combine des caractéristiques spectrales et un réseau profond multi-échelle pour générer des masques de nuages précis au niveau des pixels, surpassant les méthodes existantes en termes de score F1 sur des images satellitaires multispectrales.

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

VidGuard-R1 est un détecteur de vidéos générées par IA innovant qui utilise l'optimisation de politique relative de groupe (GRPO) pour surmonter les limites des méthodes supervisées traditionnelles en identifiant des incohérences physiques complexes et en fournissant des explications forensiques interprétables avec des performances de pointe en zéro-shot.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Ce papier présente SpineMed, un écosystème comprenant le jeu de données SpineMed-450k et le benchmark SpineBench, conçus pour améliorer le raisonnement diagnostique au niveau vertébral spécifique en surmontant les lacunes actuelles des modèles d'IA grâce à des données cliniques de haute qualité et à une évaluation rigoureuse.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Ce papier présente ExposureEngine, un système automatisé et orienté objet qui améliore la précision de l'analyse de visibilité des sponsors dans les retransmissions sportives en utilisant des boîtes englobantes orientées et une interface conversationnelle pour générer des rapports détaillés.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

Le papier présente TerraCodec, une famille de codecs appris préentraînés sur des données Sentinel-2 qui surpassent les méthodes classiques en compressant les images d'observation de la Terre grâce à une architecture temporelle innovante et une nouvelle méthode de « Latent Repacking » pour des débits flexibles, tout en permettant l'inpainting de nuages.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Cet article présente XFactor, le premier modèle auto-supervisé sans géométrie capable de synthèse de nouvelles vues véritablement transférable, démontrant que l'on peut dissocier la pose de la caméra du contenu de la scène et prédire des trajectoires cohérentes sur différents environnements sans recourir à des biais inductifs 3D explicites.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

Le papier présente VIST3A, un cadre général qui combine un générateur de vidéos text-to-video et un réseau de reconstruction 3D par assemblage de modèles et alignement par récompense directe, permettant ainsi une génération de scènes 3D de haute qualité et cohérente à partir de texte.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Ce papier propose DRBD-Mamba, un modèle de segmentation 3D efficace et robuste pour les tumeurs cérébrales qui améliore la précision et l'efficacité computationnelle grâce à une architecture Mamba bidirectionnelle à double résolution et à des courbes de remplissage d'espace, tout en introduisant une évaluation rigoureuse sur des plis systématiques de BraTS2023.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

Ce papier présente MSSR, un cadre à double agent qui améliore le raisonnement spatial des modèles vision-langage en construisant dynamiquement un ensemble d'informations minimal et suffisant à partir de modèles experts, éliminant ainsi les redondances et comblant les lacunes pour atteindre des performances de pointe sur des benchmarks exigeants.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Cette présentation introduit le framework SceneCOT et son jeu de données associé SCENECOT-185K pour combler le manque de raisonnement ancré dans les modèles 3D en décomposant les tâches complexes en étapes de raisonnement de type chaîne de pensée guidées par des indices visuels.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Ce papier présente Grasp Any Region (GAR), un modèle d'IA multimodale qui améliore la compréhension visuelle des régions en intégrant des contextes globaux et en modélisant les interactions entre plusieurs zones, permettant ainsi un raisonnement compositionnel avancé et surpassant les modèles existants sur des benchmarks spécialisés.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Ce papier présente FLoC, une méthode sans entraînement et agnostique au modèle qui utilise la fonction de localisation d'installations et un algorithme greedy paresseux pour compresser efficacement les tokens visuels dans la compréhension de vidéos longues, surpassant les techniques existantes sur plusieurs benchmarks majeurs.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream est une méthode de génération vidéo en temps réel qui, grâce à une distillation de connaissances et une attention causale à fenêtre glissante, permet de produire des vidéos de qualité supérieure avec un contrôle interactif des mouvements et une latence sub-secondaire, rendant possible le streaming infini sur une seule carte graphique.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

← Précédent Suivant →