cs.CV articles | Gist.Science

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Cette étude révèle que l'apprentissage par renforcement basé uniquement sur le texte améliore la précision des modèles de raisonnement médical multimodal tout en dégradant leur ancrage visuel, démontrant ainsi la nécessité d'évaluations qui mesurent la dépendance réelle aux images au-delà de la simple exactitude.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Ce papier présente Proact-VL, un cadre général pour des agents interactifs en temps réel capables de perception proactive, évalué via le Live Gaming Benchmark qui démontre des performances supérieures en latence et en qualité pour des applications d'accompagnement humain.

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Cette étude analyse l'impact des erreurs de localisation sur la qualité des étiquettes pour la construction de cartes HD en ligne, démontrant que les erreurs d'orientation dégradent les performances du modèle plus que les erreurs de position et que l'ajout de données bruitées entraîne une baisse de performance plus que linéaire.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

Le papier présente PERSIST, un nouveau modèle de monde qui simule l'évolution d'une scène 3D latente persistante (environnement, caméra et rendu) pour surmonter les limites de cohérence spatiale et de mémoire des modèles vidéo interactifs actuels, permettant ainsi une génération de mondes 3D cohérents et une édition géométrique fine.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

L'article présente Phys4D, une méthode en trois étapes qui transforme les modèles de diffusion vidéo en représentations 4D cohérentes sur le plan physique en combinant un pré-entraînement pseudo-supervisé, un affinage supervisé basé sur la simulation et un apprentissage par renforcement pour corriger les violations physiques résiduelles.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Cette étude propose une approche novatrice de Transformer bayésien à haute résolution, combinant des modules locaux et globaux, une fonction de perte faiblement supervisée pondérée géographiquement et une fusion de données multi-sources (Sentinel-1, RCM, AMSR2) pour produire des cartes de concentration de la glace de mer à l'échelle pan-arctique à 200 mètres avec une estimation fiable des incertitudes.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

Le papier présente PhyPrompt, un cadre d'apprentissage par renforcement à deux étapes qui affine automatiquement les prompts pour générer des vidéos text-to-video physiquement plausibles, surpassant les modèles plus grands tout en améliorant simultanément la fidélité sémantique et le respect des lois physiques.

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Ce papier présente PinCLIP, une approche d'apprentissage de représentations visuelles multimodales à grande échelle développée par Pinterest qui, grâce à une architecture hybride novatrice et un objectif d'alignement de voisinage, améliore significativement la récupération et le classement du contenu tout en résolvant le problème du démarrage à froid, comme le démontrent des gains substantiels lors de tests en ligne.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

Ce papier présente PolyV, un modèle de vision unifié qui réalise une synergie inter-visuelle grâce à une architecture de mélange d'experts et une formation adaptative, surpassant ainsi les modèles existants sur des tâches d'images, de vidéos et de données 3D.

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Cet article présente un cadre innovant d'estimation de profondeur monoculaire sensible à la confiance pour la chirurgie mini-invasive, qui améliore la précision et la fiabilité clinique en quantifiant l'incertitude des prédictions face aux artefacts endoscopiques tels que la fumée et les reflets.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

Ce papier présente L2G-Det, un cadre de détection d'instances novateur qui, en évitant les propositions d'objets explicites et en exploitant une correspondance dense de patchs locaux pour alimenter un modèle SAM augmenté, permet une segmentation robuste d'objets spécifiques dans des scènes ouvertes encombrées à partir de quelques images modèles.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

Cet article présente l'ARS (Radio Sensing Ambiant), une approche innovante qui résout la pénurie de spectre en utilisant passivement les signaux 5G existants pour la détection d'activités humaines, validée par un prototype matériel et un cadre d'apprentissage multimodal.

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

Cette proposition de cadre d'augmentation de données inspiré du VQA améliore la reconnaissance de texte dans les images en générant des questions structurées sur les attributs des caractères pour renforcer le raisonnement fin des modèles OCR, ce qui se traduit par une réduction significative des taux d'erreur sur les jeux de données WordArt et Esposalles.

Xu Yao, Lei Kang2026-03-05💻 cs

Hazard-Aware Traffic Scene Graph Generation

Cet article présente un nouveau cadre de génération de graphes de scènes de circulation axé sur les dangers, qui intègre des données d'accidents et des indices de profondeur pour améliorer la compréhension des risques et fournir des recommandations intuitives pour la sécurité du véhicule.

Yaoqi Huang, Julie Stephany Berrio, Mao Shan + 1 more2026-03-05💻 cs

DM-CFO: A Diffusion Model for Compositional 3D Tooth Generation with Collision-Free Optimization

Le papier propose DM-CFO, une méthode utilisant un modèle de diffusion et une optimisation sans collision basée sur les Gaussiens 3D pour générer automatiquement des modèles de dents manquantes réalistes et cohérents avec l'arcade dentaire existante.

Yan Tian, Pengcheng Xue, Weiping Ding + 5 more2026-03-05💻 cs

Detection and Identification of Penguins Using Appearance and Motion Features

Cette étude propose un cadre intégrant des caractéristiques d'apparence et de mouvement pour améliorer la détection et l'identification des pingouins dans des environnements complexes, en adaptant YOLO11 pour traiter des séquences d'images et en appliquant un apprentissage contrastif basé sur des trajectoires afin de réduire les erreurs d'identification.

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

Tracking Feral Horses in Aerial Video Using Oriented Bounding Boxes

Cet article propose une méthode d'estimation de l'orientation de la tête pour les chevaux sauvages dans des vidéos aériennes, utilisant un vote majoritaire basé sur l'IoU entre plusieurs détecteurs afin de résoudre les problèmes de retournements de 180° inhérents aux boîtes englobantes orientées et d'améliorer la précision du suivi individuel.

Saeko Takizawa, Tamao Maeda, Shinya Yamamoto + 1 more2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

Les auteurs proposent ParaHydra, un cadre de compression d'images distribuées multi-vues qui introduit le mécanisme d'attention OmniParallax (OPAM) pour modéliser explicitement les corrélations entre les vues, surpassant ainsi les codecs d'état de l'art en termes de gain de débit et d'efficacité de calcul.

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

Cet article présente LeafInst, un réseau de segmentation d'instances unifié conçu pour l'analyse phénotypique fine des feuilles d'arbres en plein champ, accompagné du nouveau jeu de données Poplar-leaf basé sur des images UAV, et démontre des performances supérieures aux modèles existants grâce à une architecture intégrant des modules spécialisés pour gérer les variations d'échelle et les morphologies irrégulières.

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

Ce papier présente RAGTrack, un cadre de suivi RGBT innovant qui intègre des descriptions textuelles générées par des modèles de langage multimodaux et utilise une génération augmentée par la récupération pour améliorer la robustesse du suivi d'objets face aux variations d'apparence et aux distractions de l'arrière-plan.

Hao Li, Yuhao Wang, Wenning Hao + 3 more2026-03-05💻 cs

← Précédent Suivant →