cs.CV articles | Gist.Science

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Ce papier présente PinCLIP, une approche d'apprentissage de représentations visuelles multimodales à grande échelle développée par Pinterest qui, grâce à une architecture hybride novatrice et un objectif d'alignement de voisinage, améliore significativement la récupération et le classement du contenu tout en résolvant le problème du démarrage à froid, comme le démontrent des gains substantiels lors de tests en ligne.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

Ce papier présente PolyV, un modèle de vision unifié qui réalise une synergie inter-visuelle grâce à une architecture de mélange d'experts et une formation adaptative, surpassant ainsi les modèles existants sur des tâches d'images, de vidéos et de données 3D.

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Cet article présente un cadre innovant d'estimation de profondeur monoculaire sensible à la confiance pour la chirurgie mini-invasive, qui améliore la précision et la fiabilité clinique en quantifiant l'incertitude des prédictions face aux artefacts endoscopiques tels que la fumée et les reflets.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

Ce papier présente L2G-Det, un cadre de détection d'instances novateur qui, en évitant les propositions d'objets explicites et en exploitant une correspondance dense de patchs locaux pour alimenter un modèle SAM augmenté, permet une segmentation robuste d'objets spécifiques dans des scènes ouvertes encombrées à partir de quelques images modèles.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

Cet article présente l'ARS (Radio Sensing Ambiant), une approche innovante qui résout la pénurie de spectre en utilisant passivement les signaux 5G existants pour la détection d'activités humaines, validée par un prototype matériel et un cadre d'apprentissage multimodal.

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

Cette proposition de cadre d'augmentation de données inspiré du VQA améliore la reconnaissance de texte dans les images en générant des questions structurées sur les attributs des caractères pour renforcer le raisonnement fin des modèles OCR, ce qui se traduit par une réduction significative des taux d'erreur sur les jeux de données WordArt et Esposalles.

Xu Yao, Lei Kang2026-03-05💻 cs

Hazard-Aware Traffic Scene Graph Generation

Cet article présente un nouveau cadre de génération de graphes de scènes de circulation axé sur les dangers, qui intègre des données d'accidents et des indices de profondeur pour améliorer la compréhension des risques et fournir des recommandations intuitives pour la sécurité du véhicule.

Yaoqi Huang, Julie Stephany Berrio, Mao Shan + 1 more2026-03-05💻 cs

DM-CFO: A Diffusion Model for Compositional 3D Tooth Generation with Collision-Free Optimization

Le papier propose DM-CFO, une méthode utilisant un modèle de diffusion et une optimisation sans collision basée sur les Gaussiens 3D pour générer automatiquement des modèles de dents manquantes réalistes et cohérents avec l'arcade dentaire existante.

Yan Tian, Pengcheng Xue, Weiping Ding + 5 more2026-03-05💻 cs

Detection and Identification of Penguins Using Appearance and Motion Features

Cette étude propose un cadre intégrant des caractéristiques d'apparence et de mouvement pour améliorer la détection et l'identification des pingouins dans des environnements complexes, en adaptant YOLO11 pour traiter des séquences d'images et en appliquant un apprentissage contrastif basé sur des trajectoires afin de réduire les erreurs d'identification.

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

Tracking Feral Horses in Aerial Video Using Oriented Bounding Boxes

Cet article propose une méthode d'estimation de l'orientation de la tête pour les chevaux sauvages dans des vidéos aériennes, utilisant un vote majoritaire basé sur l'IoU entre plusieurs détecteurs afin de résoudre les problèmes de retournements de 180° inhérents aux boîtes englobantes orientées et d'améliorer la précision du suivi individuel.

Saeko Takizawa, Tamao Maeda, Shinya Yamamoto + 1 more2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

Les auteurs proposent ParaHydra, un cadre de compression d'images distribuées multi-vues qui introduit le mécanisme d'attention OmniParallax (OPAM) pour modéliser explicitement les corrélations entre les vues, surpassant ainsi les codecs d'état de l'art en termes de gain de débit et d'efficacité de calcul.

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

Cet article présente LeafInst, un réseau de segmentation d'instances unifié conçu pour l'analyse phénotypique fine des feuilles d'arbres en plein champ, accompagné du nouveau jeu de données Poplar-leaf basé sur des images UAV, et démontre des performances supérieures aux modèles existants grâce à une architecture intégrant des modules spécialisés pour gérer les variations d'échelle et les morphologies irrégulières.

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

Ce papier présente RAGTrack, un cadre de suivi RGBT innovant qui intègre des descriptions textuelles générées par des modèles de langage multimodaux et utilise une génération augmentée par la récupération pour améliorer la robustesse du suivi d'objets face aux variations d'apparence et aux distractions de l'arrière-plan.

Hao Li, Yuhao Wang, Wenning Hao + 3 more2026-03-05💻 cs

CoRe-BT: A Multimodal Radiology-Pathology-Text Benchmark for Robust Brain Tumor Typing

Le papier présente CoRe-BT, un benchmark multimodal intégrant l'imagerie par résonance magnétique, l'histopathologie et les rapports textuels pour améliorer le typage robuste des tumeurs cérébrales dans des scénarios cliniques réalistes où certaines modalités peuvent être manquantes.

Juampablo E. Heras Rivera, Daniel K. Low, Xavier Xiong + 5 more2026-03-05💻 cs

Extending Neural Operators: Robust Handling of Functions Beyond the Training Set

Les auteurs proposent un cadre rigoureux étendant les opérateurs neuronaux aux fonctions hors distribution en exploitant les espaces de Hilbert à noyau reproduisant pour garantir la précision des valeurs et des dérivées, méthode validée par la résolution d'équations aux dérivées partielles elliptiques sur des variétés.

Blaine Quackenbush, Paul J. Atzberger2026-03-05🤖 cs.LG

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Cette étude révèle que l'injection de prompts par image, une attaque en boîte noire intégrant des instructions adverses dans des images naturelles, peut manipuler avec succès jusqu'à 64 % des modèles de langage multimodaux tout en restant indétectable pour les humains.

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Le papier présente InfinityStory, un cadre novateur qui permet la génération de vidéos narratives de longue durée avec une cohérence visuelle mondiale et des transitions fluides entre les plans pour plusieurs sujets, surmontant ainsi les limitations actuelles en matière de stabilité de l'arrière-plan et de cohérence des personnages.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

One-Step Face Restoration via Shortcut-Enhanced Coupling Flow

Le papier propose SCFlowFR, une méthode de restauration faciale en une seule étape qui améliore les modèles de flux par couplage dépendant des données et des contraintes de raccourci pour surmonter les limitations des approches existantes et atteindre des performances de pointe avec une vitesse d'inférence élevée.

Xiaohui Sun, Hanlin Wu2026-03-05💻 cs

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

Cette thèse présente un cadre d'imagerie sur site intégrant des algorithmes de vision par ordinateur pour la caractérisation morphologique automatisée des agrégats de construction, tant individuels que sous forme de tas, en combinant reconstruction 3D, segmentation d'instances et complétion de formes pour surmonter les limites des méthodes actuelles.

Haohang Huang2026-03-05🤖 cs.AI

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Ce papier présente InEdit-Bench, le premier benchmark conçu pour évaluer la capacité des modèles d'édition d'images à raisonner sur les voies logiques intermédiaires dans des scénarios complexes, révélant ainsi des lacunes majeures chez les modèles actuels et orientant la recherche vers des systèmes multimodaux plus intelligents et conscients du raisonnement.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang + 6 more2026-03-05🤖 cs.AI

← Précédent Suivant →