cs.CV articles | Gist.Science

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

Cet article présente l'ARS (Radio Sensing Ambiant), une approche innovante qui résout la pénurie de spectre en utilisant passivement les signaux 5G existants pour la détection d'activités humaines, validée par un prototype matériel et un cadre d'apprentissage multimodal.

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

Cette proposition de cadre d'augmentation de données inspiré du VQA améliore la reconnaissance de texte dans les images en générant des questions structurées sur les attributs des caractères pour renforcer le raisonnement fin des modèles OCR, ce qui se traduit par une réduction significative des taux d'erreur sur les jeux de données WordArt et Esposalles.

Xu Yao, Lei Kang2026-03-05💻 cs

Hazard-Aware Traffic Scene Graph Generation

Cet article présente un nouveau cadre de génération de graphes de scènes de circulation axé sur les dangers, qui intègre des données d'accidents et des indices de profondeur pour améliorer la compréhension des risques et fournir des recommandations intuitives pour la sécurité du véhicule.

Yaoqi Huang, Julie Stephany Berrio, Mao Shan + 1 more2026-03-05💻 cs

DM-CFO: A Diffusion Model for Compositional 3D Tooth Generation with Collision-Free Optimization

Le papier propose DM-CFO, une méthode utilisant un modèle de diffusion et une optimisation sans collision basée sur les Gaussiens 3D pour générer automatiquement des modèles de dents manquantes réalistes et cohérents avec l'arcade dentaire existante.

Yan Tian, Pengcheng Xue, Weiping Ding + 5 more2026-03-05💻 cs

Detection and Identification of Penguins Using Appearance and Motion Features

Cette étude propose un cadre intégrant des caractéristiques d'apparence et de mouvement pour améliorer la détection et l'identification des pingouins dans des environnements complexes, en adaptant YOLO11 pour traiter des séquences d'images et en appliquant un apprentissage contrastif basé sur des trajectoires afin de réduire les erreurs d'identification.

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

Tracking Feral Horses in Aerial Video Using Oriented Bounding Boxes

Cet article propose une méthode d'estimation de l'orientation de la tête pour les chevaux sauvages dans des vidéos aériennes, utilisant un vote majoritaire basé sur l'IoU entre plusieurs détecteurs afin de résoudre les problèmes de retournements de 180° inhérents aux boîtes englobantes orientées et d'améliorer la précision du suivi individuel.

Saeko Takizawa, Tamao Maeda, Shinya Yamamoto + 1 more2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

Les auteurs proposent ParaHydra, un cadre de compression d'images distribuées multi-vues qui introduit le mécanisme d'attention OmniParallax (OPAM) pour modéliser explicitement les corrélations entre les vues, surpassant ainsi les codecs d'état de l'art en termes de gain de débit et d'efficacité de calcul.

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

Cet article présente LeafInst, un réseau de segmentation d'instances unifié conçu pour l'analyse phénotypique fine des feuilles d'arbres en plein champ, accompagné du nouveau jeu de données Poplar-leaf basé sur des images UAV, et démontre des performances supérieures aux modèles existants grâce à une architecture intégrant des modules spécialisés pour gérer les variations d'échelle et les morphologies irrégulières.

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

Ce papier présente RAGTrack, un cadre de suivi RGBT innovant qui intègre des descriptions textuelles générées par des modèles de langage multimodaux et utilise une génération augmentée par la récupération pour améliorer la robustesse du suivi d'objets face aux variations d'apparence et aux distractions de l'arrière-plan.

Hao Li, Yuhao Wang, Wenning Hao + 3 more2026-03-05💻 cs

CoRe-BT: A Multimodal Radiology-Pathology-Text Benchmark for Robust Brain Tumor Typing

Le papier présente CoRe-BT, un benchmark multimodal intégrant l'imagerie par résonance magnétique, l'histopathologie et les rapports textuels pour améliorer le typage robuste des tumeurs cérébrales dans des scénarios cliniques réalistes où certaines modalités peuvent être manquantes.

Juampablo E. Heras Rivera, Daniel K. Low, Xavier Xiong + 5 more2026-03-05💻 cs

Extending Neural Operators: Robust Handling of Functions Beyond the Training Set

Les auteurs proposent un cadre rigoureux étendant les opérateurs neuronaux aux fonctions hors distribution en exploitant les espaces de Hilbert à noyau reproduisant pour garantir la précision des valeurs et des dérivées, méthode validée par la résolution d'équations aux dérivées partielles elliptiques sur des variétés.

Blaine Quackenbush, Paul J. Atzberger2026-03-05🤖 cs.LG

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Cette étude révèle que l'injection de prompts par image, une attaque en boîte noire intégrant des instructions adverses dans des images naturelles, peut manipuler avec succès jusqu'à 64 % des modèles de langage multimodaux tout en restant indétectable pour les humains.

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Le papier présente InfinityStory, un cadre novateur qui permet la génération de vidéos narratives de longue durée avec une cohérence visuelle mondiale et des transitions fluides entre les plans pour plusieurs sujets, surmontant ainsi les limitations actuelles en matière de stabilité de l'arrière-plan et de cohérence des personnages.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

One-Step Face Restoration via Shortcut-Enhanced Coupling Flow

Le papier propose SCFlowFR, une méthode de restauration faciale en une seule étape qui améliore les modèles de flux par couplage dépendant des données et des contraintes de raccourci pour surmonter les limitations des approches existantes et atteindre des performances de pointe avec une vitesse d'inférence élevée.

Xiaohui Sun, Hanlin Wu2026-03-05💻 cs

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

Cette thèse présente un cadre d'imagerie sur site intégrant des algorithmes de vision par ordinateur pour la caractérisation morphologique automatisée des agrégats de construction, tant individuels que sous forme de tas, en combinant reconstruction 3D, segmentation d'instances et complétion de formes pour surmonter les limites des méthodes actuelles.

Haohang Huang2026-03-05🤖 cs.AI

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Ce papier présente InEdit-Bench, le premier benchmark conçu pour évaluer la capacité des modèles d'édition d'images à raisonner sur les voies logiques intermédiaires dans des scénarios complexes, révélant ainsi des lacunes majeures chez les modèles actuels et orientant la recherche vers des systèmes multimodaux plus intelligents et conscients du raisonnement.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang + 6 more2026-03-05🤖 cs.AI

Machine Pareidolia: Protecting Facial Image with Emotional Editing

Ce papier présente MAP, une méthode innovante de protection de la vie privée qui utilise des modifications émotionnelles pour masquer les identités faciales tout en garantissant une haute fidélité visuelle et une robustesse supérieure face aux systèmes de reconnaissance faciale, y compris dans des scénarios démographiques et photographiques variés.

Binh M. Le, Simon S. Woo2026-03-05🤖 cs.LG

EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

L'article présente EvoPrune, une méthode de pruning de tokens visuels appliquée dès l'étape de l'encodage dans les modèles multimodaux de grande taille, permettant d'accélérer l'inférence de 2 fois avec moins de 1 % de perte de performance sur des tâches complexes comme l'analyse vidéo.

Yuhao Chen, Bin Shan, Xin Ye + 1 more2026-03-05🤖 cs.AI

Polyp Segmentation Using Wavelet-Based Cross-Band Integration for Enhanced Boundary Representation

Cet article propose un modèle de segmentation de polypes qui intègre les représentations RVB et niveaux de gris via une interaction fréquentielle complémentaire, exploitant la supériorité des niveaux de gris pour les contours afin d'améliorer la précision de la délimitation des polypes dans le cadre du dépistage du cancer colorectal.

Haesung Oh, Jaesung Lee2026-03-05💻 cs

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

Ce papier propose l'ERK-Guid, une nouvelle méthode d'échantillonnage pour les modèles de diffusion qui utilise l'erreur de troncature locale détectée dans les régions raides comme signal de guidage pour améliorer la stabilité et la qualité des échantillons générés.

Inho Kong, Sojin Lee, Youngjoon Hong + 1 more2026-03-05🤖 cs.AI

← Précédent Suivant →