cs.CV articles | Gist.Science

Spectral-Structured Diffusion for Single-Image Rain Removal

Le papier présente SpectralDiff, un cadre de diffusion structuré dans le domaine spectral qui intègre des perturbations spectrales et une architecture U-Net à produit complet pour supprimer efficacement les traces de pluie sur une image unique tout en améliorant l'efficacité computationnelle.

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Cette étude propose un cadre d'analyse de proximité amélioré basé sur YOLOv8 pour la détection intelligente des incendies et l'évaluation des risques sur les chantiers, combinant la segmentation du feu et de la fumée avec la détection d'objets environnants afin de calculer des distances réelles et d'attribuer des scores de risque quantitatifs avec une précision supérieure à 90 %.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Le papier présente GST-VLA, un modèle d'action vision-langage qui améliore la précision des tâches robotiques en intégrant des tokens spatiaux gaussiens 3D structurés pour une géométrie métrique et un raisonnement en chaîne de pensée conscient de la profondeur, atteignant ainsi des performances record sur les benchmarks LIBERO et SimplerEnv.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

OmniEdit est un cadre d'édition audio-visuelle et de synchronisation labiale sans entraînement qui élimine le besoin de micro-ajustement supervisé en reformulant le processus d'édition pour garantir des résultats stables et précis.

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Cet article propose un cadre innovant pour la génération de vidéos physiquement plausibles qui décompose les phénomènes en chaînes d'événements causaux grâce à un raisonnement guidé par la physique et une nouvelle méthode de promptage intermodal, garantissant ainsi une progression temporelle cohérente et réaliste.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Cette étude diagnostique le « fossé de modalité » qui réduit les performances des modèles multimodaux lors du traitement de texte en images, identifie les causes de cette dégradation comme des erreurs de lecture amplifiées par le rendu visuel, et propose une méthode d'auto-distillation efficace pour combler cet écart sans oublier les connaissances antérieures.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Le papier propose MedKCO, une méthode de pré-entraînement vision-langage médical qui améliore les représentations de caractéristiques en orchestrant l'apprentissage via un curriculum à deux niveaux basé sur la sensibilité diagnostique et la représentativité des échantillons, ainsi qu'une perte contrastive asymétrique auto-pace pour gérer les similarités inter-classes.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

Cet article propose un cadre de génération vidéo sans entraînement qui factorise le mouvement en trois catégories (immobilité, mouvement rigide et non rigide) via une approche de planification préalable, permettant une synthèse compositionnelle précise et adaptable à diverses architectures de modèles de diffusion.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Cet article propose un cadre basé sur les transformers pour la recherche de cas de cancer de la peau en combinant une image de référence et un texte descriptif, en alignant simultanément des représentations globales et locales pour améliorer la précision du diagnostic.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med est un cadre novateur qui utilise un grand modèle de langage (LLM) comme enseignant sémantique structuré pour pré-entraîner des transformeurs de vision médicaux légers et déployables, surpassant les méthodes existantes en précision tout en nécessitant considérablement moins de données et sans conserver le LLM après l'entraînement.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Cet article propose PRLF, un cadre d'apprentissage de représentation progressive qui améliore l'analyse de sentiment multimodale en présence de modalités manquantes grâce à un estimateur de fiabilité adaptatif et un module d'interaction progressive pour aligner les caractéristiques et supprimer le bruit.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Le modèle QUSR propose une approche de super-résolution d'images par diffusion qui combine un générateur de bruit guidé par l'incertitude pour préserver les détails et un prior de qualité issu d'un modèle de langage multimodal, afin de restaurer efficacement des images dégradées dans des scénarios réels complexes.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Cette étude présente un cadre automatisé utilisant l'architecture SegFormer pour segmenter l'os et les tissus mous dans les images HR-pQCT, démontrant que les caractéristiques radiomiques des tissus mous surpassent les paramètres osseux traditionnels pour la détection de l'ostéoporose.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

Rotation Equivariant Mamba for Vision Tasks

Cet article présente EQ-VMamba, la première architecture de type Mamba pour la vision par ordinateur intégrant l'équivariance rotationnelle, qui améliore la robustesse et les performances tout en réduisant le nombre de paramètres de 50 % par rapport aux modèles non équivariants.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben Xu2026-03-11💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Cet article propose une architecture d'IA agentique agissant comme couche d'intelligence pour le plan de contrôle des réseaux 6G, afin d'optimiser l'apprentissage fédéré en traduisant les objectifs de haut niveau en actions adaptatives tenant compte des conditions réseau et des capacités des appareils.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

Le papier présente RTFDNet, une architecture unifiée de fusion-découplage qui améliore la robustesse de la segmentation sémantique RGB-Thermique en intégrant une fusion de caractéristiques synergique et des régularisations de découplage pour permettre une inférence efficace même en cas de défaillance partielle des capteurs.

Kunyu Tan, Mingjian Liang2026-03-11💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Le papier présente RubiCap, un cadre d'apprentissage par renforcement guidé par des rubriques générées par LLM qui surpasse les méthodes d'enseignement distillé et les approches RL existantes en matière de légendage d'images dense, en offrant des récompenses structurées et une efficacité supérieure avec des modèles plus compacts.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Cet article présente une amélioration du cadre d'apprentissage profond POLISH pour la reconstruction d'images en interférométrie radio, permettant une imagerie grand champ et à haut contraste dynamique qui améliore considérablement la détection des lentilles gravitationnelles fortes par rapport aux méthodes traditionnelles.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

Le papier propose le Progressive Split-Mamba (PS-Mamba), un cadre hiérarchique d'espace d'états qui préserve la topologie spatiale et atténue la décroissance à longue portée grâce à un partitionnement géométrique progressif et des connexions croisées symétriques, surpassant ainsi les modèles existants en restauration d'images.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Le papier présente SAGE, le premier modèle de langage multimodal (MLLM) 3D de bout en bout qui traite directement les nuages de points bruts comme une « langue étrangère » via un tokeniseur léger et une optimisation par préférence, surpassant ainsi les méthodes existantes en efficacité computationnelle et en robustesse.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

← Précédent Suivant →