cs.CV articles | Gist.Science

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Cet article propose PRLF, un cadre d'apprentissage de représentation progressive qui améliore l'analyse de sentiment multimodale en présence de modalités manquantes grâce à un estimateur de fiabilité adaptatif et un module d'interaction progressive pour aligner les caractéristiques et supprimer le bruit.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Le modèle QUSR propose une approche de super-résolution d'images par diffusion qui combine un générateur de bruit guidé par l'incertitude pour préserver les détails et un prior de qualité issu d'un modèle de langage multimodal, afin de restaurer efficacement des images dégradées dans des scénarios réels complexes.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Cette étude présente un cadre automatisé utilisant l'architecture SegFormer pour segmenter l'os et les tissus mous dans les images HR-pQCT, démontrant que les caractéristiques radiomiques des tissus mous surpassent les paramètres osseux traditionnels pour la détection de l'ostéoporose.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

Rotation Equivariant Mamba for Vision Tasks

Cet article présente EQ-VMamba, la première architecture de type Mamba pour la vision par ordinateur intégrant l'équivariance rotationnelle, qui améliore la robustesse et les performances tout en réduisant le nombre de paramètres de 50 % par rapport aux modèles non équivariants.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben Xu2026-03-11💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Cet article propose une architecture d'IA agentique agissant comme couche d'intelligence pour le plan de contrôle des réseaux 6G, afin d'optimiser l'apprentissage fédéré en traduisant les objectifs de haut niveau en actions adaptatives tenant compte des conditions réseau et des capacités des appareils.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

Le papier présente RTFDNet, une architecture unifiée de fusion-découplage qui améliore la robustesse de la segmentation sémantique RGB-Thermique en intégrant une fusion de caractéristiques synergique et des régularisations de découplage pour permettre une inférence efficace même en cas de défaillance partielle des capteurs.

Kunyu Tan, Mingjian Liang2026-03-11💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Le papier présente RubiCap, un cadre d'apprentissage par renforcement guidé par des rubriques générées par LLM qui surpasse les méthodes d'enseignement distillé et les approches RL existantes en matière de légendage d'images dense, en offrant des récompenses structurées et une efficacité supérieure avec des modèles plus compacts.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Cet article présente une amélioration du cadre d'apprentissage profond POLISH pour la reconstruction d'images en interférométrie radio, permettant une imagerie grand champ et à haut contraste dynamique qui améliore considérablement la détection des lentilles gravitationnelles fortes par rapport aux méthodes traditionnelles.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

Le papier propose le Progressive Split-Mamba (PS-Mamba), un cadre hiérarchique d'espace d'états qui préserve la topologie spatiale et atténue la décroissance à longue portée grâce à un partitionnement géométrique progressif et des connexions croisées symétriques, surpassant ainsi les modèles existants en restauration d'images.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Le papier présente SAGE, le premier modèle de langage multimodal (MLLM) 3D de bout en bout qui traite directement les nuages de points bruts comme une « langue étrangère » via un tokeniseur léger et une optimisation par préférence, surpassant ainsi les méthodes existantes en efficacité computationnelle et en robustesse.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Le papier présente MM-Zero, un cadre d'apprentissage par renforcement innovant qui permet pour la première fois l'auto-évolution sans aucune donnée d'entrée de modèles de vision-langage en orchestrant trois rôles spécialisés (Propositeur, Codeur et Résolveur) générant et raisonnant sur du contenu visuel synthétique.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Ce papier propose un cadre d'apprentissage métrique géométrique utilisant des descripteurs d'angles inter-articulaires invariants pour améliorer la reconnaissance de la langue des signes en contexte few-shot et cross-lingual, surpassant les méthodes basées sur les coordonnées normalisées grâce à une robustesse accrue face aux variations de vue et d'échelle.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Le papier présente TubeMLLM, un modèle fondamental unifié qui améliore la perception et la génération d'anatomies vasculaires en intégrant des prières topologiques via des prompts naturels, démontrant ainsi des performances supérieures en généralisation hors distribution et en transfert cross-modalité sur le benchmark multimodal TubeMData.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Ce papier propose une nouvelle fonction de perte pour entraîner un réseau de neurones convolutifs distribué (DisCNN) afin d'extraire et de reconnaître uniquement les caractéristiques d'une classe positive spécifique, permettant ainsi une détection d'objets efficace dans des arrière-plans complexes grâce à une architecture légère et une excellente généralisation.

Liang Sun2026-03-11💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Le papier présente UniField, un cadre unifié d'amélioration IRM qui surpasse les méthodes existantes en exploitant des modèles de fondation 3D pré-entraînés, en intégrant un mécanisme de rectification spectrale conscient du champ physique pour préserver les détails, et en libérant un jeu de données multi-champs massif pour améliorer la généralisation.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

HelixTrack est une méthode entièrement événementielle qui permet le suivi en temps réel et l'estimation précise du régime de rotation (RPM) d'objets propulseurs en mouvement, surpassant les approches traditionnelles grâce à un filtrage de Kalman et à l'introduction du nouveau jeu de données TQE.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri Matas2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Le papier présente BridgeDiff, un cadre basé sur la diffusion qui améliore la synthèse de vêtements plats pour les essais virtuels en comblant le fossé entre les observations humaines et les représentations canoniques grâce à un module de conditionnement des vêtements et un module de contrainte structurelle.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Le papier propose RAE-NWM, un modèle de monde de navigation qui opère dans un espace de représentation visuelle dense (DINOv2) plutôt que dans un espace latent compressé, afin de préserver les informations structurelles fines et d'améliorer la précision du contrôle et de la planification grâce à l'utilisation d'un transformateur de diffusion conditionnel.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Ce papier propose le module Geometric Semantic Decoupling (GSD), une méthode sans paramètres qui améliore la généralisation des détecteurs d'images générées par IA en éliminant les raccourcis sémantiques pour forcer le modèle à se concentrer sur des preuves de falsification invariantes.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Ce papier présente Poly-DETR, un transformateur de détection de polygones qui reformule la segmentation d'instances comme une régression de sommets via une représentation polaire pour résoudre le compromis entre haute résolution et inférence légère, surpassant les méthodes existantes en précision et en efficacité mémoire.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

← Précédent Suivant →