cs.CV articles | Gist.Science

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Cet article propose un cadre basé sur les transformers pour la recherche de cas de cancer de la peau en combinant une image de référence et un texte descriptif, en alignant simultanément des représentations globales et locales pour améliorer la précision du diagnostic.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med est un cadre novateur qui utilise un grand modèle de langage (LLM) comme enseignant sémantique structuré pour pré-entraîner des transformeurs de vision médicaux légers et déployables, surpassant les méthodes existantes en précision tout en nécessitant considérablement moins de données et sans conserver le LLM après l'entraînement.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Cet article propose PRLF, un cadre d'apprentissage de représentation progressive qui améliore l'analyse de sentiment multimodale en présence de modalités manquantes grâce à un estimateur de fiabilité adaptatif et un module d'interaction progressive pour aligner les caractéristiques et supprimer le bruit.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian YangWed, 11 Ma💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Le modèle QUSR propose une approche de super-résolution d'images par diffusion qui combine un générateur de bruit guidé par l'incertitude pour préserver les détails et un prior de qualité issu d'un modèle de langage multimodal, afin de restaurer efficacement des images dégradées dans des scénarios réels complexes.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Cette étude présente un cadre automatisé utilisant l'architecture SegFormer pour segmenter l'os et les tissus mous dans les images HR-pQCT, démontrant que les caractéristiques radiomiques des tissus mous surpassent les paramètres osseux traditionnels pour la détection de l'ostéoporose.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Rotation Equivariant Mamba for Vision Tasks

Cet article présente EQ-VMamba, la première architecture de type Mamba pour la vision par ordinateur intégrant l'équivariance rotationnelle, qui améliore la robustesse et les performances tout en réduisant le nombre de paramètres de 50 % par rapport aux modèles non équivariants.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben XuWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Cet article propose une architecture d'IA agentique agissant comme couche d'intelligence pour le plan de contrôle des réseaux 6G, afin d'optimiser l'apprentissage fédéré en traduisant les objectifs de haut niveau en actions adaptatives tenant compte des conditions réseau et des capacités des appareils.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

Le papier présente RTFDNet, une architecture unifiée de fusion-découplage qui améliore la robustesse de la segmentation sémantique RGB-Thermique en intégrant une fusion de caractéristiques synergique et des régularisations de découplage pour permettre une inférence efficace même en cas de défaillance partielle des capteurs.

Kunyu Tan, Mingjian LiangWed, 11 Ma💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Le papier présente RubiCap, un cadre d'apprentissage par renforcement guidé par des rubriques générées par LLM qui surpasse les méthodes d'enseignement distillé et les approches RL existantes en matière de légendage d'images dense, en offrant des récompenses structurées et une efficacité supérieure avec des modèles plus compacts.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Cet article présente une amélioration du cadre d'apprentissage profond POLISH pour la reconstruction d'images en interférométrie radio, permettant une imagerie grand champ et à haut contraste dynamique qui améliore considérablement la détection des lentilles gravitationnelles fortes par rapport aux méthodes traditionnelles.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

Le papier propose le Progressive Split-Mamba (PS-Mamba), un cadre hiérarchique d'espace d'états qui préserve la topologie spatiale et atténue la décroissance à longue portée grâce à un partitionnement géométrique progressif et des connexions croisées symétriques, surpassant ainsi les modèles existants en restauration d'images.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Le papier présente SAGE, le premier modèle de langage multimodal (MLLM) 3D de bout en bout qui traite directement les nuages de points bruts comme une « langue étrangère » via un tokeniseur léger et une optimisation par préférence, surpassant ainsi les méthodes existantes en efficacité computationnelle et en robustesse.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Le papier présente MM-Zero, un cadre d'apprentissage par renforcement innovant qui permet pour la première fois l'auto-évolution sans aucune donnée d'entrée de modèles de vision-langage en orchestrant trois rôles spécialisés (Propositeur, Codeur et Résolveur) générant et raisonnant sur du contenu visuel synthétique.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Ce papier propose un cadre d'apprentissage métrique géométrique utilisant des descripteurs d'angles inter-articulaires invariants pour améliorer la reconnaissance de la langue des signes en contexte few-shot et cross-lingual, surpassant les méthodes basées sur les coordonnées normalisées grâce à une robustesse accrue face aux variations de vue et d'échelle.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Le papier présente TubeMLLM, un modèle fondamental unifié qui améliore la perception et la génération d'anatomies vasculaires en intégrant des prières topologiques via des prompts naturels, démontrant ainsi des performances supérieures en généralisation hors distribution et en transfert cross-modalité sur le benchmark multimodal TubeMData.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Ce papier propose une nouvelle fonction de perte pour entraîner un réseau de neurones convolutifs distribué (DisCNN) afin d'extraire et de reconnaître uniquement les caractéristiques d'une classe positive spécifique, permettant ainsi une détection d'objets efficace dans des arrière-plans complexes grâce à une architecture légère et une excellente généralisation.

Liang SunWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Le papier présente UniField, un cadre unifié d'amélioration IRM qui surpasse les méthodes existantes en exploitant des modèles de fondation 3D pré-entraînés, en intégrant un mécanisme de rectification spectrale conscient du champ physique pour préserver les détails, et en libérant un jeu de données multi-champs massif pour améliorer la généralisation.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

HelixTrack est une méthode entièrement événementielle qui permet le suivi en temps réel et l'estimation précise du régime de rotation (RPM) d'objets propulseurs en mouvement, surpassant les approches traditionnelles grâce à un filtrage de Kalman et à l'introduction du nouveau jeu de données TQE.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri MatasWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Le papier présente BridgeDiff, un cadre basé sur la diffusion qui améliore la synthèse de vêtements plats pour les essais virtuels en comblant le fossé entre les observations humaines et les représentations canoniques grâce à un module de conditionnement des vêtements et un module de contrainte structurelle.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Le papier propose RAE-NWM, un modèle de monde de navigation qui opère dans un espace de représentation visuelle dense (DINOv2) plutôt que dans un espace latent compressé, afin de préserver les informations structurelles fines et d'améliorer la précision du contrôle et de la planification grâce à l'utilisation d'un transformateur de diffusion conditionnel.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

← Précédent Suivant →