cs.CV articles | Gist.Science

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

Ce papier propose SGMA, un cadre de segmentation sémantique guidé par la sémantique et conscient des modalités qui, grâce à ses modules de fusion guidée et d'échantillonnage adaptatif, surpasse les méthodes actuelles en résolvant les déséquilibres, les variations intra-classe et les hétérogénéités croisées dans la segmentation multimodale à données incomplètes pour la télédétection.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

En proposant un cadre d'apprentissage profond basé sur les graphes qui compare des parcellisations anatomiques et fonctionnelles, cette étude démontre que l'utilisation de régions d'intérêt dérivées fonctionnellement (MSDL) combinée à un réseau d'attention graphique permet d'atteindre une précision de 95 % dans le diagnostic de l'autisme via l'IRMf au repos, tout en validant biologiquement les décisions du modèle grâce à des analyses d'interprétabilité.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

Le papier propose NeighborMAE, une méthode d'apprentissage auto-supervisé qui améliore la préformation des modèles d'auto-encodeurs masqués pour l'observation de la Terre en exploitant les dépendances spatiales entre images voisines grâce à une reconstruction conjointe et un ajustement dynamique des paramètres de masquage.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

L'article présente EIMC, une méthode de perception collaborative multi-modale innovante qui améliore la sécurité de la conduite autonome en réduisant drastiquement la bande passante grâce à une fusion précoce de voxels collaboratifs et à un protocole de consensus basé sur des cartes de chaleur pour ne transmettre que les instances critiques.

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs

Functional Properties of the Focal-Entropy

Cet article établit une fondation théorique pour la perte focale en analysant ses propriétés informationnelles via la notion d'entropie focale, démontrant ainsi comment elle amplifie les probabilités intermédiaires et supprime les probabilités élevées ou très faibles dans les problèmes de classification déséquilibrée.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

Cet article présente ForestPersons, un nouveau jeu de données à grande échelle conçu pour améliorer la détection de personnes disparues sous la canopée forestière en fournissant des perspectives au sol et à basse altitude, plus adaptées aux missions de recherche et de sauvetage que les vues aériennes traditionnelles.

Deokyun Kim, Jeongjun Lee, Jungwon Choi + 6 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

Cette étude propose le classificateur discriminatif assisté par génération (GAD), une méthode hybride qui combine la précision des classificateurs discriminatifs et la complémentarité des modèles génératifs pour améliorer l'efficacité et la performance des grands modèles de langage multimodaux dans la compréhension d'actions en contexte fermé.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

Le papier présente SemGS, un cadre feed-forward innovant qui reconstruit des champs sémantiques 3D généralisables à partir de vues éparses en utilisant une architecture à double branche et une attention consciente de la caméra pour permettre une synthèse de nouvelles vues sémantiques rapide et performante.

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Cet article présente un robot assistif chirurgical à deux bras capable de livrer des instruments de manière autonome et sans collision en utilisant un modèle vision-langage pour interpréter les commandes verbales et un cadre d'optimisation quadratique pour éviter les obstacles en temps réel.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Cet article propose GKD, un cadre de distillation de connaissances multi-étapes qui découple l'apprentissage des représentations de l'adaptation à la tâche et introduit un mécanisme d'extraction de connaissances basé sur des requêtes, permettant ainsi aux modèles de segmentation sémantique d'hériter de la robustesse hors domaine des modèles de fondation visuels tout en évitant le surapprentissage aux domaines visibles.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Ce papier propose VC-STaR, un cadre d'auto-amélioration pour les modèles vision-langage qui exploite des paires de questions visuelles contrastives pour atténuer les hallucinations et générer le nouveau jeu de données VisCoR-55K, améliorant ainsi significativement les capacités de raisonnement visuel des modèles.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

Le papier propose CAPT, un cadre d'ajustement de prompt conscient de la confusion qui réduit les erreurs d'alignement vision-langage en modélisant explicitement les relations de confusion stables via une banque de confusion et en intégrant des mineurs sémantiques et d'échantillons pour améliorer la discrimination fine des catégories.

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

Cet article présente CAWM-Mamba, un modèle unifié pionnier capable de fusionner simultanément des images infrarouges et visibles tout en restaurant les dégradations causées par des conditions météorologiques composées complexes, surpassant ainsi les méthodes existantes grâce à son architecture innovante intégrant des modules de prétraitement, d'interaction intermodale et de décomposition dans l'espace des ondelettes.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Le papier présente SOLAR, un cadre de modélisation séquentielle pour les systèmes de recommandation qui utilise une attention optimisée par SVD pour réduire la complexité computationnelle tout en préservant la fonction softmax, permettant ainsi de gérer des séquences de comportement massives et d'améliorer significativement les performances en ligne chez Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

Cet article propose ATD, une nouvelle architecture de transformateur pour la restauration d'images qui utilise un dictionnaire de tokens adaptatif et un mécanisme d'attention croisée pour modéliser les dépendances globales avec une complexité linéaire, atteignant ainsi des performances de pointe sur diverses tâches de restauration.

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Neural Electromagnetic Fields for High-Resolution Material Parameter Reconstruction

Ce papier présente NEMF, un cadre novateur qui transforme le problème inverse physique mal posé de la reconstruction des paramètres matériels en une tâche d'apprentissage bien posée en découplant la géométrie et le champ ambiant, permettant ainsi de créer des jumeaux numériques fonctionnels et simulables à partir de données non invasives.

Zhe Chen, Peilin Zheng, Wenshuo Chen + 3 more2026-03-04⚡ eess

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Cette étude démontre que la combinaison de techniques d'augmentation de données, notamment les transformations affines aléatoires et les variations de couleur, optimise les performances d'un modèle Vision Transformer léger pour la reconnaissance de caractères bengalis manuscrits en palliant le manque de données.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

Ce papier présente « Synthetic-Child », un pipeline de données synthétiques basé sur l'IA générative qui permet d'entraîner un modèle de détection de posture pour enfants avec une précision élevée et une confidentialité totale, en éliminant le besoin de photographies réelles d'enfants tout en garantissant un déploiement temps réel sur des dispositifs embarqués.

Taowen Zeng2026-03-04💻 cs

VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

Ce papier présente VLMFusionOcc3D, un cadre multimodal robuste pour la prédiction d'occupation sémantique 3D dense qui améliore la précision et la fiabilité par temps défavorable en intégrant des priors linguistiques de modèles vision-langage et des mécanismes d'adaptation dynamique aux conditions météorologiques.

A. Enes Doruk, Hasan F. Ates2026-03-04💻 cs

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

Ce papier présente DrPose, un algorithme de fine-tuning par récompense directe qui améliore la reconstruction 3D de humains à partir d'une seule image en entraînant un modèle de diffusion multi-vues sur un large éventail de poses sans nécessiter d'actifs 3D coûteux.

Seunguk Do, Minwoo Huh, Joonghyuk Shin + 1 more2026-03-04💻 cs

← Précédent Suivant →