SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

Ce papier propose SGMA, un cadre de segmentation sémantique guidé par la sémantique et conscient des modalités qui, grâce à ses modules de fusion guidée et d'échantillonnage adaptatif, surpasse les méthodes actuelles en résolvant les déséquilibres, les variations intra-classe et les hétérogénéités croisées dans la segmentation multimodale à données incomplètes pour la télédétection.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

En proposant un cadre d'apprentissage profond basé sur les graphes qui compare des parcellisations anatomiques et fonctionnelles, cette étude démontre que l'utilisation de régions d'intérêt dérivées fonctionnellement (MSDL) combinée à un réseau d'attention graphique permet d'atteindre une précision de 95 % dans le diagnostic de l'autisme via l'IRMf au repos, tout en validant biologiquement les décisions du modèle grâce à des analyses d'interprétabilité.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

Le papier propose NeighborMAE, une méthode d'apprentissage auto-supervisé qui améliore la préformation des modèles d'auto-encodeurs masqués pour l'observation de la Terre en exploitant les dépendances spatiales entre images voisines grâce à une reconstruction conjointe et un ajustement dynamique des paramètres de masquage.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

Cette étude propose le classificateur discriminatif assisté par génération (GAD), une méthode hybride qui combine la précision des classificateurs discriminatifs et la complémentarité des modèles génératifs pour améliorer l'efficacité et la performance des grands modèles de langage multimodaux dans la compréhension d'actions en contexte fermé.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Cet article propose GKD, un cadre de distillation de connaissances multi-étapes qui découple l'apprentissage des représentations de l'adaptation à la tâche et introduit un mécanisme d'extraction de connaissances basé sur des requêtes, permettant ainsi aux modèles de segmentation sémantique d'hériter de la robustesse hors domaine des modèles de fondation visuels tout en évitant le surapprentissage aux domaines visibles.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

Cet article présente CAWM-Mamba, un modèle unifié pionnier capable de fusionner simultanément des images infrarouges et visibles tout en restaurant les dégradations causées par des conditions météorologiques composées complexes, surpassant ainsi les méthodes existantes grâce à son architecture innovante intégrant des modules de prétraitement, d'interaction intermodale et de décomposition dans l'espace des ondelettes.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Le papier présente SOLAR, un cadre de modélisation séquentielle pour les systèmes de recommandation qui utilise une attention optimisée par SVD pour réduire la complexité computationnelle tout en préservant la fonction softmax, permettant ainsi de gérer des séquences de comportement massives et d'améliorer significativement les performances en ligne chez Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Cette étude démontre que la combinaison de techniques d'augmentation de données, notamment les transformations affines aléatoires et les variations de couleur, optimise les performances d'un modèle Vision Transformer léger pour la reconnaissance de caractères bengalis manuscrits en palliant le manque de données.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

Ce papier présente « Synthetic-Child », un pipeline de données synthétiques basé sur l'IA générative qui permet d'entraîner un modèle de détection de posture pour enfants avec une précision élevée et une confidentialité totale, en éliminant le besoin de photographies réelles d'enfants tout en garantissant un déploiement temps réel sur des dispositifs embarqués.

Taowen Zeng2026-03-04💻 cs