Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Cet article présente un cadre complet pour l'équité de la classification des tons de peau, incluant un nouveau jeu de données à grande échelle (STW), des benchmarks comparatifs et un modèle d'apprentissage profond (SkinToneNet) qui atteint des performances de pointe pour l'audit de biais dans les ensembles de données publics.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

Les auteurs proposent E2E-GNet, un réseau de neurones géométrique profond de bout en bout qui améliore la reconnaissance des mouvements humains à partir de squelettes en optimisant conjointement les séquences dans un espace non euclidien et en limitant les distorsions via une couche d'optimisation consciente de la déformation, surpassant ainsi les méthodes existantes avec un coût réduit.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Le papier présente MUSE, une plateforme open-source centrée sur les exécutions qui évalue de manière unifiée la sécurité multimodale des grands modèles de langage en intégrant la génération automatique de charges utiles, des attaques multi-tours avec basculement inter-tours de modalités, et une métrique dualiste pour révéler que l'alignement des modèles ne se généralise pas systématiquement aux entrées audio, image et vidéo.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Cet article introduit de nouvelles structures géométriques de type Finsler et information-géométrique duales sur le domaine des matrices définies positives, dérivées de la reparamétrisation en bicône de James, qui garantissent que les géodésiques correspondent à des lignes droites et généralisent des distances classiques comme celle du simplexe de Hilbert.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

Ce papier présente WTHaar-Net, une approche hybride quantique-classique qui remplace la transformée de Hadamard par la transformée en ondelettes de Haar pour améliorer les réseaux de neurones convolutifs, permettant une réduction significative des paramètres tout en maintenant une précision compétitive sur des jeux de données comme CIFAR-10 et Tiny-ImageNet, avec une validation réussie sur du matériel quantique IBM.

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs

Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

Cet article présente un cadre de reconstruction 3D du corps humain à partir de vidéos qui, en générant des marqueurs biomécaniques interprétables pour une analyse cinématique via OpenSim, permet une estimation précise et sans marqueurs des paramètres de la marche, surpassant les méthodes d'estimation de pose traditionnelles.

Akila Pemasiri, Ethan Goan, Glen Lichtwark + 3 more2026-03-04⚡ eess

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

Ce papier propose SGMA, un cadre de segmentation sémantique guidé par la sémantique et conscient des modalités qui, grâce à ses modules de fusion guidée et d'échantillonnage adaptatif, surpasse les méthodes actuelles en résolvant les déséquilibres, les variations intra-classe et les hétérogénéités croisées dans la segmentation multimodale à données incomplètes pour la télédétection.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

En proposant un cadre d'apprentissage profond basé sur les graphes qui compare des parcellisations anatomiques et fonctionnelles, cette étude démontre que l'utilisation de régions d'intérêt dérivées fonctionnellement (MSDL) combinée à un réseau d'attention graphique permet d'atteindre une précision de 95 % dans le diagnostic de l'autisme via l'IRMf au repos, tout en validant biologiquement les décisions du modèle grâce à des analyses d'interprétabilité.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

Le papier propose NeighborMAE, une méthode d'apprentissage auto-supervisé qui améliore la préformation des modèles d'auto-encodeurs masqués pour l'observation de la Terre en exploitant les dépendances spatiales entre images voisines grâce à une reconstruction conjointe et un ajustement dynamique des paramètres de masquage.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

Cette étude propose le classificateur discriminatif assisté par génération (GAD), une méthode hybride qui combine la précision des classificateurs discriminatifs et la complémentarité des modèles génératifs pour améliorer l'efficacité et la performance des grands modèles de langage multimodaux dans la compréhension d'actions en contexte fermé.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Cet article propose GKD, un cadre de distillation de connaissances multi-étapes qui découple l'apprentissage des représentations de l'adaptation à la tâche et introduit un mécanisme d'extraction de connaissances basé sur des requêtes, permettant ainsi aux modèles de segmentation sémantique d'hériter de la robustesse hors domaine des modèles de fondation visuels tout en évitant le surapprentissage aux domaines visibles.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

Cet article présente CAWM-Mamba, un modèle unifié pionnier capable de fusionner simultanément des images infrarouges et visibles tout en restaurant les dégradations causées par des conditions météorologiques composées complexes, surpassant ainsi les méthodes existantes grâce à son architecture innovante intégrant des modules de prétraitement, d'interaction intermodale et de décomposition dans l'espace des ondelettes.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs