cs.CV articles | Gist.Science

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Cet article présente un cadre complet pour l'équité de la classification des tons de peau, incluant un nouveau jeu de données à grande échelle (STW), des benchmarks comparatifs et un modèle d'apprentissage profond (SkinToneNet) qui atteint des performances de pointe pour l'audit de biais dans les ensembles de données publics.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

Les auteurs proposent E2E-GNet, un réseau de neurones géométrique profond de bout en bout qui améliore la reconnaissance des mouvements humains à partir de squelettes en optimisant conjointement les séquences dans un espace non euclidien et en limitant les distorsions via une couche d'optimisation consciente de la déformation, surpassant ainsi les méthodes existantes avec un coût réduit.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop

Le papier présente ModalPatch, un module plug-and-play qui améliore la robustesse de la détection 3D multi-capteurs en cas de perte de données transitoire en exploitant les données temporelles historiques et une fusion guidée par l'incertitude pour compenser les caractéristiques manquantes sans nécessiter de réentraînement.

Shuangzhi Li, Lei Ma, Xingyu Li2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Le papier présente MUSE, une plateforme open-source centrée sur les exécutions qui évalue de manière unifiée la sécurité multimodale des grands modèles de langage en intégrant la génération automatique de charges utiles, des attaques multi-tours avec basculement inter-tours de modalités, et une métrique dualiste pour révéler que l'alignement des modèles ne se généralise pas systématiquement aux entrées audio, image et vidéo.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Cet article introduit de nouvelles structures géométriques de type Finsler et information-géométrique duales sur le domaine des matrices définies positives, dérivées de la reparamétrisation en bicône de James, qui garantissent que les géodésiques correspondent à des lignes droites et généralisent des distances classiques comme celle du simplexe de Hilbert.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

Ce papier présente WTHaar-Net, une approche hybride quantique-classique qui remplace la transformée de Hadamard par la transformée en ondelettes de Haar pour améliorer les réseaux de neurones convolutifs, permettant une réduction significative des paramètres tout en maintenant une précision compétitive sur des jeux de données comme CIFAR-10 et Tiny-ImageNet, avec une validation réussie sur du matériel quantique IBM.

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs

Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

Cet article présente un cadre de reconstruction 3D du corps humain à partir de vidéos qui, en générant des marqueurs biomécaniques interprétables pour une analyse cinématique via OpenSim, permet une estimation précise et sans marqueurs des paramètres de la marche, surpassant les méthodes d'estimation de pose traditionnelles.

Akila Pemasiri, Ethan Goan, Glen Lichtwark + 3 more2026-03-04⚡ eess

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

Ce papier propose SGMA, un cadre de segmentation sémantique guidé par la sémantique et conscient des modalités qui, grâce à ses modules de fusion guidée et d'échantillonnage adaptatif, surpasse les méthodes actuelles en résolvant les déséquilibres, les variations intra-classe et les hétérogénéités croisées dans la segmentation multimodale à données incomplètes pour la télédétection.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

En proposant un cadre d'apprentissage profond basé sur les graphes qui compare des parcellisations anatomiques et fonctionnelles, cette étude démontre que l'utilisation de régions d'intérêt dérivées fonctionnellement (MSDL) combinée à un réseau d'attention graphique permet d'atteindre une précision de 95 % dans le diagnostic de l'autisme via l'IRMf au repos, tout en validant biologiquement les décisions du modèle grâce à des analyses d'interprétabilité.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

Le papier propose NeighborMAE, une méthode d'apprentissage auto-supervisé qui améliore la préformation des modèles d'auto-encodeurs masqués pour l'observation de la Terre en exploitant les dépendances spatiales entre images voisines grâce à une reconstruction conjointe et un ajustement dynamique des paramètres de masquage.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

L'article présente EIMC, une méthode de perception collaborative multi-modale innovante qui améliore la sécurité de la conduite autonome en réduisant drastiquement la bande passante grâce à une fusion précoce de voxels collaboratifs et à un protocole de consensus basé sur des cartes de chaleur pour ne transmettre que les instances critiques.

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs

Functional Properties of the Focal-Entropy

Cet article établit une fondation théorique pour la perte focale en analysant ses propriétés informationnelles via la notion d'entropie focale, démontrant ainsi comment elle amplifie les probabilités intermédiaires et supprime les probabilités élevées ou très faibles dans les problèmes de classification déséquilibrée.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

Cet article présente ForestPersons, un nouveau jeu de données à grande échelle conçu pour améliorer la détection de personnes disparues sous la canopée forestière en fournissant des perspectives au sol et à basse altitude, plus adaptées aux missions de recherche et de sauvetage que les vues aériennes traditionnelles.

Deokyun Kim, Jeongjun Lee, Jungwon Choi + 6 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

Cette étude propose le classificateur discriminatif assisté par génération (GAD), une méthode hybride qui combine la précision des classificateurs discriminatifs et la complémentarité des modèles génératifs pour améliorer l'efficacité et la performance des grands modèles de langage multimodaux dans la compréhension d'actions en contexte fermé.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

Le papier présente SemGS, un cadre feed-forward innovant qui reconstruit des champs sémantiques 3D généralisables à partir de vues éparses en utilisant une architecture à double branche et une attention consciente de la caméra pour permettre une synthèse de nouvelles vues sémantiques rapide et performante.

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Cet article présente un robot assistif chirurgical à deux bras capable de livrer des instruments de manière autonome et sans collision en utilisant un modèle vision-langage pour interpréter les commandes verbales et un cadre d'optimisation quadratique pour éviter les obstacles en temps réel.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Cet article propose GKD, un cadre de distillation de connaissances multi-étapes qui découple l'apprentissage des représentations de l'adaptation à la tâche et introduit un mécanisme d'extraction de connaissances basé sur des requêtes, permettant ainsi aux modèles de segmentation sémantique d'hériter de la robustesse hors domaine des modèles de fondation visuels tout en évitant le surapprentissage aux domaines visibles.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Ce papier propose VC-STaR, un cadre d'auto-amélioration pour les modèles vision-langage qui exploite des paires de questions visuelles contrastives pour atténuer les hallucinations et générer le nouveau jeu de données VisCoR-55K, améliorant ainsi significativement les capacités de raisonnement visuel des modèles.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

Le papier propose CAPT, un cadre d'ajustement de prompt conscient de la confusion qui réduit les erreurs d'alignement vision-langage en modélisant explicitement les relations de confusion stables via une banque de confusion et en intégrant des mineurs sémantiques et d'échantillons pour améliorer la discrimination fine des catégories.

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

Cet article présente CAWM-Mamba, un modèle unifié pionnier capable de fusionner simultanément des images infrarouges et visibles tout en restaurant les dégradations causées par des conditions météorologiques composées complexes, surpassant ainsi les méthodes existantes grâce à son architecture innovante intégrant des modules de prétraitement, d'interaction intermodale et de décomposition dans l'espace des ondelettes.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

← Précédent Suivant →