Beyond Caption-Based Queries for Video Moment Retrieval

Cette étude identifie et résout les problèmes de généralisation des méthodes de récupération de moments vidéo lors du passage des requêtes de type « légende » aux requêtes de type « recherche », en proposant des modifications architecturales qui atténuent l'effondrement des requêtes du décodeur et améliorent significativement les performances sur des requêtes complexes et multi-moments.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Cet article propose un cadre de sélection de caractéristiques radiomiques spécifique au patient, utilisant une stratégie de récupération en deux étapes pour identifier des ensembles de caractéristiques complémentaires et interprétables qui surpassent les approches de sélection top-k tout en offrant une transparence comparable aux modèles d'apprentissage profond pour l'évaluation des IRM du genou.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Cet article présente « Cultural Counterfactuals », un ensemble de données synthétiques de près de 60 000 images modifiées permettant d'évaluer et de quantifier les biais culturels liés à la religion, la nationalité et le statut socio-économique dans les grands modèles vision-langage, un domaine jusqu'alors peu exploré en raison du manque de données annotées sur les contextes culturels.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

OpenMarcie est le plus grand jeu de données multimodales à ce jour, conçu pour la reconnaissance d'actions humaines en milieu industriel, intégrant des données de capteurs portables et de caméras provenant de 36 participants effectuant des tâches d'assemblage variées pour soutenir l'analyse de performance et de sécurité dans les usines intelligentes.

Hymalai Bello, Lala Ray, Joanna Sorysz + 2 more2026-03-04⚡ eess

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

Ce papier propose QuADD, un cadre unifié de distillation de dataset qui optimise conjointement le nombre d'échantillons et la précision de quantification sous une contrainte de bits fixe, surpassant les méthodes existantes en efficacité informationnelle pour des tâches de classification d'images et de gestion de faisceaux 3GPP.

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

Le cadre MIRAGE améliore la prédiction de la maladie d'Alzheimer dans les cohortes dépourvues d'IRM en utilisant un graphe de connaissances biomédical et un décodeur 3D pré-entraîné pour distiller des représentations latentes diagnostiques à partir de dossiers médicaux électroniques, évitant ainsi la reconstruction coûteuse d'images tout en comblant le manque de données d'imagerie.

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Cet article propose une méthode de détection des feux de tourbière basée sur l'apprentissage profond et le transfert de connaissances, qui améliore significativement la précision et la robustesse de la détection en adaptant des modèles préentraînés sur des feux de forêt classiques à un jeu de données limité de feux de tourbière malaisiens.

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Cet article présente un cadre complet pour l'équité de la classification des tons de peau, incluant un nouveau jeu de données à grande échelle (STW), des benchmarks comparatifs et un modèle d'apprentissage profond (SkinToneNet) qui atteint des performances de pointe pour l'audit de biais dans les ensembles de données publics.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

Les auteurs proposent E2E-GNet, un réseau de neurones géométrique profond de bout en bout qui améliore la reconnaissance des mouvements humains à partir de squelettes en optimisant conjointement les séquences dans un espace non euclidien et en limitant les distorsions via une couche d'optimisation consciente de la déformation, surpassant ainsi les méthodes existantes avec un coût réduit.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Le papier présente MUSE, une plateforme open-source centrée sur les exécutions qui évalue de manière unifiée la sécurité multimodale des grands modèles de langage en intégrant la génération automatique de charges utiles, des attaques multi-tours avec basculement inter-tours de modalités, et une métrique dualiste pour révéler que l'alignement des modèles ne se généralise pas systématiquement aux entrées audio, image et vidéo.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Cet article introduit de nouvelles structures géométriques de type Finsler et information-géométrique duales sur le domaine des matrices définies positives, dérivées de la reparamétrisation en bicône de James, qui garantissent que les géodésiques correspondent à des lignes droites et généralisent des distances classiques comme celle du simplexe de Hilbert.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

Ce papier présente WTHaar-Net, une approche hybride quantique-classique qui remplace la transformée de Hadamard par la transformée en ondelettes de Haar pour améliorer les réseaux de neurones convolutifs, permettant une réduction significative des paramètres tout en maintenant une précision compétitive sur des jeux de données comme CIFAR-10 et Tiny-ImageNet, avec une validation réussie sur du matériel quantique IBM.

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs

Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

Cet article présente un cadre de reconstruction 3D du corps humain à partir de vidéos qui, en générant des marqueurs biomécaniques interprétables pour une analyse cinématique via OpenSim, permet une estimation précise et sans marqueurs des paramètres de la marche, surpassant les méthodes d'estimation de pose traditionnelles.

Akila Pemasiri, Ethan Goan, Glen Lichtwark + 3 more2026-03-04⚡ eess