From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

Cette étude propose un cadre de vérification multimodal pour l'identification animale qui, grâce à un corpus massif de 1,9 million d'images et à l'intégration de descriptions textuelles synthétiques via un mécanisme de fusion adaptatif, améliore significativement la précision de réidentification des animaux par rapport aux méthodes unimodales.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

Ce papier propose PDP, un cadre novateur pour la détection d'objets incrémentielle qui surpasse les méthodes existantes en utilisant un découplage de prompts à double pool pour séparer les connaissances générales et spécifiques, ainsi qu'un module de génération de pseudo-étiquettes prototypiques pour corriger la dérive des prompts et atteindre des performances de pointe sur les benchmarks MS-COCO et PASCAL VOC.

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Le papier présente HAMMER, un cadre innovant exploitant les grands modèles de langage multimodaux (MLLM) pour la localisation d'affordances 3D guidée par l'intention d'interaction, en agrégeant les indices contextuels visuels dans des embeddings de contact et en intégrant des mécanismes hiérarchiques pour affiner les représentations 3D sans dépendre de descriptions d'attributs explicites ou de segmenteurs 2D préexistants.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Beyond Caption-Based Queries for Video Moment Retrieval

Cette étude identifie et résout les problèmes de généralisation des méthodes de récupération de moments vidéo lors du passage des requêtes de type « légende » aux requêtes de type « recherche », en proposant des modifications architecturales qui atténuent l'effondrement des requêtes du décodeur et améliorent significativement les performances sur des requêtes complexes et multi-moments.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Cet article propose un cadre de sélection de caractéristiques radiomiques spécifique au patient, utilisant une stratégie de récupération en deux étapes pour identifier des ensembles de caractéristiques complémentaires et interprétables qui surpassent les approches de sélection top-k tout en offrant une transparence comparable aux modèles d'apprentissage profond pour l'évaluation des IRM du genou.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Cet article présente « Cultural Counterfactuals », un ensemble de données synthétiques de près de 60 000 images modifiées permettant d'évaluer et de quantifier les biais culturels liés à la religion, la nationalité et le statut socio-économique dans les grands modèles vision-langage, un domaine jusqu'alors peu exploré en raison du manque de données annotées sur les contextes culturels.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

OpenMarcie est le plus grand jeu de données multimodales à ce jour, conçu pour la reconnaissance d'actions humaines en milieu industriel, intégrant des données de capteurs portables et de caméras provenant de 36 participants effectuant des tâches d'assemblage variées pour soutenir l'analyse de performance et de sécurité dans les usines intelligentes.

Hymalai Bello, Lala Ray, Joanna Sorysz + 2 more2026-03-04⚡ eess

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

Ce papier propose QuADD, un cadre unifié de distillation de dataset qui optimise conjointement le nombre d'échantillons et la précision de quantification sous une contrainte de bits fixe, surpassant les méthodes existantes en efficacité informationnelle pour des tâches de classification d'images et de gestion de faisceaux 3GPP.

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

Le cadre MIRAGE améliore la prédiction de la maladie d'Alzheimer dans les cohortes dépourvues d'IRM en utilisant un graphe de connaissances biomédical et un décodeur 3D pré-entraîné pour distiller des représentations latentes diagnostiques à partir de dossiers médicaux électroniques, évitant ainsi la reconstruction coûteuse d'images tout en comblant le manque de données d'imagerie.

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Cet article propose une méthode de détection des feux de tourbière basée sur l'apprentissage profond et le transfert de connaissances, qui améliore significativement la précision et la robustesse de la détection en adaptant des modèles préentraînés sur des feux de forêt classiques à un jeu de données limité de feux de tourbière malaisiens.

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI