cs.CV articles | Gist.Science

MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry

MERG3R est un cadre d'apprentissage sans entraînement basé sur une approche diviser-pour-régnier qui permet aux modèles de géométrie visuelle neuronale de reconstruire des collections d'images à grande échelle en surmontant les limites de mémoire GPU grâce à la partition, la reconstruction locale et l'alignement global.

Leo Kaixuan Cheng, Abdus Shaikh, Ruofan Liang + 3 more2026-03-04💻 cs

Beyond Caption-Based Queries for Video Moment Retrieval

Cette étude identifie et résout les problèmes de généralisation des méthodes de récupération de moments vidéo lors du passage des requêtes de type « légende » aux requêtes de type « recherche », en proposant des modifications architecturales qui atténuent l'effondrement des requêtes du décodeur et améliorent significativement les performances sur des requêtes complexes et multi-moments.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Cet article propose un cadre de sélection de caractéristiques radiomiques spécifique au patient, utilisant une stratégie de récupération en deux étapes pour identifier des ensembles de caractéristiques complémentaires et interprétables qui surpassent les approches de sélection top-k tout en offrant une transparence comparable aux modèles d'apprentissage profond pour l'évaluation des IRM du genou.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Cet article présente « Cultural Counterfactuals », un ensemble de données synthétiques de près de 60 000 images modifiées permettant d'évaluer et de quantifier les biais culturels liés à la religion, la nationalité et le statut socio-économique dans les grands modèles vision-langage, un domaine jusqu'alors peu exploré en raison du manque de données annotées sur les contextes culturels.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

Aligning Fetal Anatomy with Kinematic Tree Log-Euclidean PolyRigid Transforms

Cet article présente un modèle volumétrique différentiable basé sur la formulation SMPL et piloté par une nouvelle transformée KTPolyRigid, qui permet une analyse précise et sans artefacts des corps articulés, comme les fœtus, en garantissant une cohérence anatomique pour l'enregistrement d'images et la segmentation.

Yingcheng Liu, Athena Taymourtash, Yang Liu + 5 more2026-03-04💻 cs

Authenticated Contradictions from Desynchronized Provenance and Watermarking

Cette étude révèle et formalise le « conflit d'intégrité », une vulnérabilité permettant de créer des contenus authentifiés par C2PA mais marqués comme générés par l'IA, et propose un protocole d'audit croisé pour résoudre cette contradiction sans compromettre la sécurité cryptographique.

Alexander Nemecek, Hengzhi He, Guang Cheng + 1 more2026-03-04⚡ eess

Advancing Earth Observation Through Machine Learning: A TorchGeo Tutorial

Ce papier présente un tutoriel sur TorchGeo, une bibliothèque PyTorch dédiée à l'observation de la Terre, qui illustre via des exemples de code et une étude de cas sur la segmentation de l'eau comment intégrer efficacement des données géospatiales dans des pipelines d'apprentissage automatique.

Caleb Robinson, Nils Lehmann, Adam J. Stewart + 4 more2026-03-04💻 cs

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

OpenMarcie est le plus grand jeu de données multimodales à ce jour, conçu pour la reconnaissance d'actions humaines en milieu industriel, intégrant des données de capteurs portables et de caméras provenant de 36 participants effectuant des tâches d'assemblage variées pour soutenir l'analyse de performance et de sécurité dans les usines intelligentes.

Hymalai Bello, Lala Ray, Joanna Sorysz + 2 more2026-03-04⚡ eess

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

Ce papier propose QuADD, un cadre unifié de distillation de dataset qui optimise conjointement le nombre d'échantillons et la précision de quantification sous une contrainte de bits fixe, surpassant les méthodes existantes en efficacité informationnelle pour des tâches de classification d'images et de gestion de faisceaux 3GPP.

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

TruckDrive: Long-Range Autonomous Highway Driving Dataset

Le papier présente TruckDrive, un ensemble de données multimodales conçu spécifiquement pour le pilotage autonome de poids lourds sur autoroute, qui révèle grâce à ses annotations jusqu'à 1 kilomètre que les modèles actuels échouent à généraliser au-delà de 150 mètres en raison d'un manque de perception à longue portée.

Filippo Ghilotti, Edoardo Palladin, Samuel Brucker + 3 more2026-03-04💻 cs

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

Le cadre MIRAGE améliore la prédiction de la maladie d'Alzheimer dans les cohortes dépourvues d'IRM en utilisant un graphe de connaissances biomédical et un décodeur 3D pré-entraîné pour distiller des représentations latentes diagnostiques à partir de dossiers médicaux électroniques, évitant ainsi la reconstruction coûteuse d'images tout en comblant le manque de données d'imagerie.

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

L'article présente ORCA, un cadre multi-agents collaboratif qui améliore la réponse aux questions visuelles sur des documents en décomposant les requêtes complexes, en orchestrant des agents spécialisés et en validant les réponses par des mécanismes de débat et d'adjudication.

Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini2026-03-04💻 cs

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Cet article propose une méthode de détection des feux de tourbière basée sur l'apprentissage profond et le transfert de connaissances, qui améliore significativement la précision et la robustesse de la détection en adaptant des modèles préentraînés sur des feux de forêt classiques à un jeu de données limité de feux de tourbière malaisiens.

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Cet article présente un cadre complet pour l'équité de la classification des tons de peau, incluant un nouveau jeu de données à grande échelle (STW), des benchmarks comparatifs et un modèle d'apprentissage profond (SkinToneNet) qui atteint des performances de pointe pour l'audit de biais dans les ensembles de données publics.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

Les auteurs proposent E2E-GNet, un réseau de neurones géométrique profond de bout en bout qui améliore la reconnaissance des mouvements humains à partir de squelettes en optimisant conjointement les séquences dans un espace non euclidien et en limitant les distorsions via une couche d'optimisation consciente de la déformation, surpassant ainsi les méthodes existantes avec un coût réduit.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop

Le papier présente ModalPatch, un module plug-and-play qui améliore la robustesse de la détection 3D multi-capteurs en cas de perte de données transitoire en exploitant les données temporelles historiques et une fusion guidée par l'incertitude pour compenser les caractéristiques manquantes sans nécessiter de réentraînement.

Shuangzhi Li, Lei Ma, Xingyu Li2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Le papier présente MUSE, une plateforme open-source centrée sur les exécutions qui évalue de manière unifiée la sécurité multimodale des grands modèles de langage en intégrant la génération automatique de charges utiles, des attaques multi-tours avec basculement inter-tours de modalités, et une métrique dualiste pour révéler que l'alignement des modèles ne se généralise pas systématiquement aux entrées audio, image et vidéo.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Cet article introduit de nouvelles structures géométriques de type Finsler et information-géométrique duales sur le domaine des matrices définies positives, dérivées de la reparamétrisation en bicône de James, qui garantissent que les géodésiques correspondent à des lignes droites et généralisent des distances classiques comme celle du simplexe de Hilbert.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

Ce papier présente WTHaar-Net, une approche hybride quantique-classique qui remplace la transformée de Hadamard par la transformée en ondelettes de Haar pour améliorer les réseaux de neurones convolutifs, permettant une réduction significative des paramètres tout en maintenant une précision compétitive sur des jeux de données comme CIFAR-10 et Tiny-ImageNet, avec une validation réussie sur du matériel quantique IBM.

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs

Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

Cet article présente un cadre de reconstruction 3D du corps humain à partir de vidéos qui, en générant des marqueurs biomécaniques interprétables pour une analyse cinématique via OpenSim, permet une estimation précise et sans marqueurs des paramètres de la marche, surpassant les méthodes d'estimation de pose traditionnelles.

Akila Pemasiri, Ethan Goan, Glen Lichtwark + 3 more2026-03-04⚡ eess

← Précédent Suivant →