cs.CV articles | Gist.Science

Social-JEPA: Emergent Geometric Isomorphism

L'article présente Social-JEPA, une méthode où des agents apprenant indépendamment à partir de points de vue distincts développent spontanément des espaces latents isométriques, permettant une traduction transparente et un transfert de tâches sans ajustement supplémentaire.

Haoran Zhang, Youjin Wang, Yi Duan + 6 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

Cette étude propose un cadre de vérification multimodal pour l'identification animale qui, grâce à un corpus massif de 1,9 million d'images et à l'intégration de descriptions textuelles synthétiques via un mécanisme de fusion adaptatif, améliore significativement la précision de réidentification des animaux par rapport aux méthodes unimodales.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

Ce papier propose PDP, un cadre novateur pour la détection d'objets incrémentielle qui surpasse les méthodes existantes en utilisant un découplage de prompts à double pool pour séparer les connaissances générales et spécifiques, ainsi qu'un module de génération de pseudo-étiquettes prototypiques pour corriger la dérive des prompts et atteindre des performances de pointe sur les benchmarks MS-COCO et PASCAL VOC.

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

AutoFFS: Adversarial Deformations for Facial Feminization Surgery Planning

L'article présente AutoFFS, un cadre novateur basé sur les données qui utilise des déformations adverses pour générer des morphologies crâniennes contrefactuelles et quantifier ainsi la planification chirurgicale de la féminisation faciale.

Paul Friedrich, Florentin Bieder, Florian M. Thieringer + 1 more2026-03-04⚡ eess

Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

Cet article présente une évaluation systématique des fonctions de perte et des architectures pour la classification multi-étiquettes de radiographies thoraciques à distribution déséquilibrée, démontrant que l'utilisation de LDAM-DRW avec ConvNeXt-Large permet d'atteindre le 5ᵉ rang sur le benchmark CXR-LT 2026.

Nikhileswara Rao Sulake2026-03-04⚡ eess

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Le papier présente HAMMER, un cadre innovant exploitant les grands modèles de langage multimodaux (MLLM) pour la localisation d'affordances 3D guidée par l'intention d'interaction, en agrégeant les indices contextuels visuels dans des embeddings de contact et en intégrant des mécanismes hiérarchiques pour affiner les représentations 3D sans dépendre de descriptions d'attributs explicites ou de segmenteurs 2D préexistants.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

Cet article propose des cartes de préconditionnement réversibles pour améliorer la condition du covariance des distributions intermédiaires dans l'apprentissage par flux et score, permettant ainsi de surmonter les plateaux d'optimisation causés par un mauvais conditionnement et d'obtenir des modèles génératifs mieux entraînés.

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI

MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry

MERG3R est un cadre d'apprentissage sans entraînement basé sur une approche diviser-pour-régnier qui permet aux modèles de géométrie visuelle neuronale de reconstruire des collections d'images à grande échelle en surmontant les limites de mémoire GPU grâce à la partition, la reconstruction locale et l'alignement global.

Leo Kaixuan Cheng, Abdus Shaikh, Ruofan Liang + 3 more2026-03-04💻 cs

Beyond Caption-Based Queries for Video Moment Retrieval

Cette étude identifie et résout les problèmes de généralisation des méthodes de récupération de moments vidéo lors du passage des requêtes de type « légende » aux requêtes de type « recherche », en proposant des modifications architecturales qui atténuent l'effondrement des requêtes du décodeur et améliorent significativement les performances sur des requêtes complexes et multi-moments.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Cet article propose un cadre de sélection de caractéristiques radiomiques spécifique au patient, utilisant une stratégie de récupération en deux étapes pour identifier des ensembles de caractéristiques complémentaires et interprétables qui surpassent les approches de sélection top-k tout en offrant une transparence comparable aux modèles d'apprentissage profond pour l'évaluation des IRM du genou.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Cet article présente « Cultural Counterfactuals », un ensemble de données synthétiques de près de 60 000 images modifiées permettant d'évaluer et de quantifier les biais culturels liés à la religion, la nationalité et le statut socio-économique dans les grands modèles vision-langage, un domaine jusqu'alors peu exploré en raison du manque de données annotées sur les contextes culturels.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

Aligning Fetal Anatomy with Kinematic Tree Log-Euclidean PolyRigid Transforms

Cet article présente un modèle volumétrique différentiable basé sur la formulation SMPL et piloté par une nouvelle transformée KTPolyRigid, qui permet une analyse précise et sans artefacts des corps articulés, comme les fœtus, en garantissant une cohérence anatomique pour l'enregistrement d'images et la segmentation.

Yingcheng Liu, Athena Taymourtash, Yang Liu + 5 more2026-03-04💻 cs

Authenticated Contradictions from Desynchronized Provenance and Watermarking

Cette étude révèle et formalise le « conflit d'intégrité », une vulnérabilité permettant de créer des contenus authentifiés par C2PA mais marqués comme générés par l'IA, et propose un protocole d'audit croisé pour résoudre cette contradiction sans compromettre la sécurité cryptographique.

Alexander Nemecek, Hengzhi He, Guang Cheng + 1 more2026-03-04⚡ eess

Advancing Earth Observation Through Machine Learning: A TorchGeo Tutorial

Ce papier présente un tutoriel sur TorchGeo, une bibliothèque PyTorch dédiée à l'observation de la Terre, qui illustre via des exemples de code et une étude de cas sur la segmentation de l'eau comment intégrer efficacement des données géospatiales dans des pipelines d'apprentissage automatique.

Caleb Robinson, Nils Lehmann, Adam J. Stewart + 4 more2026-03-04💻 cs

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

OpenMarcie est le plus grand jeu de données multimodales à ce jour, conçu pour la reconnaissance d'actions humaines en milieu industriel, intégrant des données de capteurs portables et de caméras provenant de 36 participants effectuant des tâches d'assemblage variées pour soutenir l'analyse de performance et de sécurité dans les usines intelligentes.

Hymalai Bello, Lala Ray, Joanna Sorysz + 2 more2026-03-04⚡ eess

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

Ce papier propose QuADD, un cadre unifié de distillation de dataset qui optimise conjointement le nombre d'échantillons et la précision de quantification sous une contrainte de bits fixe, surpassant les méthodes existantes en efficacité informationnelle pour des tâches de classification d'images et de gestion de faisceaux 3GPP.

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

TruckDrive: Long-Range Autonomous Highway Driving Dataset

Le papier présente TruckDrive, un ensemble de données multimodales conçu spécifiquement pour le pilotage autonome de poids lourds sur autoroute, qui révèle grâce à ses annotations jusqu'à 1 kilomètre que les modèles actuels échouent à généraliser au-delà de 150 mètres en raison d'un manque de perception à longue portée.

Filippo Ghilotti, Edoardo Palladin, Samuel Brucker + 3 more2026-03-04💻 cs

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

Le cadre MIRAGE améliore la prédiction de la maladie d'Alzheimer dans les cohortes dépourvues d'IRM en utilisant un graphe de connaissances biomédical et un décodeur 3D pré-entraîné pour distiller des représentations latentes diagnostiques à partir de dossiers médicaux électroniques, évitant ainsi la reconstruction coûteuse d'images tout en comblant le manque de données d'imagerie.

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

L'article présente ORCA, un cadre multi-agents collaboratif qui améliore la réponse aux questions visuelles sur des documents en décomposant les requêtes complexes, en orchestrant des agents spécialisés et en validant les réponses par des mécanismes de débat et d'adjudication.

Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini2026-03-04💻 cs

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Cet article propose une méthode de détection des feux de tourbière basée sur l'apprentissage profond et le transfert de connaissances, qui améliore significativement la précision et la robustesse de la détection en adaptant des modèles préentraînés sur des feux de forêt classiques à un jeu de données limité de feux de tourbière malaisiens.

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI

← Précédent Suivant →