cs.CV articles | Gist.Science

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

Ce papier propose le cadre MSP, qui améliore la ré-identification des personnes changeant de vêtements en atténuant la dépendance aux coiffures grâce à l'augmentation orientée coiffure, à l'éraflage aléatoire préservant les vêtements et à une attention basée sur le parsing des régions.

Xiangyang He, Lin Wan2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Cette étude propose une pipeline de détection gating innovante qui améliore la robustesse et la généralisation de l'extraction de la forme d'onde de la surface glottique à partir de vidéolaryngoscopies haute vitesse, permettant ainsi une évaluation clinique fiable des biomarqueurs vocaux sur des plateformes diverses.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Cet article propose un cadre robuste combinant l'architecture hybride CoAtNet et la technique de « model soups » pour améliorer la classification des images du patrimoine culturel immatériel du delta du Mékong, atteignant des performances de pointe en réduisant la variance grâce à un ensemencement intelligent de checkpoints géométriquement diversifiés.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Cette étude évalue l'utilisation de DINOv3 comme backbone sémantique figé pour les tâches de perception visuelle liées à la récolte robotisée de myrtilles, révélant que si la segmentation bénéficie de ses représentations stables, la détection et la localisation des grappes restent limitées par la variabilité d'échelle et la nécessité d'une modélisation spatiale adaptée.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Cet article présente une méthode sans calcul de gradient, utilisant GramCol et un algorithme de sélection de caractéristiques pour générer des cartes d'attention motrices interprétables (IMAP) qui localisent spatio-temporellement les concepts de mouvement dans les Transformers de diffusion vidéo.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Ce papier propose CGL, un cadre d'apprentissage continu pour les agents d'interface graphique qui combine l'ajustement fin supervisé et l'apprentissage par renforcement via un mécanisme d'ajustement dynamique et une chirurgie des gradients pour surmonter l'oubli catastrophique lors de l'adaptation aux mises à jour fréquentes des applications.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Ce papier présente LDP-Slicing, un cadre léger et sans entraînement qui améliore l'utilité des images sous la protection de la confidentialité différentielle locale (LDP) en décomposant les valeurs des pixels en plans de bits binaires, en intégrant une module d'obfuscation perceptuelle et une allocation optimisée du budget de confidentialité.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Ce papier présente DeepScope, une solution innovante basée sur l'apprentissage profond qui analyse instantanément des images microscopiques d'échantillons d'eau non incubés pour détecter la contamination fécale avec une précision de 93 % et un coût réduit à 0,44 $ par test, surpassant ainsi les exigences de l'UNICEF.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

L'article présente OptiRoulette, un méta-optimiseur stochastique qui sélectionne dynamiquement des règles de mise à jour lors de l'entraînement, permettant une convergence jusqu'à 5,3 fois plus rapide et une précision supérieure par rapport à AdamW sur plusieurs jeux de données d'images.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Cet article propose une représentation unifiée des modèles de diffusion et de l'appariement de flux via deux équations linéaires simples, révélant par une analyse théorique que la corrélation parfois faible entre les données bruitées et la cible prédite peut nuire au processus d'apprentissage de ces modèles.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

Le papier présente RECAP, une stratégie d'apprentissage bio-inspirée qui associe la dynamique d'un réservoir non entraîné à une lecture auto-organisée par prototypes hebbiens pour réaliser une classification d'images robuste sans recours à la rétropropagation de l'erreur.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Cet article révèle que l'effacement par élagage des modèles de diffusion est vulnérable à une attaque de « résurrection de concept » totalement sans données ni réentraînement, car les positions des poids élagués peuvent servir de canal latéral pour restaurer les concepts supprimés, incitant ainsi à développer des mécanismes d'élagage plus sûrs qui masquent ces localisations.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

Cet article présente ObjChangeVR, un cadre et un jeu de données dédiés au raisonnement sur les changements d'état d'objets dans des environnements de réalité virtuelle à partir de vues égocentriques continues, en surmontant les défis liés aux changements non interactifs et à l'absence de benchmarks existants.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Cette étude propose un cadre de cohérence des marges intégrant un score de fidélité aux perturbations pour améliorer la robustesse et la précision du sous-typage de l'adénocarcinome pulmonaire invasif à partir d'images de lames entières, démontrant des performances supérieures et une bonne généralisation sur des benchmarks externes.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Le papier présente PaLMR, un cadre qui améliore la fiabilité du raisonnement visuel des modèles multimodaux en alignant non seulement les réponses finales mais aussi le processus de raisonnement grâce à une couche de données perceptives et une optimisation par récompense hiérarchique, réduisant ainsi les hallucinations tout en obtenant des résultats de pointe sur plusieurs benchmarks.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Ce papier présente FCBNet, un modèle efficace pour la segmentation des mauvaises herbes basé sur un backbone ConvNeXt figé et un bloc de correction de caractéristiques, qui surpasse les architectures existantes en précision et en efficacité computationnelle sur des images aériennes multispectrales.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Le papier présente GameVerse, une nouvelle référence de jeux vidéo conçue pour évaluer la capacité des modèles vision-langage à améliorer leurs stratégies grâce à un cycle d'apprentissage par réflexion vidéo, démontrant que la combinaison des trajectoires d'échec et des tutoriels experts permet d'optimiser leurs performances sans apprentissage par renforcement.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Ce papier présente ASMIL, un cadre unifié qui stabilise la dynamique d'attention dans l'apprentissage multiple instance pour l'imagerie de lames entières en utilisant un modèle ancre et une fonction sigmoïde normalisée, surmontant ainsi l'instabilité, le surapprentissage et la concentration excessive de l'attention pour améliorer significativement les performances de diagnostic.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Ce papier présente EnsAug, une nouvelle méthode d'apprentissage qui améliore l'analyse des mouvements humains en entraînant un ensemble de modèles spécialisés sur des transformations géométriques distinctes, surpassant ainsi les approches conventionnelles et atteignant des performances de pointe sur des tâches de reconnaissance de la langue des signes et d'activités humaines.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

Le papier présente HyperTokens, une méthode utilisant un générateur de tokens et des régularisations inspirées du méta-apprentissage pour maîtriser la dynamique des tokens et réduire l'oubli dans la compréhension vidéo-linguistique continue, tout en maintenant une mémoire fixe et en améliorant les performances sur des benchmarks standards et des protocoles de transfert transmodal.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

← Précédent Suivant →