Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Cet article propose un cadre robuste combinant l'architecture hybride CoAtNet et la technique de « model soups » pour améliorer la classification des images du patrimoine culturel immatériel du delta du Mékong, atteignant des performances de pointe en réduisant la variance grâce à un ensemencement intelligent de checkpoints géométriquement diversifiés.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Cette étude évalue l'utilisation de DINOv3 comme backbone sémantique figé pour les tâches de perception visuelle liées à la récolte robotisée de myrtilles, révélant que si la segmentation bénéficie de ses représentations stables, la détection et la localisation des grappes restent limitées par la variabilité d'échelle et la nécessité d'une modélisation spatiale adaptée.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Ce papier propose CGL, un cadre d'apprentissage continu pour les agents d'interface graphique qui combine l'ajustement fin supervisé et l'apprentissage par renforcement via un mécanisme d'ajustement dynamique et une chirurgie des gradients pour surmonter l'oubli catastrophique lors de l'adaptation aux mises à jour fréquentes des applications.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Cet article révèle que l'effacement par élagage des modèles de diffusion est vulnérable à une attaque de « résurrection de concept » totalement sans données ni réentraînement, car les positions des poids élagués peuvent servir de canal latéral pour restaurer les concepts supprimés, incitant ainsi à développer des mécanismes d'élagage plus sûrs qui masquent ces localisations.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Cette étude propose un cadre de cohérence des marges intégrant un score de fidélité aux perturbations pour améliorer la robustesse et la précision du sous-typage de l'adénocarcinome pulmonaire invasif à partir d'images de lames entières, démontrant des performances supérieures et une bonne généralisation sur des benchmarks externes.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Le papier présente PaLMR, un cadre qui améliore la fiabilité du raisonnement visuel des modèles multimodaux en alignant non seulement les réponses finales mais aussi le processus de raisonnement grâce à une couche de données perceptives et une optimisation par récompense hiérarchique, réduisant ainsi les hallucinations tout en obtenant des résultats de pointe sur plusieurs benchmarks.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Le papier présente GameVerse, une nouvelle référence de jeux vidéo conçue pour évaluer la capacité des modèles vision-langage à améliorer leurs stratégies grâce à un cycle d'apprentissage par réflexion vidéo, démontrant que la combinaison des trajectoires d'échec et des tutoriels experts permet d'optimiser leurs performances sans apprentissage par renforcement.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Ce papier présente ASMIL, un cadre unifié qui stabilise la dynamique d'attention dans l'apprentissage multiple instance pour l'imagerie de lames entières en utilisant un modèle ancre et une fonction sigmoïde normalisée, surmontant ainsi l'instabilité, le surapprentissage et la concentration excessive de l'attention pour améliorer significativement les performances de diagnostic.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Ce papier présente EnsAug, une nouvelle méthode d'apprentissage qui améliore l'analyse des mouvements humains en entraînant un ensemble de modèles spécialisés sur des transformations géométriques distinctes, surpassant ainsi les approches conventionnelles et atteignant des performances de pointe sur des tâches de reconnaissance de la langue des signes et d'activités humaines.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

Le papier présente HyperTokens, une méthode utilisant un générateur de tokens et des régularisations inspirées du méta-apprentissage pour maîtriser la dynamique des tokens et réduire l'oubli dans la compréhension vidéo-linguistique continue, tout en maintenant une mémoire fixe et en améliorant les performances sur des benchmarks standards et des protocoles de transfert transmodal.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG