Soft Equivariance Regularization for Invariant Self-Supervised Learning

Ce papier propose la régularisation d'équivariance douce (SER), une méthode plug-in qui découple l'apprentissage de l'invariance et de l'équivariance en appliquant cette dernière à une carte de tokens intermédiaire, améliorant ainsi les performances de l'apprentissage auto-supervisé sur la reconnaissance d'images, la robustesse aux perturbations géométriques et la détection d'objets sans nécessiter de prédictions de transformation ni d'augmenter significativement le coût computationnel.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

L'article présente HARP, une méthode d'apprentissage profond qui harmonise les données d'IRM de diffusion in vivo en s'entraînant exclusivement sur des fantômes, éliminant ainsi le besoin de cohortes humaines multi-sites complexes pour réduire la variabilité inter-scanners.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Cette étude propose d'utiliser des trajectoires de regard séquentielles comme signal de supervision pour entraîner des modèles vision-langage médicaux à raisonner visuellement de manière similaire aux radiologues, améliorant ainsi leurs performances tant en domaine qu'en dehors de celui-ci.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Ce papier introduit le cadre SIQA pour évaluer la qualité des images scientifiques selon des dimensions de connaissance et de perception, en révélant grâce à un nouveau benchmark que les modèles multimodaux actuels présentent un décalage significatif entre leur capacité à noter ces images et leur compréhension scientifique réelle.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Ce papier présente HERO, un cadre unifié pour l'ancrage temporel de phrases dans les vidéos en vocabulaire ouvert, accompagné de la création des premiers benchmarks dédiés (Charades-OV et ActivityNet-OV) et démontrant une capacité de généralisation supérieure grâce à un raffinement hiérarchique des embeddings et une alignement multimodal amélioré.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Ce papier présente XMACNet, un réseau de neurones convolutifs léger et explicable qui fusionne des images visibles et des indices de végétation pour détecter les maladies du piment avec une grande précision, grâce à une architecture basée sur l'attention et un jeu de données enrichi par génération synthétique.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

Le papier propose HiDE, un cadre de modélisation d'entropie hiérarchique pour la compression d'images apprise qui améliore l'efficacité du codage en exploitant des priors externes structurés via des dictionnaires globaux et locaux, ainsi qu'un estimateur de paramètres adaptatif, permettant des économies de débit significatives par rapport aux méthodes existantes.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Cette étude révèle que la qualité de l'ancrage visuel étape par étape dans les modèles vision-langage à long terme est un indicateur prédictif majeur de leur capacité à généraliser hors distribution, surpassant la simple précision finale ou l'échelle du modèle.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Ce papier présente MotionBits, une nouvelle approche d'analyse de mouvement basée sur l'équivalence des twists spatiaux cinématiques pour segmenter les corps rigides sans dépendre de la sémantique, accompagnée d'un benchmark nommé MoRiBo et d'une méthode de segmentation sans apprentissage qui surpassent les méthodes existantes et améliorent les tâches de raisonnement et de manipulation incarnée.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Cet article propose un cadre d'acquisition active de vues nommé Perturbed Gaussian Ensemble, qui intègre la modélisation de l'incertitude et la prise de décision séquentielle pour sélectionner les projections optimales dans la reconstruction tomographique par Gaussian Splatting, surpassant ainsi les méthodes existantes en réduisant les artefacts géométriques et en améliorant la fidélité de reconstruction à partir de données éparses.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs