cs.CV articles | Gist.Science

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Ce papier propose la régularisation d'équivariance douce (SER), une méthode plug-in qui découple l'apprentissage de l'invariance et de l'équivariance en appliquant cette dernière à une carte de tokens intermédiaire, améliorant ainsi les performances de l'apprentissage auto-supervisé sur la reconnaissance d'images, la robustesse aux perturbations géométriques et la détection d'objets sans nécessiter de prédictions de transformation ni d'augmenter significativement le coût computationnel.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

L'article présente HARP, une méthode d'apprentissage profond qui harmonise les données d'IRM de diffusion in vivo en s'entraînant exclusivement sur des fantômes, éliminant ainsi le besoin de cohortes humaines multi-sites complexes pour réduire la variabilité inter-scanners.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Cette étude propose d'utiliser des trajectoires de regard séquentielles comme signal de supervision pour entraîner des modèles vision-langage médicaux à raisonner visuellement de manière similaire aux radiologues, améliorant ainsi leurs performances tant en domaine qu'en dehors de celui-ci.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Cette étude démontre que la distillation de connaissances asymétrique d'un grand modèle Vision Transformer vers des CNN contraints en capacité provoque un effondrement dimensionnel sévère qui sacrifie la robustesse au bruit, révélant un compromis fondamental entre la capacité du modèle et la préservation de l'immunité au bruit inhérente à l'enseignant.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

Cet article présente gRef-CW, le premier jeu de données pour la localisation visuelle généralisée en agriculture incluant des expressions négatives, ainsi que Weed-VG, un cadre modulaire conçu pour surmonter les lacunes des modèles actuels dans la détection d'instances de cultures et de mauvaises herbes en conditions réelles.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Ce papier introduit le cadre SIQA pour évaluer la qualité des images scientifiques selon des dimensions de connaissance et de perception, en révélant grâce à un nouveau benchmark que les modèles multimodaux actuels présentent un décalage significatif entre leur capacité à noter ces images et leur compréhension scientifique réelle.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Ce papier propose un cadre d'IA multimodale conscient des paramètres de la caméra pour surmonter les limites de généralisation des modèles actuels en désenchevêtrant les propriétés physiques des objets de la perspective d'acquisition, permettant ainsi un raisonnement spatial 3D robuste et généralisable.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Cette étude démontre que l'application de la régression quantile conformée aux modèles d'apprentissage profond pour la prédiction des éruptions solaires améliore significativement la fiabilité des prévisions en fournissant des intervalles de confiance plus précis et mieux couverts que les méthodes alternatives.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Ce papier propose le paradigme UWPD et le modèle FSNet, qui utilisent des mécanismes d'attention spectrale adaptative pour détecter universellement la présence de filigranes invisibles dans les images sans avoir besoin de connaître l'algorithme d'embedding spécifique.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Ce papier présente HERO, un cadre unifié pour l'ancrage temporel de phrases dans les vidéos en vocabulaire ouvert, accompagné de la création des premiers benchmarks dédiés (Charades-OV et ActivityNet-OV) et démontrant une capacité de généralisation supérieure grâce à un raffinement hiérarchique des embeddings et une alignement multimodal amélioré.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Cette étude propose un cadre d'attention multiplicative externe qui intègre des cartes de biomarqueurs vasculaires spécifiques, telles que la tortuosité et le dropout capillaire dérivés de l'OCTA, pour améliorer la détection interprétable de la dégénérescence maculaire liée à l'âge (DMLA) par apprentissage profond.

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Ce papier présente un cadre de diffusion décentralisé hétérogène efficace qui permet d'entraîner des experts avec des objectifs variés (DDPM et Flow Matching) sur des ressources réduites, tout en assurant une convergence rapide et une qualité supérieure grâce à une conversion déterministe à l'inférence et à une architecture optimisée.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

ButterflyViT est une méthode innovante qui permet de déployer des Transformers de vision à mélange d'experts (MoE) sur des appareils embarqués en réduisant la mémoire requise de 354 fois grâce à une paramétrisation géométrique d'un substrat partagé et à un régularisateur de lissage spatial, tout en préservant la précision.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Ce papier présente XMACNet, un réseau de neurones convolutifs léger et explicable qui fusionne des images visibles et des indices de végétation pour détecter les maladies du piment avec une grande précision, grâce à une architecture basée sur l'attention et un jeu de données enrichi par génération synthétique.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

Ce papier présente EarthBridge, un cadre de traduction d'images haute fidélité basé sur des modèles de ponts de diffusion et l'apprentissage contrastif, qui a obtenu la deuxième place lors du quatrième défi MAVIC-T en traduisant avec succès des images aériennes entre les modalités EO, IR et SAR.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

Le papier propose HiDE, un cadre de modélisation d'entropie hiérarchique pour la compression d'images apprise qui améliore l'efficacité du codage en exploitant des priors externes structurés via des dictionnaires globaux et locaux, ainsi qu'un estimateur de paramètres adaptatif, permettant des économies de débit significatives par rapport aux méthodes existantes.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Cet article présente un modèle hybride de machine learning combinant les réseaux de neurones VGG19, Efficient-Net et ResNet50 avec un classificateur Bi-LSTM pour détecter précocement la paralysie cérébrale à partir d'images IRM, atteignant une précision de 98,83 % supérieure à celle des modèles pré-entraînés existants.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Cette étude révèle que la qualité de l'ancrage visuel étape par étape dans les modèles vision-langage à long terme est un indicateur prédictif majeur de leur capacité à généraliser hors distribution, surpassant la simple précision finale ou l'échelle du modèle.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Ce papier présente MotionBits, une nouvelle approche d'analyse de mouvement basée sur l'équivalence des twists spatiaux cinématiques pour segmenter les corps rigides sans dépendre de la sémantique, accompagnée d'un benchmark nommé MoRiBo et d'une méthode de segmentation sans apprentissage qui surpassent les méthodes existantes et améliorent les tâches de raisonnement et de manipulation incarnée.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Cet article propose un cadre d'acquisition active de vues nommé Perturbed Gaussian Ensemble, qui intègre la modélisation de l'incertitude et la prise de décision séquentielle pour sélectionner les projections optimales dans la reconstruction tomographique par Gaussian Splatting, surpassant ainsi les méthodes existantes en réduisant les artefacts géométriques et en améliorant la fidélité de reconstruction à partir de données éparses.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

← Précédent Suivant →

cs.CV