cs.CV articles | Gist.Science

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

Cet article présente PulseFocus, une méthode d'inférence sans entraînement qui améliore la compréhension d'images multiples par les modèles vision-langage en structurant le raisonnement pour corriger les pulsions d'attention diffuses et les biais positionnels observés lors de la génération de chaînes de pensée.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Cette étude présente une évaluation systématique des méthodes de compression de réseaux de neurones (élagage, quantification et distillation de connaissances) pour la classification d'images hyperspectrales, démontrant qu'elles permettent de réduire significativement la taille et le coût computationnel des modèles tout en maintenant des performances de classification compétitives pour le déploiement sur des plateformes à ressources limitées.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Bien que les grands modèles multimodaux (MLLM) offrent une nouvelle approche pour la détection d'anomalies vidéo via le raisonnement linguistique, cette étude révèle que leur utilisation en mode zéro-shot sur des benchmarks réels souffre d'un biais conservateur entraînant un effondrement du rappel, bien que des instructions spécifiques puissent significativement améliorer les performances globales.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

FOZO propose une méthode d'optimisation de prompt sans rétropropagation et économe en mémoire pour l'adaptation au moment du test, utilisant une estimation de gradient d'ordre zéro avec une échelle de perturbation décroissante pour surpasser les méthodes existantes sur des dispositifs à ressources limitées.

Xingyu Wang, Tao Wang2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

Ce papier présente Real-IISR, un cadre unifié d'autorégression guidé par des priors thermiques-structuraux et un nouveau jeu de données FLIR-IISR, conçus pour relever les défis de la super-résolution d'images infrarouges dans des conditions réelles en gérant les dégradations optiques et de capteurs complexes.

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Bien que la famille de modèles GPT-5 représente une avancée significative vers un raisonnement clinique multimodal intégré en surpassant GPT-4o dans la synthèse textuelle et l'analyse d'images, cette étude démontre qu'elle ne remplace pas encore les systèmes spécialisés dans des tâches de perception critique hautement spécifiques comme la neuroradiologie et la mammographie.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

Ce papier propose une nouvelle architecture GAMDSS qui améliore la reconnaissance des micro-expressions en corrigeant les biais d'annotation humaine, notamment dans les contextes interculturels, grâce à une sélection dynamique de cadres clés et une modélisation spatio-temporelle optimisée sans augmenter le nombre de paramètres.

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Cet article présente DSA-SRGS, un cadre pionnier de super-résolution par Gaussian Splatting conçu pour reconstruire des modèles 4D de vaisseaux sanguins à haute fidélité à partir de projections DSA dynamiques et peu nombreuses, en intégrant des modules d'apprentissage de texture multi-fidélité et de densification radiative sub-pixel pour surmonter les limitations de résolution et les artefacts des méthodes existantes.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

Le papier propose MADCrowner, un cadre d'apprentissage automatique novateur qui combine la déformation de modèles 3D guidée par le contexte anatomique et la segmentation précise des marges cervicales pour générer des couronnes dentaires personnalisées avec une précision géométrique et une faisabilité clinique supérieures aux méthodes existantes.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Ce rapport technique propose un cadre de perception respectueux de la vie privée, basé sur l'architecture collaborative edge-cloud et le paradigme AI Flow, qui transforme les images brutes en vecteurs de caractéristiques abstraits et irréversibles pour permettre une reconnaissance comportementale et une reconstruction sémantique dynamique sans jamais exposer les données visuelles originales.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

Ce papier propose le RMK RetinaNet, une nouvelle architecture de détection d'objets orientés pour l'imagerie satellitaire qui surpasse les méthodes existantes en surmontant les limitations des champs récepteurs, de la fusion de caractéristiques multi-échelles et de la régression d'angles grâce à des blocs de noyaux multi-échelles, une attention contextuelle directionnelle, un chemin de remontée et un module d'encodage d'angles d'Euler.

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

Cet article propose « LAW & ORDER », un cadre adaptatif de pondération spatiale combinant un pondérateur d'apprentissage (LAW) pour améliorer la synthèse d'images médicales par diffusion et un détecteur de régions optimisé (ORDER) pour la segmentation efficace, démontrant des performances supérieures sur des lésions de petite taille tout en réduisant considérablement la complexité computationnelle.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

Cette revue comparative démontre que les architectures de réseaux de neurones convolutifs surpassent les méthodes traditionnelles pour la segmentation et la classification précises des gliomes cérébraux, des étapes cruciales pour la planification thérapeutique et le pronostic personnalisé.

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Ce papier présente MASQuant, un cadre de quantisation post-entraînement innovant pour les modèles de langage multimodaux qui résout les problèmes de désalignement de lissage et d'invariance computationnelle intermodale grâce à un lissage spécifique à la modalité et à une compensation par blanchiment SVD, garantissant ainsi des performances stables et compétitives.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Cet article propose la Reconstruction Contrastive par Diffusion (DCR), une méthode qui intègre des signaux contrastifs dérivés des images reconstruites dans le processus de diffusion pour surmonter les limites des encodeurs visuels CLIP et équilibrer simultanément les capacités de discrimination et de perception des détails.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Le papier présente Meta-D, une architecture qui exploite les métadonnées catégorielles des scanners pour optimiser l'extraction de caractéristiques et améliorer la segmentation des tumeurs cérébrales, notamment en cas de modalités manquantes.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Cet article démontre qu'en comblant les écarts de domaine grâce à un nouveau jeu de données de haute qualité et à des augmentations réalistes, un modèle léger exploitant les signaux de polarisation peut surpasser les modèles de fondation RGB, même avec beaucoup moins de données d'entraînement et de paramètres.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Ce papier propose le cadre CAD (Class-specific Augmentation based Disentanglement), une méthode novatrice utilisant des régulations intra- et inter-classe pour atténuer l'entrelacement des instances et améliorer les performances de l'apprentissage par étiquettes partielles dépendantes des instances (ID-PLL).

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Cet article propose SADCA, une méthode d'attaque par contraste dynamique et enrichie sémantiquement qui améliore significativement la transférabilité des exemples adversariaux sur les modèles vision-langage en perturbant progressivement l'alignement multimodal et en augmentant la diversité des attaques.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Ce papier propose MPCAttack, un cadre d'attaque collaborative multi-paradigme qui améliore la transférabilité des exemples adversariaux contre les modèles de langage multimodaux en optimisant conjointement les représentations sémantiques visuelles et textuelles via une stratégie d'optimisation collaborative adaptative.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

← Précédent Suivant →