cs.CV articles | Gist.Science

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

Le papier présente PromptGate, un cadre d'apprentissage fédéré actif adaptatif qui utilise des vecteurs de prompt optimisés pour purifier les pools de données non étiquetées des artefacts et des modalités erronées dans des environnements ouverts, garantissant ainsi une haute pureté des données médicales tout en préservant la confidentialité des patients.

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

Le papier propose ACD-U, un cadre d'apprentissage asymétrique combinant co-enseignement et désapprentissage automatique pour corriger activement les erreurs de sélection dans les données bruitées en associant un modèle CLIP préentraîné stable à un CNN adaptatif.

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

Cette étude évalue l'efficacité des visualisations de classes et des atlas d'activation pour interpréter les modèles de fondation basés sur les transformers en pathologie computationnelle, révélant que ces méthodes capturent la complexité morphologique inhérente aux tissus et aux sous-types de cancer tout en fournissant un cadre pour l'interrogation experte des représentations apprises.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

Ce papier présente FreeFly-Thinking, un cadre de navigation vision-langage pour drones end-to-end qui intègre un raisonnement par chaîne de pensée et une stratégie d'entraînement en deux étapes pour améliorer la navigation autonome dans des environnements urbains complexes.

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

Le papier présente FastSTAR, un cadre d'accélération sans entraînement pour la synthèse vidéo autorégressive spatiotemporelle qui utilise l'élagage de tokens basé sur la similarité spatiale et temporelle couplé à une mise à jour partielle pour réduire considérablement les coûts de calcul tout en préservant la qualité visuelle.

Sungwoong Yune, Suheon Jeong, Joo-Young Kim2026-03-10💻 cs

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

Ce papier propose la méthode SPCP, qui améliore la détection des données hors distribution en modifiant le processus d'apprentissage pour encourager l'utilisation d'un ensemble plus large de paramètres plutôt que de dépendre de quelques contributions dominantes, réduisant ainsi les prédictions excessivement confiantes.

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

Le papier présente VINO, un cadre d'apprentissage auto-supervisé qui utilise des priors structurels pour décontextualiser les objets dans des vidéos denses, permettant ainsi d'apprendre des représentations centrées sur l'objet qui surpassent les méthodes existantes en évitant les raccourcis contextuels.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

Le papier présente LightMedSeg, une architecture de segmentation médicale 3D légère et efficace qui intègre des priors anatomiques et des mécanismes d'ancrage pour atteindre une précision compétitive avec des modèles lourds tout en réduisant considérablement les paramètres et les coûts de calcul.

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

Ce papier présente BATDiff, un modèle de diffusion non supervisé utilisant une transformée en ondelettes bivariate à trous pour améliorer la cohérence structurelle et réduire les artefacts dans la super-résolution d'images uniques en fournissant un guidage inter-échelle structuré.

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Ce papier propose HY-WU, un cadre d'adaptation mémoriel fonctionnel qui génère dynamiquement des opérateurs spécifiques à chaque instance pour éviter le surapprentissage et permettre un apprentissage continu sans écraser les paramètres partagés.

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Le papier présente FabricGen, un cadre de génération de tissus tissés de haute qualité qui combine un modèle de diffusion pour les textures macroscopiques et un modèle géométrique procédural piloté par un LLM spécialisé pour créer des motifs de tissage réalistes au niveau des fils.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Ce papier présente PresentBench, une nouvelle référence d'évaluation fine et basée sur des critères spécifiques pour la génération automatique de diapositives, qui démontre une meilleure corrélation avec les préférences humaines et révèle la supériorité de NotebookLM par rapport aux autres méthodes existantes.

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Ce papier propose LEPA, une architecture prédictive qui apprend l'équivariance géométrique pour ajuster avec précision les embeddings de modèles de fondation géospatiaux selon des zones d'intérêt définies par l'utilisateur, surmontant ainsi les limitations de l'interpolation standard qui échoue dans les variétés non convexes.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

Ce papier présente les Variational Flow Maps, un cadre qui permet la génération conditionnelle en une seule étape en apprenant un adaptateur de bruit pour respecter les observations et les a priori des données, surpassant ainsi les modèles itératifs en vitesse tout en maintenant une haute fidélité.

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

Cette étude présente BD-VITON, un nouveau jeu de données axé sur les vêtements traditionnels bangladais pour combler les lacunes des benchmarks actuels dominés par la mode occidentale, et évalue la performance de plusieurs modèles d'essayage virtuel sur ces vêtements aux défis structurels uniques.

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

Ce papier présente MAviS, un assistant conversationnel multimodal spécialisé dans les espèces aviaires, qui s'appuie sur un nouveau jeu de données, un modèle de langage et une évaluation de référence pour améliorer la compréhension fine et le suivi écologique des oiseaux.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

Cet article propose une méthode combinant l'entraînement adversarial et un lissage léger des cartes de caractéristiques pour générer des cartes de saillance plus stables, éparse et dignes de confiance, démontrant ainsi que la qualité des explications dépend crucialement du processus d'entraînement.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Le papier propose StructSAM, un cadre de fusion et de récupération de tokens préservant la structure et le spectre, spécifiquement conçu pour accélérer les modèles Segment Anything (SAM) tout en protégeant les contours et les informations de prompt, surpassant ainsi les méthodes existantes sur divers benchmarks naturels et médicaux.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

Faster-HEAL: An Efficient and Privacy-Preserving Collaborative Perception Framework for Heterogeneous Autonomous Vehicles

Le papier propose Faster-HEAL, un cadre de perception collaborative léger et respectant la vie privée qui utilise un prompt visuel à faible rang et une fusion pyramidale pour aligner efficacement les caractéristiques d'agents hétérogènes sans nécessiter de réentraînement coûteux des modèles.

Armin Maleki, Hayder Radha2026-03-10💻 cs

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

Cet article présente un cadre léger basé sur un jumeau numérique pour le suivi des véhicules et la prédiction de collisions dans les systèmes de transport intelligents, qui utilise uniquement la détection d'objets et des cartes de trajectoires pré-calculées pour atteindre une précision de 88 % tout en restant adapté au déploiement sur des dispositifs périphériques à ressources limitées.

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs

← Précédent Suivant →