cs.CV articles | Gist.Science

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

Le papier propose SAVE, une nouvelle méthode d'apprentissage de représentations vidéo-sonores qui améliore les performances de la recherche vidéo-texte en intégrant un branchement dédié au traitement de la parole et une alignement précoce vision-son, surpassant ainsi les méthodes actuelles sur plusieurs benchmarks.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

Le papier propose SRNeRV, un cadre récursif à l'échelle qui améliore l'efficacité des paramètres et les performances de compression vidéo en partageant un module de mélange de canaux commun entre les échelles, tout en conservant des modules spatiaux spécifiques pour capturer les motifs locaux.

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

Le papier présente GarmentPainter, un cadre efficace qui génère des textures de vêtements 3D de haute qualité et cohérentes dans l'espace UV en utilisant un modèle de diffusion guidé par la position UV et une image de référence de personnage, sans nécessiter d'alignement spatial strict ni modifier l'architecture UNet sous-jacente.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Cette étude propose une analyse approfondie de l'utilisation de l'imagerie ultra-grand champ couplée à des méthodes d'apprentissage profond, notamment les transformers et les modèles de fondation, pour améliorer la détection de la rétinopathie diabétique et de l'œdème maculaire diabétique tout en assurant une meilleure robustesse et interprétabilité des modèles.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Ce papier présente SiMO, une méthode de perception collaborative qui résout les problèmes de défaillance des capteurs et de compétition entre modalités grâce à une fusion adaptative et une stratégie d'entraînement innovante, garantissant ainsi des performances optimales même en l'absence de certains capteurs.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

Cet article propose une reformulation de la transformée de Hough pour la détection de lignes dans des nuages de points, en remplaçant le schéma de vote discret par une fonction de score continue dont les caractéristiques persistantes, calculées via l'homologie persistante, identifient les lignes candidates.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Le papier présente DynamicVGGT, un cadre unifié de reconstruction 4D qui étend VGGT pour modéliser le mouvement des points dans des scènes dynamiques de conduite autonome grâce à une attention temporelle consciente du mouvement et une tête de splatting gaussien 3D dynamique, surpassant ainsi les méthodes existantes en précision de reconstruction.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Ce papier propose WaDi, un cadre de distillation unifié pour la synthèse d'images en une seule étape qui, en exploitant l'observation que les changements de direction des poids sont prédominants par rapport à leur norme, introduit l'adaptateur LoRaD pour atteindre des performances de pointe avec seulement 10 % des paramètres entraînables.

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Cet article propose une méthode d'apprentissage sans réseau pour le suivi de pose 6D d'objets, qui fusionne la haute résolution temporelle des caméras d'événements avec une correction basée sur des modèles pour surpasser les performances des algorithmes existants dans des environnements dynamiques rapides.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

Ce papier propose une méthode d'effacement de concepts dans les modèles de diffusion qui, en exploitant la géométrie des embeddings latents pour identifier et utiliser des prototypes de concepts comme signaux de conditionnement négatif, permet d'éliminer de manière fiable des concepts larges et complexes tout en préservant la qualité des images générées.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Le papier propose OSCAR, une méthode de complétion de forme basée sur l'occupation et les représentations implicites neuronales acoustiques, qui permet de reconstruire avec précision la géométrie 3D complète de la colonne vertébrale à partir d'observations ultrasonores partielles sans nécessiter d'étiquettes anatomiques lors de l'inférence.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

L'article présente SP-CLIP, un cadre léger qui améliore la reconnaissance d'actions à zéro exemple en enrichissant les modèles vision-langage avec des invites sémantiques structurées décrivant les actions à plusieurs niveaux d'abstraction, sans modifier l'encodeur visuel ni apprendre de nouveaux paramètres.

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Cet article propose une méthode de génération d'images CT à partir de texte qui améliore la fidélité anatomique et la cohérence clinique en récupérant des cas cliniques pertinents via un encodeur vision-langage 3D pour guider un modèle de diffusion latent, comblant ainsi le fossé entre le contrôle sémantique et la plausibilité anatomique.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Cet article propose un cadre de fine-tuning innovant qui améliore la robustesse des Vision Transformers face aux changements de distribution en alignant leurs cartes de pertinence sur des masques de concepts sémantiques générés automatiquement, réduisant ainsi la dépendance aux corrélations spurious.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

Le papier présente HDR-NSFF, une méthode innovante qui reconstruit des champs de radiance haute dynamique (HDR) à partir de vidéos monoculaires à expositions alternées en modélisant la scène de manière spatio-temporelle continue via des champs de radiance neuronaux ou des splats gaussiens 4D, surpassant ainsi les méthodes traditionnelles 2D pour éliminer les artefacts et assurer une cohérence temporelle dans les scènes dynamiques.

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Ce papier présente SlowBA, une nouvelle attaque par porte dérobée qui cible l'efficacité des agents d'interface graphique basés sur des modèles vision-langage en induisant des chaînes de raisonnement excessivement longues via des déclencheurs discrets, augmentant ainsi considérablement la latence de réponse tout en préservant la précision des tâches.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Cette étude comparative à grande échelle révèle que, contrairement aux modèles d'IA qui dégradent leurs performances de manière progressive en s'appuyant sur des caractéristiques contextuelles, les humains reconnaissent les actions égo-centriques grâce à des indices sémantiques critiques et subissent un effondrement brutal de leur précision lorsque ces indices sont supprimés.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Cet article propose un cadre général pour évaluer la fiabilité des cartes de chaleur en apprentissage multiple-instance en histopathologie, démontrant que des méthodes comme LRP et IG surpassent les cartes d'attention et permettent ainsi une validation plus robuste des modèles et la découverte de nouveaux biomarqueurs biologiques.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Local-Global Prompt Learning via Sparse Optimal Transport

L'article propose SOT-GLP, une méthode d'apprentissage de prompts combinant des alignements globaux et locaux via un transport optimal équilibré et parcimonieux pour améliorer la précision en few-shot et la détection hors distribution des modèles vision-langage.

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel2026-03-10💻 cs

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Le papier présente $\Delta$ VLA, un cadre d'action vision-langage guidé par des connaissances antérieures qui améliore la manipulation robotique en modélisant les variations du monde plutôt que les états futurs absolus, grâce à des modules d'extraction de priorités, de quantification des variations latentes et d'attention conditionnelle.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

← Précédent Suivant →

cs.CV