cs.CV articles | Gist.Science

WorldMesh: Generating Navigable Multi-Room 3D Scenes via Mesh-Conditioned Image Diffusion

Le papier présente WorldMesh, une approche géométrie-dépendante qui génère des scènes 3D navigables et à grande échelle en décomposant le processus en la construction d'un squelette maillé structurel et la synthèse d'apparences réalistes conditionnées par ce maillage pour assurer une cohérence spatiale et une richesse d'objets inégalées.

Manuel-Andreas Schneider, Angela Dai2026-03-25💻 cs

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

Le papier présente VLA-IAP, une méthode sans entraînement qui optimise l'inférence des modèles Vision-Language-Action en élaguant les tokens visuels selon un paradigme axé sur l'interaction, garantissant ainsi une accélération significative sans compromettre la précision ni la robustesse des tâches robotiques.

Jintao Cheng, Haozhe Wang, Weibin Li, Gang Wang, Yipu Zhang, Xiaoyu Tang, Jin Wu, Xieyuanli Chen, Yunhui Liu, Wei Zhang2026-03-25💻 cs

VQ-Jarvis: Retrieval-Augmented Video Restoration Agent with Sharp Vision and Fast Thought

Le papier présente VQ-Jarvis, un agent intelligent de restauration vidéo qui combine une perception fine des dégradations, grâce au nouveau jeu de données VSR-Compare, et une stratégie de décision hiérarchique rapide pour surmonter les limitations des méthodes existantes face à des dégradations hétérogènes complexes.

Xuanyu Zhang, Weiqi Li, Qunliang Xing, Jingfen Xie, Bin Chen, Junlin Li, Li Zhang, Jian Zhang, Shijie Zhao2026-03-25💻 cs

Zero-Shot Personalization of Objects via Textual Inversion

Ce papier propose un cadre novateur permettant la personnalisation zéro-shot d'objets divers dans les modèles de diffusion text-to-image en prédisant des embeddings d'inversion textuelle spécifiques via un réseau appris, offrant ainsi une solution rapide, évolutive et sans entraînement préalable pour la génération d'images personnalisées.

Aniket Roy, Maitreya Suin, Rama Chellappa2026-03-25💻 cs

Concept-based explanations of Segmentation and Detection models in Natural Disaster Management

Cet article présente un cadre d'explicabilité combinant une stratégie de redistribution étendue de la LRP et des explications basées sur des concepts prototypiques (PCX) pour rendre transparentes et fiables les prédictions de modèles de segmentation et de détection déployés sur des drones en gestion des catastrophes naturelles.

Samar Heydari, Jawher Said, Galip Ümit Yolcu, Evgenii Kortukov, Elena Golimblevskaia, Evgenios Vlachos, Vasileios Mygdalis, Ioannis Pitas, Sebastian Lapuschkin, Leila Arras2026-03-25🤖 cs.AI

Cog3DMap: Multi-View Vision-Language Reasoning with 3D Cognitive Maps

Le papier présente Cog3DMap, un cadre qui améliore le raisonnement spatial des modèles de langage multimodaux en construisant récursivement une mémoire 3D explicite où chaque token est ancré géométriquement et sémantiquement, permettant ainsi un raisonnement direct sur une carte 3D structurée.

Chanyoung Gwak, Yoonwoo Jeong, Byungwoo Jeon, Hyunseok Lee, Jinwoo Shin, Minsu Cho2026-03-25💻 cs

Looking Beyond the Window: Global-Local Aligned CLIP for Training-free Open-Vocabulary Semantic Segmentation

Cet article propose GLA-CLIP, un cadre d'inférence sans entraînement pour la segmentation sémantique à vocabulaire ouvert qui améliore la cohérence entre les fenêtres glissantes en alignant les contextes locaux et globaux via des ancres proxy et une normalisation dynamique.

ByeongCheol Lee, Hyun Seok Seong, Sangeek Hyun, Gilhan Park, WonJun Moon, Jae-Pil Heo2026-03-25🤖 cs.AI

Generative Event Pretraining with Foundation Model Alignment

Ce papier propose GEP, un cadre de pré-entraînement génératif en deux étapes qui aligne les caméras d'événements sur des modèles de fondation visuels pour transférer des connaissances sémantiques et capturer des dynamiques temporelles, améliorant ainsi les performances sur diverses tâches de vision par ordinateur.

Jianwen Cao, Jiaxu Xing, Nico Messikommer, Davide Scaramuzza2026-03-25💻 cs

Traffic Sign Recognition in Autonomous Driving: Dataset, Benchmark, and Field Experiment

Cet article présente TS-1M, un jeu de données mondial de plus d'un million d'images et un benchmark diagnostique pour l'analyse des limites des modèles de reconnaissance de panneaux de signalisation face aux variations régionales et aux classes rares, validé par des expériences sur route autonome.

Guoyang Zhao, Weiqing Qi, Kai Zhang, Chenguang Zhang, Zeying Gong, Zhihai Bi, Kai Chen, Benshan Ma, Ming Liu, Jun Ma2026-03-25💻 cs

YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Cet article propose un cadre de détection d'objets interprétable et digne de confiance pour la perception des véhicules autonomes, qui combine YOLOv10, des réseaux de Kolmogorov-Arnold pour visualiser la fiabilité des prédictions dans des conditions dégradées, et un modèle fondationnel vision-langage pour générer des descriptions multimodales.

Marios Impraimakis, Daniel Vazquez, Feiyu Zhou2026-03-25💬 cs.CL

← Précédent Suivant →