VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

Le papier présente VLA-IAP, une méthode sans entraînement qui optimise l'inférence des modèles Vision-Language-Action en élaguant les tokens visuels selon un paradigme axé sur l'interaction, garantissant ainsi une accélération significative sans compromettre la précision ni la robustesse des tâches robotiques.

Jintao Cheng, Haozhe Wang, Weibin Li, Gang Wang, Yipu Zhang, Xiaoyu Tang, Jin Wu, Xieyuanli Chen, Yunhui Liu, Wei Zhang2026-03-25💻 cs

VQ-Jarvis: Retrieval-Augmented Video Restoration Agent with Sharp Vision and Fast Thought

Le papier présente VQ-Jarvis, un agent intelligent de restauration vidéo qui combine une perception fine des dégradations, grâce au nouveau jeu de données VSR-Compare, et une stratégie de décision hiérarchique rapide pour surmonter les limitations des méthodes existantes face à des dégradations hétérogènes complexes.

Xuanyu Zhang, Weiqi Li, Qunliang Xing, Jingfen Xie, Bin Chen, Junlin Li, Li Zhang, Jian Zhang, Shijie Zhao2026-03-25💻 cs

Concept-based explanations of Segmentation and Detection models in Natural Disaster Management

Cet article présente un cadre d'explicabilité combinant une stratégie de redistribution étendue de la LRP et des explications basées sur des concepts prototypiques (PCX) pour rendre transparentes et fiables les prédictions de modèles de segmentation et de détection déployés sur des drones en gestion des catastrophes naturelles.

Samar Heydari, Jawher Said, Galip Ümit Yolcu, Evgenii Kortukov, Elena Golimblevskaia, Evgenios Vlachos, Vasileios Mygdalis, Ioannis Pitas, Sebastian Lapuschkin, Leila Arras2026-03-25🤖 cs.AI

Traffic Sign Recognition in Autonomous Driving: Dataset, Benchmark, and Field Experiment

Cet article présente TS-1M, un jeu de données mondial de plus d'un million d'images et un benchmark diagnostique pour l'analyse des limites des modèles de reconnaissance de panneaux de signalisation face aux variations régionales et aux classes rares, validé par des expériences sur route autonome.

Guoyang Zhao, Weiqing Qi, Kai Zhang, Chenguang Zhang, Zeying Gong, Zhihai Bi, Kai Chen, Benshan Ma, Ming Liu, Jun Ma2026-03-25💻 cs

YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Cet article propose un cadre de détection d'objets interprétable et digne de confiance pour la perception des véhicules autonomes, qui combine YOLOv10, des réseaux de Kolmogorov-Arnold pour visualiser la fiabilité des prédictions dans des conditions dégradées, et un modèle fondationnel vision-langage pour générer des descriptions multimodales.

Marios Impraimakis, Daniel Vazquez, Feiyu Zhou2026-03-25💬 cs.CL