Traffic Sign Recognition in Autonomous Driving: Dataset, Benchmark, and Field Experiment

Cet article présente TS-1M, un jeu de données mondial de plus d'un million d'images et un benchmark diagnostique pour l'analyse des limites des modèles de reconnaissance de panneaux de signalisation face aux variations régionales et aux classes rares, validé par des expériences sur route autonome.

Guoyang Zhao, Weiqing Qi, Kai Zhang, Chenguang Zhang, Zeying Gong, Zhihai Bi, Kai Chen, Benshan Ma, Ming Liu, Jun Ma2026-03-25💻 cs

YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Cet article propose un cadre de détection d'objets interprétable et digne de confiance pour la perception des véhicules autonomes, qui combine YOLOv10, des réseaux de Kolmogorov-Arnold pour visualiser la fiabilité des prédictions dans des conditions dégradées, et un modèle fondationnel vision-langage pour générer des descriptions multimodales.

Marios Impraimakis, Daniel Vazquez, Feiyu Zhou2026-03-25💬 cs.CL

HUydra: Full-Range Lung CT Synthesis via Multiple HU Interval Generative Modelling

Ce papier présente HUydra, une méthode générative innovante qui synthétise des scanners CT pulmonaires complets en modélisant séparément des intervalles de valeurs HU spécifiques pour surmonter la rareté des données médicales, tout en améliorant la fidélité visuelle et en réduisant les coûts computationnels par rapport aux approches conventionnelles.

António Cardoso, Pedro Sousa, Tania Pereira, Hélder P. Oliveira2026-03-25🤖 cs.LG

MLLM-HWSI: A Multimodal Large Language Model for Hierarchical Whole Slide Image Understanding

Le papier présente MLLM-HWSI, un modèle de langage multimodal hiérarchique qui aligne les caractéristiques visuelles des images de lames entières avec le langage pathologique à quatre échelles distinctes (cellule, patch, région et lame entière) pour améliorer la compréhension globale et le raisonnement interprétable en pathologie computationnelle.

Basit Alawode, Arif Mahmood, Muaz Khalifa Al-Radi, Shahad Albastaki, Asim Khan, Muhammad Bilal, Moshira Ali Abdalla, Mohammed Bennamoun, Sajid Javed2026-03-25💻 cs

Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards

Cet article propose un cadre d'apprentissage par renforcement léger pour les modèles d'images autoregressifs, intégrant une récompense de niveau distribution (LOO-FID) et des récompenses de niveau instance pour optimiser simultanément la qualité et la diversité des échantillons tout en évitant l'effondrement des modes et en supprimant le besoin d'une guidance sans classeur.

Orhun Bu\u{g}ra Baran, Melih Kandemir, Ramazan Gokberk Cinbis2026-03-25🤖 cs.LG

A Synchronized Audio-Visual Multi-View Capture System

Ce rapport technique présente un système de capture multi-vues audio-vidéo synchronisé qui comble le manque d'outils existants pour l'étude des interactions conversationnelles en traitant l'audio et la vidéo comme des signaux de première classe sous une architecture temporelle unifiée, permettant ainsi des enregistrements répétables à grande échelle et une analyse fine des comportements de conversation.

Xiangwei Shi, Era Dorta Perez, Ruud de Jong, Ojas Shirekar, Chirag Raman2026-03-25💻 cs

NeuroSeg Meets DINOv3: Transferring 2D Self-Supervised Visual Priors to 3D Neuron Segmentation via DINOv3 Initialization

Cet article propose une méthode nommée NeuroSeg qui adapte les représentations visuelles auto-supervisées 2D de DINOv3 à la segmentation neuronale 3D via une stratégie d'inflation de filtres et une perte squelettique consciente de la topologie, permettant d'améliorer significativement la précision de la reconstruction neuronale sur plusieurs jeux de données biomédicaux.

Yik San Cheng, Runkai Zhao, Weidong Cai2026-03-25💻 cs