Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Cette étude évalue systématiquement les capacités des modèles vision-langage à comprendre la topologie routière pour la conduite autonome, révélant que malgré des progrès certains, ils peinent encore à maîtriser le raisonnement spatial fondamental, en particulier les modèles open-source, ce qui souligne un goulot d'étranglement majeur pour leur déploiement sécurisé.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

Ce papier présente EchoGen, un cadre pionnier de génération pilotée par sujet basé sur des modèles auto-régressifs visuels (VAR) qui, grâce à une stratégie d'injection à double voie, surpasse les méthodes de diffusion en termes de rapidité d'inférence tout en maintenant une fidélité et une qualité d'image exceptionnelles.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Cet article propose RALI, un nouvel algorithme qui aligne directement les images sur des représentations textuelles généralisables apprises par des modèles de langage multimodal via l'apprentissage par renforcement, permettant ainsi d'atteindre des performances d'évaluation de la qualité d'image comparables à celles des modèles de raisonnement tout en réduisant drastiquement les paramètres et le temps d'inférence.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Cette étude utilise l'interprétabilité mécanistique pour révéler les voies d'information internes des modèles de langage vidéo (VideoLLMs), démontrant que leur raisonnement temporel suit un schéma cohérent d'interactions inter-images et d'intégration multimodale, ce qui permet d'améliorer la performance en éliminant jusqu'à 58 % des connexions d'attention superflues.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Cet article propose une méthode de reconstruction des terrains martiens pour la réalité virtuelle utilisant un modèle de diffusion inconditionnel entraîné sur des données HiRISE, qui surpasse significativement les techniques d'interpolation traditionnelles en termes de précision géométrique et de similarité perceptuelle.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI