FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

Le papier propose FiLo, une nouvelle méthode de détection d'anomalies en zéro-shot qui améliore la précision et la localisation grâce à des descriptions fines générées par des modèles de langage et une localisation de haute qualité assistée par Grounding DINO, atteignant ainsi des performances de pointe sur les ensembles de données MVTec et VisA.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Le papier présente PO-GUISE+, un transformateur vidéo multi-tâches optimisé pour la reconnaissance efficace des actions de conduite distrayante en sélectionnant les tokens grâce aux informations de pose et d'objets, réduisant ainsi les coûts computationnels tout en surpassant les méthodes actuelles sur plusieurs jeux de données et plateformes embarquées.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

Ce papier propose le paradigme « Grounding-IQA », qui intègre la localisation visuelle aux modèles de langage multimodaux pour améliorer l'évaluation de la qualité d'image, en s'appuyant sur un nouveau jeu de données annoté automatiquement (GIQA-160K) et un benchmark dédié (GIQA-Bench) pour évaluer la description, la réponse aux questions et la précision de la localisation.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Cet article présente des fonctions d'activation basées sur des bases orthogonales (polynomiales, trigonométriques et tropicales) qui, grâce à une initialisation préservant la variance, permettent d'entraîner efficacement des modèles profonds comme GPT-2 et ConvNeXt tout en évitant les problèmes d'explosion ou de disparition des gradients et en facilitant le fine-tuning via l'interpolation d'Hermite.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Cette étude démontre que l'inférence générative profonde appliquée aux cartes de perfusion calculées à partir d'angiographies CT permet de localiser les substrats neuraux des déficits liés à l'AVC ischémique avec une grande fidélité anatomique, offrant ainsi un outil clinique et scientifique prometteur pour la caractérisation précoce des lésions sans nécessiter la connaissance préalable de la lésion parenchymateuse.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

Precise Parameter Localization for Textual Generation in Diffusion Models

Cette étude démontre que moins de 1 % des paramètres d'un modèle de diffusion, localisés exclusivement dans ses couches d'attention, suffisent à générer du texte dans les images, permettant ainsi d'améliorer l'efficacité du fine-tuning, d'éditer le contenu textuel et de prévenir la génération de textes toxiques de manière universelle et économique.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs