Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

Ce papier propose le paradigme « Grounding-IQA », qui intègre la localisation visuelle aux modèles de langage multimodaux pour améliorer l'évaluation de la qualité d'image, en s'appuyant sur un nouveau jeu de données annoté automatiquement (GIQA-160K) et un benchmark dédié (GIQA-Bench) pour évaluer la description, la réponse aux questions et la précision de la localisation.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Cet article présente des fonctions d'activation basées sur des bases orthogonales (polynomiales, trigonométriques et tropicales) qui, grâce à une initialisation préservant la variance, permettent d'entraîner efficacement des modèles profonds comme GPT-2 et ConvNeXt tout en évitant les problèmes d'explosion ou de disparition des gradients et en facilitant le fine-tuning via l'interpolation d'Hermite.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Cette étude démontre que l'inférence générative profonde appliquée aux cartes de perfusion calculées à partir d'angiographies CT permet de localiser les substrats neuraux des déficits liés à l'AVC ischémique avec une grande fidélité anatomique, offrant ainsi un outil clinique et scientifique prometteur pour la caractérisation précoce des lésions sans nécessiter la connaissance préalable de la lésion parenchymateuse.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

Precise Parameter Localization for Textual Generation in Diffusion Models

Cette étude démontre que moins de 1 % des paramètres d'un modèle de diffusion, localisés exclusivement dans ses couches d'attention, suffisent à générer du texte dans les images, permettant ainsi d'améliorer l'efficacité du fine-tuning, d'éditer le contenu textuel et de prévenir la génération de textes toxiques de manière universelle et économique.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Cet article présente un cadre d'adaptation robuste pour les grands modèles multimodaux qui améliore la détection des mèmes haineux en augmentant la précision intra-domaine, la généralisation inter-domaines et la résilience aux attaques adverses, tout en surpassant les systèmes existants et en fournissant des justifications plus interprétables.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

Ce papier présente Jumbo, une architecture de Vision Transformer (ViT) qui accélère le traitement en réduisant la largeur des tokens de patchs tout en ajoutant un token global « Jumbo » plus large et efficace, permettant d'améliorer la précision et l'adaptabilité sur diverses tâches sans sacrifier la compatibilité ni la simplicité des ViT standards.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Le papier présente LLaVE, un cadre d'apprentissage contrastif pondéré par la difficulté qui améliore l'entraînement des modèles d'encodage multimodaux pour mieux distinguer les paires négatives difficiles, permettant ainsi d'atteindre des performances de pointe sur le benchmark MMEB avec une meilleure efficacité que les modèles précédents.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Le papier présente Vision-R1, un modèle multimodal de langage qui améliore les capacités de raisonnement grâce à une stratégie d'entraînement par apprentissage par renforcement combinant un jeu de données de chaîne de pensée initialisé automatiquement et une suppression progressive de la sur-réflexion, atteignant ainsi des performances compétitives sur les benchmarks de raisonnement mathématique.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL