Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Cet article propose IB-IUMAD, un nouveau cadre de détection d'anomalies multimodales incrémentielles qui résout le problème de l'oubli catastrophique en éliminant les caractéristiques redondantes et spuriaires grâce à une fusion par goulot d'étranglement de l'information et à un décodeur Mamba.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Ce papier présente M3IRT, un cadre d'analyse basé sur la théorie de réponse à l'item multidimensionnelle et multimodale qui décompose les capacités des modèles et la difficulté des questions en composantes visuelles, textuelles et croisées, permettant ainsi d'identifier et de prioriser les questions véritablement multimodales pour améliorer la fiabilité et l'efficacité des évaluations des grands modèles de langage multimodaux.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Le papier présente DREAM, un cadre unifié qui combine l'apprentissage de représentations visuelles et la génération d'images à partir de texte grâce à des techniques innovantes comme le réchauffement du masquage et le décodage aligné sémantiquement, permettant d'obtenir des performances supérieures à la fois en compréhension visuelle et en génération sans nécessiter de réordonnanceurs externes.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

L'article présente VisionCreator, un modèle agent natif de génération visuelle unifiant compréhension, réflexion, planification et création, qui surpasse les modèles propriétaires plus grands grâce à des données d'entraînement spécialisées, une formation progressive et une évaluation rigoureuse sur un nouveau benchmark.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Cet article présente RSHBench, un nouveau protocole d'évaluation pour diagnostiquer les hallucinations dans les modèles multimodaux appliqués à la télédétection, ainsi que RADAR, une méthode d'inférence sans entraînement qui exploite l'attention intrinsèque pour améliorer la précision du raisonnement local et réduire ces hallucinations.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs