MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Le papier présente MUSE, une plateforme open-source centrée sur les exécutions qui évalue de manière unifiée la sécurité multimodale des grands modèles de langage en intégrant la génération automatique de charges utiles, des attaques multi-tours avec basculement inter-tours de modalités, et une métrique dualiste pour révéler que l'alignement des modèles ne se généralise pas systématiquement aux entrées audio, image et vidéo.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

FlashEvaluator: Expanding Search Space with Parallel Evaluation

FlashEvaluator est une nouvelle architecture d'évaluation qui améliore l'efficacité et la précision des systèmes générateur-évaluateur en permettant le partage d'informations entre séquences au sein d'une seule passe avant, réduisant ainsi la complexité computationnelle et ayant déjà généré des gains de revenus significatifs lors de son déploiement sur la plateforme Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Cet article propose la « Gouvernance de Crédibilité », un mécanisme social qui réalloue l'influence en fonction de la capacité des agents à s'aligner sur des preuves publiques évolutives, permettant ainsi aux plateformes en ligne de mieux se corriger collectivement et de résister à la manipulation et au bruit, même lorsque les signaux de vérité sont faibles.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Ce papier présente M3IRT, un cadre d'analyse basé sur la théorie de réponse à l'item multidimensionnelle et multimodale qui décompose les capacités des modèles et la difficulté des questions en composantes visuelles, textuelles et croisées, permettant ainsi d'identifier et de prioriser les questions véritablement multimodales pour améliorer la fiabilité et l'efficacité des évaluations des grands modèles de langage multimodaux.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Ce papier présente KMP-Bench, une nouvelle évaluation complète pour les modèles de langage en mathématiques (K-8) qui révèle un décalage entre leurs capacités de résolution et leurs compétences pédagogiques, tout en démontrant l'efficacité d'un jeu de données d'entraînement enrichi, KMP-Pile, pour améliorer leurs performances en tant que tuteurs.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL