Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Cette étude propose un cadre théorique et empirique unifié démontrant que, bien que les modèles de diffusion linguistiques (DLM) voient leur risque d'extraction de données d'entraînement augmenter avec la résolution d'échantillonnage, ils présentent globalement une fuite d'informations personnellement identifiables (PII) nettement inférieure à celle des modèles de langage autoregressifs (ARM).

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Ce papier présente RO-N3WS, un nouveau jeu de données de parole roumaine diversifié conçu pour améliorer la généralisation des systèmes de reconnaissance automatique de la parole dans des conditions à ressources limitées, démontrant que même un ajustement fin limité sur ces données réelles entraîne des réductions significatives du taux d'erreur de mots par rapport aux modèles de base en zéro-shot.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Cette étude propose un modèle de graphe orienté et un cadre expérimental utilisant des textes synthétiques générés par LLM pour évaluer la visualisation temporelle de discours textuels, révélant que l'interprétation des motifs relationnels par les utilisateurs est complexe et suggérant la nécessité d'approches de visualisation plus adaptatives plutôt que standardisées.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Le papier présente MUSE, une plateforme open-source centrée sur les exécutions qui évalue de manière unifiée la sécurité multimodale des grands modèles de langage en intégrant la génération automatique de charges utiles, des attaques multi-tours avec basculement inter-tours de modalités, et une métrique dualiste pour révéler que l'alignement des modèles ne se généralise pas systématiquement aux entrées audio, image et vidéo.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

FlashEvaluator: Expanding Search Space with Parallel Evaluation

FlashEvaluator est une nouvelle architecture d'évaluation qui améliore l'efficacité et la précision des systèmes générateur-évaluateur en permettant le partage d'informations entre séquences au sein d'une seule passe avant, réduisant ainsi la complexité computationnelle et ayant déjà généré des gains de revenus significatifs lors de son déploiement sur la plateforme Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Cet article propose la « Gouvernance de Crédibilité », un mécanisme social qui réalloue l'influence en fonction de la capacité des agents à s'aligner sur des preuves publiques évolutives, permettant ainsi aux plateformes en ligne de mieux se corriger collectivement et de résister à la manipulation et au bruit, même lorsque les signaux de vérité sont faibles.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Ce papier présente M3IRT, un cadre d'analyse basé sur la théorie de réponse à l'item multidimensionnelle et multimodale qui décompose les capacités des modèles et la difficulté des questions en composantes visuelles, textuelles et croisées, permettant ainsi d'identifier et de prioriser les questions véritablement multimodales pour améliorer la fiabilité et l'efficacité des évaluations des grands modèles de langage multimodaux.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL