cs.CL articles | Gist.Science

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Le papier présente MUSE, une plateforme open-source centrée sur les exécutions qui évalue de manière unifiée la sécurité multimodale des grands modèles de langage en intégrant la génération automatique de charges utiles, des attaques multi-tours avec basculement inter-tours de modalités, et une métrique dualiste pour révéler que l'alignement des modèles ne se généralise pas systématiquement aux entrées audio, image et vidéo.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

Le papier propose CoDAR, un cadre à deux étapes qui surmonte la limitation du « token rounding » dans les modèles de diffusion continus en combinant une diffusion continue dans l'espace d'embeddings avec un décodeur auto-régressif contextuel, permettant ainsi d'atteindre une qualité de génération compétitive par rapport aux modèles discrets.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Ce papier propose VC-STaR, un cadre d'auto-amélioration pour les modèles vision-langage qui exploite des paires de questions visuelles contrastives pour atténuer les hallucinations et générer le nouveau jeu de données VisCoR-55K, améliorant ainsi significativement les capacités de raisonnement visuel des modèles.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

FlashEvaluator est une nouvelle architecture d'évaluation qui améliore l'efficacité et la précision des systèmes générateur-évaluateur en permettant le partage d'informations entre séquences au sein d'une seule passe avant, réduisant ainsi la complexité computationnelle et ayant déjà généré des gains de revenus significatifs lors de son déploiement sur la plateforme Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Cet article présente SteerEval, une nouvelle évaluation hiérarchique qui révèle que le contrôle des grands modèles de langage se dégrade souvent à des niveaux de granularité plus fins, tout en offrant un cadre unifié pour évaluer la maîtrise du comportement des modèles à travers trois domaines et trois niveaux de spécification.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

Le papier présente ExpGuard, un modèle de modération de contenu spécialisé et son jeu de données associé ExpGuardMix, conçus pour protéger les grands modèles de langage dans les domaines financier, médical et juridique contre les attaques adverses, surpassant ainsi les solutions actuelles comme WildGuard.

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

Ce papier présente GPUTOK, un tokeniseur BPE au niveau des bytes accéléré par GPU qui, tout en garantissant une qualité de sortie équivalente aux solutions CPU, offre une accélération significative (jusqu'à 7,6 fois) pour le traitement de longs contextes textuels.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

Cette étude montre que l'extension de la profondeur de récursivité dans les modèles de langage récursifs (RLM) entraîne un phénomène de « surréflexion » qui, bien qu'améliorant les performances sur des tâches complexes en profondeur 1, dégrade paradoxalement les résultats sur des tâches simples tout en augmentant exponentiellement le temps d'exécution et les coûts.

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

StitchCUDA est un cadre de programmation GPU automatisé basé sur des agents multiples et un apprentissage par renforcement guidé par des rubriques, qui génère des programmes CUDA complets avec une efficacité et une fiabilité supérieures aux méthodes existantes.

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Cet article propose la « Gouvernance de Crédibilité », un mécanisme social qui réalloue l'influence en fonction de la capacité des agents à s'aligner sur des preuves publiques évolutives, permettant ainsi aux plateformes en ligne de mieux se corriger collectivement et de résister à la manipulation et au bruit, même lorsque les signaux de vérité sont faibles.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Cet article propose une approche de décodage dynamique sans fine-tuning pour la génération de commentaires vidéo en temps réel, permettant d'adapter le rythme des énoncés à la durée des événements dans les jeux vidéo grâce à des modèles de langage multimodaux.

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Ce papier présente M3IRT, un cadre d'analyse basé sur la théorie de réponse à l'item multidimensionnelle et multimodale qui décompose les capacités des modèles et la difficulté des questions en composantes visuelles, textuelles et croisées, permettant ainsi d'identifier et de prioriser les questions véritablement multimodales pour améliorer la fiabilité et l'efficacité des évaluations des grands modèles de langage multimodaux.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Ce papier présente une méthode novatrice de normalisation et d'analyse déterministe qui atténue les biais de contenu dans le raisonnement des grands modèles de langage multilingues, obtenant un classement parmi les cinq meilleurs lors de l'évaluation SemEval-2026 Task 11.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Le papier présente HateMirage, un nouveau jeu de données explicatif et multidimensionnel conçu pour décoder les discours de haine subtils et faux en liant des commentaires YouTube à des fausses informations, afin d'améliorer la détection et l'interprétabilité de la haine en ligne.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Le papier présente Graph-GRPO, un cadre d'optimisation qui stabilise l'apprentissage de la topologie des systèmes multi-agents basés sur les LLM en utilisant l'optimisation de politique relative de groupe pour atténuer la variance des gradients et améliorer l'attribution du crédit par rapport aux méthodes traditionnelles.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

Ce papier propose le cadre \textsc{ASEGR}, une méthode innovante qui améliore les systèmes de recommandation séquentielle en enrichissant les représentations des articles avec des attributs sensoriels structurés extraits de critiques via l'enseignement distillé d'un grand modèle de langage.

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Cet article présente DiSE, une méthode simple et efficace permettant aux modèles de langage par diffusion d'évaluer leur propre fiabilité via la régénération de séquences, ce qui améliore l'estimation de vraisemblance, la quantification de l'incertitude et le contrôle adaptatif de la longueur de génération.

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Ce papier présente KMP-Bench, une nouvelle évaluation complète pour les modèles de langage en mathématiques (K-8) qui révèle un décalage entre leurs capacités de résolution et leurs compétences pédagogiques, tout en démontrant l'efficacité d'un jeu de données d'entraînement enrichi, KMP-Pile, pour améliorer leurs performances en tant que tuteurs.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Cette étude démontre que, grâce à des instructions et des exemples bien conçus, les modèles de langage multimodaux (MLLM) peuvent extraire des informations de documents d'entreprise avec une performance comparable aux approches traditionnelles combinant OCR et MLLM, rendant ainsi l'OCR potentiellement inutile.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Ce papier présente GLEAN, un cadre de vérification pour les agents LLM dans des contextes à haut risque comme le diagnostic clinique, qui améliore la fiabilité des décisions en accumulant des preuves guidées par des protocoles experts et en utilisant une régression logistique bayésienne pour une calibration précise et une vérification active.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

← Précédent Suivant →