cs.CL articles | Gist.Science

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Cet article présente SteerEval, une nouvelle évaluation hiérarchique qui révèle que le contrôle des grands modèles de langage se dégrade souvent à des niveaux de granularité plus fins, tout en offrant un cadre unifié pour évaluer la maîtrise du comportement des modèles à travers trois domaines et trois niveaux de spécification.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

Le papier présente ExpGuard, un modèle de modération de contenu spécialisé et son jeu de données associé ExpGuardMix, conçus pour protéger les grands modèles de langage dans les domaines financier, médical et juridique contre les attaques adverses, surpassant ainsi les solutions actuelles comme WildGuard.

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

Ce papier présente GPUTOK, un tokeniseur BPE au niveau des bytes accéléré par GPU qui, tout en garantissant une qualité de sortie équivalente aux solutions CPU, offre une accélération significative (jusqu'à 7,6 fois) pour le traitement de longs contextes textuels.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

Cette étude montre que l'extension de la profondeur de récursivité dans les modèles de langage récursifs (RLM) entraîne un phénomène de « surréflexion » qui, bien qu'améliorant les performances sur des tâches complexes en profondeur 1, dégrade paradoxalement les résultats sur des tâches simples tout en augmentant exponentiellement le temps d'exécution et les coûts.

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

StitchCUDA est un cadre de programmation GPU automatisé basé sur des agents multiples et un apprentissage par renforcement guidé par des rubriques, qui génère des programmes CUDA complets avec une efficacité et une fiabilité supérieures aux méthodes existantes.

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Cet article propose la « Gouvernance de Crédibilité », un mécanisme social qui réalloue l'influence en fonction de la capacité des agents à s'aligner sur des preuves publiques évolutives, permettant ainsi aux plateformes en ligne de mieux se corriger collectivement et de résister à la manipulation et au bruit, même lorsque les signaux de vérité sont faibles.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Cet article propose une approche de décodage dynamique sans fine-tuning pour la génération de commentaires vidéo en temps réel, permettant d'adapter le rythme des énoncés à la durée des événements dans les jeux vidéo grâce à des modèles de langage multimodaux.

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Ce papier présente M3IRT, un cadre d'analyse basé sur la théorie de réponse à l'item multidimensionnelle et multimodale qui décompose les capacités des modèles et la difficulté des questions en composantes visuelles, textuelles et croisées, permettant ainsi d'identifier et de prioriser les questions véritablement multimodales pour améliorer la fiabilité et l'efficacité des évaluations des grands modèles de langage multimodaux.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Ce papier présente une méthode novatrice de normalisation et d'analyse déterministe qui atténue les biais de contenu dans le raisonnement des grands modèles de langage multilingues, obtenant un classement parmi les cinq meilleurs lors de l'évaluation SemEval-2026 Task 11.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Le papier présente HateMirage, un nouveau jeu de données explicatif et multidimensionnel conçu pour décoder les discours de haine subtils et faux en liant des commentaires YouTube à des fausses informations, afin d'améliorer la détection et l'interprétabilité de la haine en ligne.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Le papier présente Graph-GRPO, un cadre d'optimisation qui stabilise l'apprentissage de la topologie des systèmes multi-agents basés sur les LLM en utilisant l'optimisation de politique relative de groupe pour atténuer la variance des gradients et améliorer l'attribution du crédit par rapport aux méthodes traditionnelles.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

Ce papier propose le cadre \textsc{ASEGR}, une méthode innovante qui améliore les systèmes de recommandation séquentielle en enrichissant les représentations des articles avec des attributs sensoriels structurés extraits de critiques via l'enseignement distillé d'un grand modèle de langage.

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Cet article présente DiSE, une méthode simple et efficace permettant aux modèles de langage par diffusion d'évaluer leur propre fiabilité via la régénération de séquences, ce qui améliore l'estimation de vraisemblance, la quantification de l'incertitude et le contrôle adaptatif de la longueur de génération.

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Ce papier présente KMP-Bench, une nouvelle évaluation complète pour les modèles de langage en mathématiques (K-8) qui révèle un décalage entre leurs capacités de résolution et leurs compétences pédagogiques, tout en démontrant l'efficacité d'un jeu de données d'entraînement enrichi, KMP-Pile, pour améliorer leurs performances en tant que tuteurs.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Cette étude démontre que, grâce à des instructions et des exemples bien conçus, les modèles de langage multimodaux (MLLM) peuvent extraire des informations de documents d'entreprise avec une performance comparable aux approches traditionnelles combinant OCR et MLLM, rendant ainsi l'OCR potentiellement inutile.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Ce papier présente GLEAN, un cadre de vérification pour les agents LLM dans des contextes à haut risque comme le diagnostic clinique, qui améliore la fiabilité des décisions en accumulant des preuves guidées par des protocoles experts et en utilisant une régression logistique bayésienne pour une calibration précise et une vérification active.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Cette étude démontre que les modèles spécialisés de traçage des connaissances surpassent les grands modèles de langage (LLM) en termes de précision, de rapidité et de coût pour la prédiction des réponses des élèves, soulignant ainsi la supériorité des solutions spécifiques au domaine éducatif.

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Cette étude propose un compte rendu unifié de la structure des fréquences phonémiques en démontrant que leur distribution s'explique macroscopiquement par des statistiques d'ordre d'une distribution de Dirichlet et microscopiquement par un modèle d'entropie maximale intégrant des contraintes articulatoires, phonotactiques et lexicales.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Cette étude révèle que, contrairement aux informations sur les nœuds qui sont encodées précocement dans l'encodeur visuel des modèles de langage-vision, les informations relatives aux arêtes ne deviennent linéairement séparables qu'au niveau des jetons textuels, ce qui explique leurs difficultés à comprendre les relations directionnelles dans les diagrammes.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

Ce papier propose Eval4Sim, un cadre d'évaluation novateur qui mesure la fidélité des simulations de personnalités par les grands modèles de langage en comparant leurs conversations à des données humaines réelles selon trois dimensions : l'adhérence au profil, la cohérence de l'identité et le naturel du flux dialogique.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

← Précédent Suivant →