cs.CL articles | Gist.Science

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Le papier présente HateMirage, un nouveau jeu de données explicatif et multidimensionnel conçu pour décoder les discours de haine subtils et faux en liant des commentaires YouTube à des fausses informations, afin d'améliorer la détection et l'interprétabilité de la haine en ligne.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Le papier présente Graph-GRPO, un cadre d'optimisation qui stabilise l'apprentissage de la topologie des systèmes multi-agents basés sur les LLM en utilisant l'optimisation de politique relative de groupe pour atténuer la variance des gradients et améliorer l'attribution du crédit par rapport aux méthodes traditionnelles.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

Ce papier propose le cadre \textsc{ASEGR}, une méthode innovante qui améliore les systèmes de recommandation séquentielle en enrichissant les représentations des articles avec des attributs sensoriels structurés extraits de critiques via l'enseignement distillé d'un grand modèle de langage.

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Cet article présente DiSE, une méthode simple et efficace permettant aux modèles de langage par diffusion d'évaluer leur propre fiabilité via la régénération de séquences, ce qui améliore l'estimation de vraisemblance, la quantification de l'incertitude et le contrôle adaptatif de la longueur de génération.

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Ce papier présente KMP-Bench, une nouvelle évaluation complète pour les modèles de langage en mathématiques (K-8) qui révèle un décalage entre leurs capacités de résolution et leurs compétences pédagogiques, tout en démontrant l'efficacité d'un jeu de données d'entraînement enrichi, KMP-Pile, pour améliorer leurs performances en tant que tuteurs.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Cette étude démontre que, grâce à des instructions et des exemples bien conçus, les modèles de langage multimodaux (MLLM) peuvent extraire des informations de documents d'entreprise avec une performance comparable aux approches traditionnelles combinant OCR et MLLM, rendant ainsi l'OCR potentiellement inutile.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Ce papier présente GLEAN, un cadre de vérification pour les agents LLM dans des contextes à haut risque comme le diagnostic clinique, qui améliore la fiabilité des décisions en accumulant des preuves guidées par des protocoles experts et en utilisant une régression logistique bayésienne pour une calibration précise et une vérification active.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Cette étude démontre que les modèles spécialisés de traçage des connaissances surpassent les grands modèles de langage (LLM) en termes de précision, de rapidité et de coût pour la prédiction des réponses des élèves, soulignant ainsi la supériorité des solutions spécifiques au domaine éducatif.

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Cette étude propose un compte rendu unifié de la structure des fréquences phonémiques en démontrant que leur distribution s'explique macroscopiquement par des statistiques d'ordre d'une distribution de Dirichlet et microscopiquement par un modèle d'entropie maximale intégrant des contraintes articulatoires, phonotactiques et lexicales.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Cette étude révèle que, contrairement aux informations sur les nœuds qui sont encodées précocement dans l'encodeur visuel des modèles de langage-vision, les informations relatives aux arêtes ne deviennent linéairement séparables qu'au niveau des jetons textuels, ce qui explique leurs difficultés à comprendre les relations directionnelles dans les diagrammes.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

Ce papier propose Eval4Sim, un cadre d'évaluation novateur qui mesure la fidélité des simulations de personnalités par les grands modèles de langage en comparant leurs conversations à des données humaines réelles selon trois dimensions : l'adhérence au profil, la cohérence de l'identité et le naturel du flux dialogique.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

Ce papier présente ACE-Merging, une méthode de fusion de modèles sans accès aux données qui utilise une estimation adaptative de la covariance dérivée des différences de paramètres pour atténuer les interférences entre experts et atteindre des performances de pointe grâce à une solution analytique fermée.

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

Cet article propose le Contextualized Defense Instructing (CDI), un nouveau paradigme de défense de la vie privée pour les agents LLM qui utilise un modèle instructeur optimisé par apprentissage par renforcement pour générer des conseils contextuels et proactifs, permettant ainsi de mieux équilibrer la protection des données et l'utilité des agents par rapport aux méthodes statiques existantes.

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Le papier présente MaBERT, un encodeur hybride combinant des couches Transformer et Mamba avec des mécanismes de masquage adaptés aux remplissages, conçu pour modéliser efficacement de longs contextes tout en réduisant significativement les temps d'entraînement et d'inférence par rapport aux modèles existants.

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Ce papier présente TrustMH-Bench, un cadre d'évaluation complet conçu pour mesurer la fiabilité des modèles de langage dans le domaine de la santé mentale à travers huit piliers clés, révélant des lacunes significatives dans les performances des modèles actuels.

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Le papier présente TikZilla, une famille de modèles de langage open-source entraînés sur le nouveau jeu de données DaTikZ-V4 et optimisés par apprentissage par renforcement avec des récompenses sémantiques, permettant de générer des figures scientifiques TikZ de haute qualité qui surpassent GPT-4o et rivalisent avec GPT-5.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Ce papier présente TAO-Attack, une nouvelle méthode d'attaque par optimisation pour les grands modèles de langage qui utilise une fonction de perte en deux étapes et une stratégie d'optimisation de tokens à priorité directionnelle pour surpasser les méthodes actuelles en termes de taux de réussite des jailbreaks.

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Cet article propose une approche novatrice utilisant des modèles de langage de grande taille (LLM) ajustés par instruction et des prompts compacts pour traiter la détection de composants argumentatifs comme une tâche de génération, surpassant ainsi les systèmes de l'état de l'art sur des benchmarks standards.

Sofiane Elguendouze, Erwan Hain, Elena Cabrio + 1 more2026-03-04💬 cs.CL

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Cet article démontre que les caractéristiques de la voix, telles que le ton, l'intensité et le bruit, sont encodées dans des dimensions spécifiques des représentations auto-supervisées de WavLM, permettant ainsi un contrôle simple de la synthèse vocale par modification de ces dimensions.

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper2026-03-04⚡ eess

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Cette étude révèle que le basculement entre modèles dans les systèmes LLM multi-tours induit une dérive de performance significative et directionnelle, justifiant l'intégration de la robustesse aux transitions comme dimension critique de fiabilité opérationnelle.

Raad Khraishi, Iman Zafar, Katie Myles + 1 more2026-03-04💬 cs.CL

← Précédent Suivant →