cs.CL articles | Gist.Science

Safety Training Persists Through Helpfulness Optimization in LLM Agents

Cette étude révèle que, contrairement aux attentes, l'entraînement à la sécurité persiste lors d'un optimisation ultérieure de l'utilité chez les agents LLM, et que toutes les configurations d'entraînement convergent vers une frontière de Pareto linéaire sans parvenir à une stratégie optimale combinant les deux objectifs.

Benjamin Plaut2026-03-04💬 cs.CL

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

Le papier présente HELIOS, un modèle innovant qui améliore la récupération table-texte en harmonisant la fusion précoce et tardive avec le raisonnement des LLM pour surmonter les limites des approches existantes et atteindre des performances record sur le benchmark OTT-QA.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

En analysant la géométrie des représentations du modèle de traduction NLLB-200, cette étude démontre que celui-ci a appris à la fois la structure généalogique des langues et des associations conceptuelles universelles, révélant ainsi une organisation sémantique neutre par rapport à la langue qui rappelle les hubs neuronaux du cerveau humain.

Kyle Elliott Mathewson2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Cette étude propose un cadre théorique et empirique unifié démontrant que, bien que les modèles de diffusion linguistiques (DLM) voient leur risque d'extraction de données d'entraînement augmenter avec la résolution d'échantillonnage, ils présentent globalement une fuite d'informations personnellement identifiables (PII) nettement inférieure à celle des modèles de langage autoregressifs (ARM).

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Ce papier présente RO-N3WS, un nouveau jeu de données de parole roumaine diversifié conçu pour améliorer la généralisation des systèmes de reconnaissance automatique de la parole dans des conditions à ressources limitées, démontrant que même un ajustement fin limité sur ces données réelles entraîne des réductions significatives du taux d'erreur de mots par rapport aux modèles de base en zéro-shot.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Cette étude propose un modèle de graphe orienté et un cadre expérimental utilisant des textes synthétiques générés par LLM pour évaluer la visualisation temporelle de discours textuels, révélant que l'interprétation des motifs relationnels par les utilisateurs est complexe et suggérant la nécessité d'approches de visualisation plus adaptatives plutôt que standardisées.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

Le papier présente GLoRIA, un cadre d'adaptation efficace et interprétable pour la reconnaissance automatique de la parole dialectale qui utilise des métadonnées géographiques pour moduler des mises à jour de faible rang, surpassant ainsi les méthodes existantes en termes de précision et d'efficacité des paramètres.

Pouya Mehralian, Melissa Farasyn, Anne Breitbarth + 2 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Le papier présente MUSE, une plateforme open-source centrée sur les exécutions qui évalue de manière unifiée la sécurité multimodale des grands modèles de langage en intégrant la génération automatique de charges utiles, des attaques multi-tours avec basculement inter-tours de modalités, et une métrique dualiste pour révéler que l'alignement des modèles ne se généralise pas systématiquement aux entrées audio, image et vidéo.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

Le papier propose CoDAR, un cadre à deux étapes qui surmonte la limitation du « token rounding » dans les modèles de diffusion continus en combinant une diffusion continue dans l'espace d'embeddings avec un décodeur auto-régressif contextuel, permettant ainsi d'atteindre une qualité de génération compétitive par rapport aux modèles discrets.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Ce papier propose VC-STaR, un cadre d'auto-amélioration pour les modèles vision-langage qui exploite des paires de questions visuelles contrastives pour atténuer les hallucinations et générer le nouveau jeu de données VisCoR-55K, améliorant ainsi significativement les capacités de raisonnement visuel des modèles.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

FlashEvaluator est une nouvelle architecture d'évaluation qui améliore l'efficacité et la précision des systèmes générateur-évaluateur en permettant le partage d'informations entre séquences au sein d'une seule passe avant, réduisant ainsi la complexité computationnelle et ayant déjà généré des gains de revenus significatifs lors de son déploiement sur la plateforme Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Cet article présente SteerEval, une nouvelle évaluation hiérarchique qui révèle que le contrôle des grands modèles de langage se dégrade souvent à des niveaux de granularité plus fins, tout en offrant un cadre unifié pour évaluer la maîtrise du comportement des modèles à travers trois domaines et trois niveaux de spécification.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

Le papier présente ExpGuard, un modèle de modération de contenu spécialisé et son jeu de données associé ExpGuardMix, conçus pour protéger les grands modèles de langage dans les domaines financier, médical et juridique contre les attaques adverses, surpassant ainsi les solutions actuelles comme WildGuard.

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

Ce papier présente GPUTOK, un tokeniseur BPE au niveau des bytes accéléré par GPU qui, tout en garantissant une qualité de sortie équivalente aux solutions CPU, offre une accélération significative (jusqu'à 7,6 fois) pour le traitement de longs contextes textuels.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

Cette étude montre que l'extension de la profondeur de récursivité dans les modèles de langage récursifs (RLM) entraîne un phénomène de « surréflexion » qui, bien qu'améliorant les performances sur des tâches complexes en profondeur 1, dégrade paradoxalement les résultats sur des tâches simples tout en augmentant exponentiellement le temps d'exécution et les coûts.

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

StitchCUDA est un cadre de programmation GPU automatisé basé sur des agents multiples et un apprentissage par renforcement guidé par des rubriques, qui génère des programmes CUDA complets avec une efficacité et une fiabilité supérieures aux méthodes existantes.

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Cet article propose la « Gouvernance de Crédibilité », un mécanisme social qui réalloue l'influence en fonction de la capacité des agents à s'aligner sur des preuves publiques évolutives, permettant ainsi aux plateformes en ligne de mieux se corriger collectivement et de résister à la manipulation et au bruit, même lorsque les signaux de vérité sont faibles.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Cet article propose une approche de décodage dynamique sans fine-tuning pour la génération de commentaires vidéo en temps réel, permettant d'adapter le rythme des énoncés à la durée des événements dans les jeux vidéo grâce à des modèles de langage multimodaux.

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Ce papier présente M3IRT, un cadre d'analyse basé sur la théorie de réponse à l'item multidimensionnelle et multimodale qui décompose les capacités des modèles et la difficulté des questions en composantes visuelles, textuelles et croisées, permettant ainsi d'identifier et de prioriser les questions véritablement multimodales pour améliorer la fiabilité et l'efficacité des évaluations des grands modèles de langage multimodaux.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Ce papier présente une méthode novatrice de normalisation et d'analyse déterministe qui atténue les biais de contenu dans le raisonnement des grands modèles de langage multilingues, obtenant un classement parmi les cinq meilleurs lors de l'évaluation SemEval-2026 Task 11.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

← Précédent Suivant →