cs.CL articles | Gist.Science

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Cet article présente une approche innovante permettant l'acquisition simultanée de l'IRM dynamique, de l'EEG et de l'EMG de surface pour étudier la production de la parole, en surmontant les interférences techniques grâce à un pipeline de suppression d'artefacts dédié.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Why Is RLHF Alignment Shallow? A Gradient Analysis

Ce papier démontre théoriquement que l'alignement par RLHF est intrinsèquement superficiel car les gradients de sécurité s'annulent dès que le caractère nuisible d'une séquence est déterminé, et propose une nouvelle fonction objectif basée sur des pénalités de récupération pour garantir un alignement profond à toutes les positions.

Robin Young2026-03-06🤖 cs.LG

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

Le corpus SinhaLegal présente une ressource fondamentale de 2 millions de mots extraits de textes législatifs sri-lankais, conçue pour combler le manque de données en sinhala et soutenir des tâches de traitement automatique des langues telles que l'extraction d'informations et l'analyse juridique.

Minduli Lasandi, Nevidu Jayatilleke2026-03-06💬 cs.CL

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

Le papier présente HACHIMI, un cadre multi-agents orchestré qui génère de manière évolutive et contrôlable un corpus de 1 million de profils d'élèves alignés sur la théorie éducative, validant ainsi leur fidélité par rapport aux données humaines sur des enquêtes internationales comme PISA.

Yilin Jiang, Fei Tan, Xuanyu Yin + 2 more2026-03-06💬 cs.CL

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

Ce papier présente FireBench, un nouveau benchmark open-source conçu pour évaluer la capacité des grands modèles de langage à suivre des instructions dans des contextes d'entreprise et d'API, en comblant le fossé entre les évaluations actuelles axées sur le chat et les besoins réels des applications professionnelles.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Cet article propose une méthode d'échantillonnage diversifié sans entraînement et à faible coût pour les modèles de langage par diffusion, qui améliore significativement la performance Pass@ $k$ en repoussant séquentiellement les échantillons intermédiaires dans l'espace des caractéristiques pour éviter la redondance.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Cette étude évalue la capacité des grands modèles de langage à capturer l'incertitude des experts dans l'analyse qualitative de valeurs humaines selon la théorie de Schwartz, révélant qu'ils atteignent des performances proches du niveau humain sur des métriques d'ensemble mais divergent dans leurs structures d'incertitude et leurs biais systématiques, bien que l'agrégation de modèles et l'utilisation de modèles comme Qwen améliorent significativement l'alignement.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Cette étude démontre que les interventions d'alignement sur les grands modèles de langage, bien qu'efficaces en anglais, provoquent un « contre-coup d'alignement » dans d'autres langues comme le japonais, où elles exacerbent la pathologie collective et la dissociation interne en raison de contraintes culturelles et linguistiques inhérentes aux données d'entraînement.

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Ce papier présente un pipeline innovant d'agents LLM pour la tâche 10 de SemEval-2026, qui combine une extraction de marqueurs psycholinguistiques via une chaîne de pensée discriminative dynamique et une détection d'adhésion aux théories du complot grâce à une architecture « Anti-Chambre d'Écho », permettant d'atteindre des performances significativement supérieures aux modèles de base.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Ce papier présente le système AILS-NTUA pour la tâche 3 de SemEval-2026, qui combine un fine-tuning de modèles encodeurs et un réglage par instructions de grands modèles de langage via LoRA pour réaliser une analyse de sentiment basée sur les aspects multidimensionnelle multilingue avec une efficacité paramétrique et des performances compétitives.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

Cet article propose un paradigme de fusion et d'optimisation hétérogène pour les modèles de langage dans les systèmes de reconnaissance automatique de la parole fédérés, introduisant deux algorithmes (GMMA et RMMA) qui permettent d'obtenir une meilleure généralisation et une convergence jusqu'à sept fois plus rapide que les méthodes de base.

Mengze Hong, Yi Gu, Di Jiang + 4 more2026-03-06💬 cs.CL

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

Le papier présente LocalSUG, un cadre de suggestion de requêtes basé sur les LLM et adapté aux services de vie locale, qui surmonte les défis de l'ancrage géographique, du biais d'exposition et de la latence grâce à des stratégies de minage de candidats, un algorithme GRPO optimisé et des techniques d'accélération, démontrant ainsi une amélioration significative du taux de clic et une réduction des résultats nuls lors de tests en ligne à grande échelle.

Jinwen Chen, Shuai Gong, Shiwen Zhang + 7 more2026-03-06💬 cs.CL

TimeWarp: Evaluating Web Agents by Revisiting the Past

Ce papier présente TimeWarp, un benchmark évaluant la robustesse des agents web face aux évolutions de l'interface, et propose TimeTraj, un algorithme utilisant la distillation de plans sur plusieurs versions d'interface pour améliorer significativement leurs performances.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Ce papier présente VisionPangu, un assistant multimodal compact de 1,7 milliard de paramètres qui améliore la génération de légendes d'images détaillées grâce à un alignement multimodal efficace et à l'utilisation de descriptions humaines denses du jeu de données DOCCI, démontrant ainsi qu'une mise à l'échelle agressive n'est pas nécessaire pour obtenir des performances compétitives.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Replaying pre-training data improves fine-tuning

Cette étude démontre que la réutilisation des données de pré-entraînement générique lors du fine-tuning améliore significativement l'efficacité des données et les performances des modèles sur des tâches cibles spécifiques, même dans des domaines peu liés.

Suhas Kotha, Percy Liang2026-03-06🤖 cs.LG

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

Cette étude présente la méthode CW-PO, qui démontre que l'utilisation d'un LLM faible pour pondérer les échantillons selon sa confiance permet d'aligner les préférences d'un modèle avec une qualité supérieure à celle des données entièrement annotées par des humains, tout en réduisant considérablement les coûts.

Amirabbas Afzali, Myeongho Jeon, Maria Brbic2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

Ce papier présente MPCEval, une suite d'évaluation et un benchmark innovants conçus pour mesurer la génération de conversations multi-parties à l'aide de métriques quantitatives, sans référence et reproductibles, qui décomposent la qualité selon le modèle de locuteur, la qualité du contenu et la cohérence entre les deux.

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Ce papier présente MOUE, une généralisation des modèles Mixture-of-Experts qui introduit une « largeur virtuelle » en réutilisant un pool d'experts universels à travers les couches, surmontant ainsi les limites d'échelle traditionnelles grâce à une topologie en rotation décalée, un équilibrage de charge adapté à la profondeur et un routeur universel, ce qui permet d'obtenir des performances supérieures aux modèles MoE classiques.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Cet article propose une nouvelle méthode de fusion de grands modèles de langage qui, en formulant le problème comme le calcul d'une moyenne de Karcher sur la variété de Fisher-Rao, surmonte les limitations des approches euclidiennes traditionnelles pour préserver la fonctionnalité et éviter l'effondrement des représentations lors de la combinaison de plusieurs experts.

Jiayu Wang, Zuojun Ye, Wenpeng Yin2026-03-06🤖 cs.LG

VRM: Teaching Reward Models to Understand Authentic Human Preferences

Ce papier présente VRM, un nouveau cadre de modélisation variationnelle des récompenses qui améliore l'alignement des grands modèles de langage en imitant le processus d'évaluation humaine via l'inférence de variables latentes représentant les poids des objectifs et les caractéristiques sémantiques, surpassant ainsi les méthodes traditionnelles dans la capture des préférences authentiques.

Biao Liu, Ning Xu, Junming Yang + 2 more2026-03-06💬 cs.CL

← Précédent Suivant →

cs.CL