cs.CL articles | Gist.Science

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Le papier présente MuRating, un cadre évolutif qui transfère les signaux de qualité des données anglaises vers un évaluateur multilingue unique pour sélectionner des sous-ensembles de données équilibrés, améliorant ainsi significativement les performances des modèles de langage multilingues sur des tâches exigeantes en connaissances.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

Le papier présente Eka-Eval, un cadre d'évaluation open-source et modulaire conçu pour évaluer de manière complète et accessible les grands modèles de langage multilingues, y compris ceux dédiés aux langues à ressources limitées, en intégrant plus de 55 benchmarks et en surpassant les solutions existantes en termes d'ergonomie et de reproductibilité.

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Cet article présente TreeBench, un benchmark diagnostique évaluant le raisonnement visuel ancré par des preuves traçables, et propose TreeVGR, une méthode d'apprentissage par renforcement qui améliore significativement les performances des modèles en localisation et en raisonnement explicite.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Le papier présente Vevo2, un cadre unifié et contrôlable pour la génération de voix parlée et chantée qui surmonte le manque de données annotées grâce à deux tokenizeurs audio innovants et des stratégies d'apprentissage combinées, permettant ainsi une maîtrise flexible de la prosodie, du style et du timbre pour diverses tâches de synthèse et d'édition.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Cette étude démontre que la quantisation des grands modèles de langage a un impact nuancé sur les biais, réduisant la toxicité mais augmentant légèrement les stéréotypes et l'injustice dans les tâches génératives, ce qui souligne la nécessité d'équilibrer l'efficacité et les considérations éthiques.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Cet article propose une nouvelle approche d'alignement acoustique-linguistique pour la reconnaissance automatique de la parole, modélisant la correspondance comme un problème de détection via un transport optimal déséquilibré afin de gérer les asymétries structurelles et le bruit, améliorant ainsi le transfert de connaissances et les performances du système.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Ce papier présente TSPC, une architecture novatrice à deux étapes centrée sur les phonèmes qui améliore significativement la reconnaissance de la parole en code-switching vietnamien-anglais en atteignant un taux d'erreur de mots de 19,06 % avec des ressources de calcul réduites.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

Cette étude démontre que l'analyse longitudinale des publications sur les réseaux sociaux permet de retracer les changements linguistiques associés au trouble bipolaire, révélant des perturbations à l'annonce du diagnostic et des fluctuations saisonnières annuelles des symptômes dans les années suivantes.

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

L'article présente Llama-Mimi, un modèle de langage vocal qui aplatit les tokens RVQ multi-niveaux du codec Mimi en une seule séquence pour les modéliser de manière autoregressive via un simple Transformer, surpassant ainsi les architectures hiérarchiques existantes sur la plupart des tâches et obtenant les meilleurs résultats en matière de cohérence acoustique.

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Cette étude révèle que les modèles de langage servant de base aux systèmes de parole peinent à gérer les disfluences de la conversation spontanée, privilégiant souvent l'abstraction sémantique au détriment de la fidélité structurelle, ce qui compromet leur robustesse malgré les performances prometteuses du fine-tuning.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Le papier présente BeyondBench, un cadre d'évaluation résistant à la contamination qui génère dynamiquement des problèmes algorithmiques pour mesurer le véritable raisonnement des modèles de langage, révélant ainsi des déficiences significatives dans leur capacité à résoudre des tâches complexes sans outils externes.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Cette étude présente une méthode novatrice permettant l'entraînement stable et précis de grands modèles de langage en format NVFP4 à l'aide de transformations de Hadamard aléatoires et d'autres techniques, démontrant que cette approche atteint des performances comparables à la précision FP8 tout en réduisant considérablement les coûts de calcul.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Ce papier présente PrefDisco, une nouvelle méthode d'évaluation et une métrique de préférence (PrefAlign) conçues pour mesurer la capacité des modèles de langage à adapter leur raisonnement aux préférences individuelles des utilisateurs dans des scénarios interactifs, révélant ainsi la nécessité d'un développement dédié pour une personnalisation proactive efficace.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Le papier présente Graph2Eval, un cadre piloté par les graphes de connaissances qui génère automatiquement des tâches multimodales fiables et évolutives pour évaluer les agents, en surmontant les limites des jeux de données statiques et les problèmes d'incohérence sémantique des méthodes basées sur les LLM.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

Ce papier propose GMT, une nouvelle approche qui remplace la simple concaténation de préfixes par un mécanisme d'attention croisée profonde intégrant une mémoire graphique explicite dans les LLM pour améliorer la complétion de graphes de connaissances.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Ce papier présente AuthenHallu, le premier benchmark de détection d'hallucinations entièrement construit à partir d'interactions authentiques entre humains et LLM, révélant un taux d'hallucinations significatif (31,4 % en moyenne, atteignant 60 % dans des domaines complexes) et démontrant les limites actuelles des modèles de langage à détecter ces erreurs dans des scénarios réels.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Cette étude démontre que le fine-tuning sur des domaines restreints laisse des traces lisibles dans les activations des grands modèles de langage, permettant d'identifier le domaine d'entraînement et d'améliorer l'interprétabilité, tout en avertissant que ces biais, liés au surapprentissage, peuvent fausser les recherches sur la sécurité et l'alignement si l'on utilise ces modèles comme proxy pour des ajustements plus larges.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Ce papier présente Grasp Any Region (GAR), un modèle d'IA multimodale qui améliore la compréhension visuelle des régions en intégrant des contextes globaux et en modélisant les interactions entre plusieurs zones, permettant ainsi un raisonnement compositionnel avancé et surpassant les modèles existants sur des benchmarks spécialisés.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

Le papier présente EchoMind, le premier benchmark multi-niveaux interconnecté évaluant la capacité des modèles de langage parlés à intégrer les indices vocaux non lexicaux avec le contenu linguistique pour générer des réponses empathiques, révélant ainsi que les modèles actuels peinent à maîtriser cette complexité.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Cet article présente l'Open Korean Historical Corpus, un ensemble de données ouvert et à grande échelle couvrant 1 300 ans d'évolution linguistique coréenne, qui permet d'analyser quantitativement les transitions scripturales majeures et les divergences lexicales tout en servant de corpus d'entraînement pour les modèles de langage.

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

← Précédent Suivant →