cs.CL articles | Gist.Science

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

Ce papier présente TableMind++, une extension de l'agent programmatique TableMind qui intègre un cadre d'inférence conscient de l'incertitude, combinant élagage de plans guidé par la mémoire, raffinement d'actions basé sur la confiance et agrégation de trajectoires pour atténuer les hallucinations et améliorer la précision du raisonnement sur les tableaux.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

L'article propose « Accent Vector », une méthode permettant de manipuler de manière contrôlée les accents dans la synthèse vocale multilingue sans nécessiter de données d'entraînement accentuées, en exploitant des vecteurs de tâche dérivés de l'apprentissage sur des langues maternelles différentes.

Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Ce papier présente MAWARITH, un vaste ensemble de données annoté de 12 500 cas de droit successoral islamique en arabe conçu pour entraîner et évaluer les modèles de langage sur l'ensemble de la chaîne de raisonnement juridique, accompagnée d'une nouvelle métrique d'évaluation (MIR-E) qui révèle les limites actuelles des LLMs dans l'application précise des règles complexes d'héritage.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Learning-free L2-Accented Speech Generation using Phonological Rules

Cet article propose un cadre de synthèse vocale à l'accent étranger sans apprentissage qui combine un modèle TTS multilingue avec des règles phonologiques pour transformer les séquences de phonèmes et générer des accents spécifiques, tels que l'espagnol ou l'indien, sans nécessiter de données d'entraînement accentuées.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Cet article présente Nwāchā Munā, un corpus de parole de 5,39 heures en écriture devanagari pour la langue népalaise (Newari), et démontre que l'adaptation fine d'un modèle à partir du népalais voisin permet d'atteindre des performances de reconnaissance automatique de la parole comparables à celles des grands modèles multilingues, offrant ainsi une solution efficace pour cette langue en danger.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Ce papier présente KCoEvo, un cadre enrichi par des graphes de connaissances qui améliore la génération de code évolutif en décomposant la tâche de migration en deux étapes synergiques de récupération de chemins d'évolution et de génération de code informée, surpassant ainsi les modèles de langage standards en précision et en taux de succès d'exécution.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Ce papier présente StyleBench, une nouvelle benchmark multi-tours conçue pour évaluer systématiquement la capacité des modèles de langage vocaux à contrôler l'intensité de quatre dimensions du style de parole (émotion, vitesse, volume et hauteur) lors de conversations.

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo Zhu2026-03-10💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

Le papier présente KohakuRAG, un cadre RAG hiérarchique innovant qui améliore la précision des citations et la stabilité des réponses grâce à une indexation arborescente à quatre niveaux, une planification de requêtes par LLM et une inférence d'ensemble, remportant ainsi la première place au défi WattBot 2025.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Ce rapport présente les optimisations intégrées de Megatron Core pour le entraînement évolutif des modèles à mélange d'experts (MoE), couvrant la mémoire, la communication et le calcul afin d'atteindre des performances élevées sur des clusters massifs tout en offrant une solution open-source prête pour la production.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Cette étude évalue les capacités de différents grands modèles de langage, notamment la série Llama-3 et ChatGPT, à résoudre des problèmes d'optimisation discrète à grande échelle via des jeux de données variés, révélant que si les modèles plus puissants obtiennent de meilleurs résultats, la technique de raisonnement par étapes (CoT) n'est pas systématiquement efficace et que des données désordonnées peuvent paradoxalement améliorer les performances sur des problèmes simples malgré une instabilité accrue.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Le papier présente 3ViewSense, un cadre qui comble le déficit d'intelligence spatiale des modèles vision-langage en ancrant le raisonnement dans des vues orthographiques via un mécanisme « simuler-et-raisonner » pour reconstruire des représentations 3D cohérentes.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

En appliquant un blanchiment PCA à GPT-2-small, cette étude révèle que l'alignement des clusters dans l'espace d'embedding permet de distinguer géométriquement les types d'hallucinations, démontrant que la séparation entre les types 1 et 2 est une limite de capacité du modèle plutôt qu'un artefact de mesure.

Matic Korun2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Ce papier présente le système QuadAI pour la tâche 3 de SemEval-2026, qui combine un encodeur hybride RoBERTa et des modèles de langage (LLM) via un apprentissage d'ensemble pour améliorer la précision de l'analyse de sentiment basée sur les aspects multidimensionnels.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

ArcLight est une architecture d'inférence légère conçue spécifiquement pour les CPU many-core qui, en optimisant la gestion de la mémoire et le parallélisme des tenseurs pour réduire les accès inter-NUMA, dépasse les performances des cadres existants d'un facteur allant jusqu'à 46 %.

Yuzhuang Xu, Xu Han, Yuxuan Li, Wanxiang Che2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Ce papier présente MicroCoder-GRPO, une approche améliorée d'optimisation de politique relative par groupes intégrant des innovations techniques pour surmonter les goulots d'étranglement de l'entraînement des modèles de codage modernes, accompagnée de nouveaux ensembles de données et d'un évaluateur qui permettent d'obtenir des performances compétitives, voire supérieures, à celles des modèles plus grands.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Ce papier présente MicroCoder, un ensemble de données de programmation compétitive soigneusement sélectionné et pondéré par difficulté via un cadre de traitement en quatre étapes, qui démontre que l'entraînement de modèles de code sur des problèmes récents et exigeants améliore significativement leurs performances sur des tâches complexes par rapport aux jeux de données existants.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Cette étude évalue les biais sociaux de sept grands modèles de langage dans le contexte culturel népalais sous-représenté, révélant que les biais implicites de génération, qui suivent une relation en U avec la température, sont mal capturés par les métriques d'accord explicite et varient selon les domaines culturels.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Cette étude présente le benchmark AEPC-QA pour évaluer 51 modèles de langage dans le contexte de l'assurance québécoise, révélant que le raisonnement inférentiel et l'augmentation par récupération (RAG) améliorent considérablement la précision, bien que ce dernier puisse parfois déstabiliser les performances et que les grands modèles généralistes surpassent les modèles spécialisés francophones.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

Le papier présente DistillGuard, un cadre d'évaluation montrant que la plupart des défenses de sortie contre la distillation de connaissances des LLM sont inefficaces et dépendantes de la tâche, ne protégeant pas suffisamment la propriété intellectuelle des fournisseurs de modèles.

Bo Jiang2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

Le toolkit AI Steerability 360 est une bibliothèque Python open-source et extensible qui offre une interface unifiée pour contrôler, composer et évaluer les méthodes de pilotage des grands modèles de langage via quatre surfaces de contrôle (entrée, structure, état et sortie).

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

← Précédent Suivant →