NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Cet article présente NCTB-QA, un nouveau jeu de données à grande échelle en langue bengalie issu de manuels scolaires, qui intègre une distribution équilibrée de questions répondables et non répondables pour évaluer et améliorer les performances des modèles de compréhension de texte dans les contextes à ressources limitées.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Cette étude révèle que les modèles de raisonnement peuvent manifester un « théâtre de raisonnement » performant, mais que le sondage des activations permet de détecter les véritables changements de croyance et d'arrêter la génération de tokens bien plus tôt, réduisant ainsi considérablement le coût computationnel sans sacrifier la précision.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Cette étude démontre que les activations massives et les puits d'attention, bien que souvent co-occurrents dans les Transformers pré-normés en raison d'un artefact architectural, remplissent des fonctions distinctes en agissant respectivement comme des paramètres implicites globaux et des modulateurs locaux des dépendances à court terme.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

Ce papier présente RAEE, un cadre robuste d'arrêt anticipé augmenté par la récupération qui améliore l'efficacité de l'inférence des grands modèles de langage en guidant l'arrêt des couches intermédiaires à l'aide d'informations extraites de données similaires, permettant ainsi d'accélérer le processus tout en maintenant des performances zéro-shot élevées sur diverses tâches.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Cette recherche propose un système innovant de traitement de requêtes sémantiques qui combine des modèles de langage de grande taille (LLM) et le graphe de connaissances scientifiques de l'ANU (ASKG), enrichi par un modèle de document profond (DDM) et une fusion automatique LLM-SPARQL, afin d'améliorer la précision et l'efficacité de l'extraction d'informations sur les travaux de recherche en informatique.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Cette étude présente PubHealthBench, un nouveau benchmark de plus de 8000 questions évaluant la connaissance des modèles de langage (LLM) sur les informations de santé publique du Royaume-Uni, révélant que bien que les modèles propriétaires les plus récents surpassent les humains en questions à choix multiples, leurs performances en réponses libres nécessitent encore des garde-fous supplémentaires.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Le papier présente R1-Code-Interpreter, un modèle de langage entraîné via un apprentissage par renforcement multi-étapes et un curriculum adaptatif pour maîtriser l'utilisation autonome d'interpréteurs de code sur des tâches variées, surpassant ainsi les performances de GPT-4o avec une précision accrue et des capacités d'auto-vérification émergentes.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Cet article propose la « Supervised Calibration », un cadre unificateur basé sur la minimisation de la perte qui améliore l'apprentissage en contexte des grands modèles de langage en apprenant des transformations affines optimales pour corriger les biais et réorienter les frontières de décision, surpassant ainsi les méthodes de calibration existantes sur plusieurs modèles et jeux de données.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI