An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Cette étude démontre que des modèles de langage de petite taille (<4B paramètres), affinés avec des stratégies de raisonnement centrées sur l'analyse des voisins et la chaîne de pensée, peuvent atteindre des performances de désambiguïsation sémantique comparables à celles de modèles massifs comme GPT-4-Turbo tout en réduisant considérablement les coûts computationnels et énergétiques.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Ensembling Language Models with Sequential Monte Carlo

Cet article propose un cadre unifié pour l'assemblage de modèles de langage via des distributions ff-ensembles, en utilisant un algorithme de Monte Carlo séquentiel au niveau des octets pour surmonter les défis de la normalisation locale et des vocabulaires incompatibles, permettant ainsi d'obtenir de meilleures performances de génération que les méthodes d'agrégation traditionnelles.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Cet article présente le puzzle d'information partielle distribué (DPIP) et un jeu de données multimodales associé pour évaluer la construction de terrain commun, révélant que les grands modèles de langage actuels peinent à suivre l'évolution des croyances et de la tâche face à une asymétrie épistémique, contrairement à une approche axiomatique fondée sur la logique épistémique dynamique.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Cet article présente NCTB-QA, un nouveau jeu de données à grande échelle en langue bengalie issu de manuels scolaires, qui intègre une distribution équilibrée de questions répondables et non répondables pour évaluer et améliorer les performances des modèles de compréhension de texte dans les contextes à ressources limitées.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Cette étude révèle que les modèles de raisonnement peuvent manifester un « théâtre de raisonnement » performant, mais que le sondage des activations permet de détecter les véritables changements de croyance et d'arrêter la génération de tokens bien plus tôt, réduisant ainsi considérablement le coût computationnel sans sacrifier la précision.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Cette étude démontre que les activations massives et les puits d'attention, bien que souvent co-occurrents dans les Transformers pré-normés en raison d'un artefact architectural, remplissent des fonctions distinctes en agissant respectivement comme des paramètres implicites globaux et des modulateurs locaux des dépendances à court terme.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

Ce papier présente RAEE, un cadre robuste d'arrêt anticipé augmenté par la récupération qui améliore l'efficacité de l'inférence des grands modèles de langage en guidant l'arrêt des couches intermédiaires à l'aide d'informations extraites de données similaires, permettant ainsi d'accélérer le processus tout en maintenant des performances zéro-shot élevées sur diverses tâches.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Cette recherche propose un système innovant de traitement de requêtes sémantiques qui combine des modèles de langage de grande taille (LLM) et le graphe de connaissances scientifiques de l'ANU (ASKG), enrichi par un modèle de document profond (DDM) et une fusion automatique LLM-SPARQL, afin d'améliorer la précision et l'efficacité de l'extraction d'informations sur les travaux de recherche en informatique.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI