PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Cet article présente PersianPunc, un vaste ensemble de données de 17 millions d'échantillons et une approche basée sur ParsBERT pour la restauration de la ponctuation en persan, démontrant une efficacité supérieure et une meilleure adaptation aux applications en temps réel par rapport aux grands modèles de langage.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Ce papier présente un corpus multilingue annoté par des humains, comprenant des textes originaux et leurs versions simplifiées en langage facile à lire pour le catalan, l'espagnol et l'italien, afin de soutenir l'accès aux processus de participation démocratique et de combler le manque de ressources pour l'automatisation de la simplification textuelle dans ces langues.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Cette étude démontre que des modèles de langage de petite taille (<4B paramètres), affinés avec des stratégies de raisonnement centrées sur l'analyse des voisins et la chaîne de pensée, peuvent atteindre des performances de désambiguïsation sémantique comparables à celles de modèles massifs comme GPT-4-Turbo tout en réduisant considérablement les coûts computationnels et énergétiques.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Ensembling Language Models with Sequential Monte Carlo

Cet article propose un cadre unifié pour l'assemblage de modèles de langage via des distributions ff-ensembles, en utilisant un algorithme de Monte Carlo séquentiel au niveau des octets pour surmonter les défis de la normalisation locale et des vocabulaires incompatibles, permettant ainsi d'obtenir de meilleures performances de génération que les méthodes d'agrégation traditionnelles.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Cet article présente le puzzle d'information partielle distribué (DPIP) et un jeu de données multimodales associé pour évaluer la construction de terrain commun, révélant que les grands modèles de langage actuels peinent à suivre l'évolution des croyances et de la tâche face à une asymétrie épistémique, contrairement à une approche axiomatique fondée sur la logique épistémique dynamique.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Cet article présente NCTB-QA, un nouveau jeu de données à grande échelle en langue bengalie issu de manuels scolaires, qui intègre une distribution équilibrée de questions répondables et non répondables pour évaluer et améliorer les performances des modèles de compréhension de texte dans les contextes à ressources limitées.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Cette étude révèle que les modèles de raisonnement peuvent manifester un « théâtre de raisonnement » performant, mais que le sondage des activations permet de détecter les véritables changements de croyance et d'arrêter la génération de tokens bien plus tôt, réduisant ainsi considérablement le coût computationnel sans sacrifier la précision.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Cette étude démontre que les activations massives et les puits d'attention, bien que souvent co-occurrents dans les Transformers pré-normés en raison d'un artefact architectural, remplissent des fonctions distinctes en agissant respectivement comme des paramètres implicites globaux et des modulateurs locaux des dépendances à court terme.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI