cs.CL articles | Gist.Science

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Ce papier présente WavSLM, un modèle de langage vocal qui, grâce à la distillation de WavLM et à une prédiction autoregressive sur un seul flux de tokens, parvient à générer de la parole cohérente en modélisant conjointement les informations sémantiques et acoustiques sans aucune supervision textuelle.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Le papier présente Med-V1, une famille de modèles de langage petits mais performants entraînés sur des données synthétiques, qui rivalise avec les modèles de pointe pour l'attribution d'évidence biomédicale et la détection d'hallucinations tout en permettant des applications évolutives et économiques.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Cet article présente PersianPunc, un vaste ensemble de données de 17 millions d'échantillons et une approche basée sur ParsBERT pour la restauration de la ponctuation en persan, démontrant une efficacité supérieure et une meilleure adaptation aux applications en temps réel par rapport aux grands modèles de langage.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Ce papier présente un corpus multilingue annoté par des humains, comprenant des textes originaux et leurs versions simplifiées en langage facile à lire pour le catalan, l'espagnol et l'italien, afin de soutenir l'accès aux processus de participation démocratique et de combler le manque de ressources pour l'automatisation de la simplification textuelle dans ces langues.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Cette étude évalue onze algorithmes de fusion de modèles pour l'adaptation multi-domaine en reconnaissance automatique de la parole en portugais européen, en proposant une nouvelle méthode, BoostedTSV-M, qui surpasse le fine-tuning complet tout en préservant la généralisation hors distribution.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Le papier présente DiSCTT, un cadre d'adaptation au moment du test qui guide l'optimisation des modèles de raisonnement en fonction de la difficulté des instances via un consensus entre trajectoires, combinant ajustement supervisé et apprentissage par renforcement pour améliorer l'efficacité et la stabilité.

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

Ce papier propose ProRes, une méthode de pré-entraînement pour les modèles de langage qui stabilise l'apprentissage et accélère la convergence en appliquant un réchauffement progressif des résidus par couche, permettant aux premières couches de se stabiliser avant que les couches plus profondes ne contribuent à l'optimisation.

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Cette étude démontre que des modèles de langage de petite taille (<4B paramètres), affinés avec des stratégies de raisonnement centrées sur l'analyse des voisins et la chaîne de pensée, peuvent atteindre des performances de désambiguïsation sémantique comparables à celles de modèles massifs comme GPT-4-Turbo tout en réduisant considérablement les coûts computationnels et énergétiques.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

Cette étude démontre que les modèles d'IA utilisent deux mécanismes distincts pour l'introspection : une inférence probabiliste basée sur les anomalies du prompt et un accès direct aux états internes qui détecte la présence d'une anomalie sans en identifier le contenu sémantique.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

Cet article propose un cadre unifié pour l'assemblage de modèles de langage via des distributions $f$ -ensembles, en utilisant un algorithme de Monte Carlo séquentiel au niveau des octets pour surmonter les défis de la normalisation locale et des vocabulaires incompatibles, permettant ainsi d'obtenir de meilleures performances de génération que les méthodes d'agrégation traditionnelles.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Cet article présente le puzzle d'information partielle distribué (DPIP) et un jeu de données multimodales associé pour évaluer la construction de terrain commun, révélant que les grands modèles de langage actuels peinent à suivre l'évolution des croyances et de la tâche face à une asymétrie épistémique, contrairement à une approche axiomatique fondée sur la logique épistémique dynamique.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

FlashAttention-4 est une nouvelle méthode de conception conjointe d'algorithmes et de pipelines de noyaux optimisée pour les GPU Blackwell asymétriques, qui surpasse les solutions existantes en vitesse et en efficacité tout en étant entièrement implémentée en CuTe-DSL pour réduire considérablement les temps de compilation.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Cet article présente DEBISS, un nouveau corpus de débats individuels, semi-structurés et oraux enrichi d'annotations variées pour des tâches de TAL telles que la transcription, la diérèse, l'extraction d'arguments et l'évaluation de la qualité des débats.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Cet article présente NCTB-QA, un nouveau jeu de données à grande échelle en langue bengalie issu de manuels scolaires, qui intègre une distribution équilibrée de questions répondables et non répondables pour évaluer et améliorer les performances des modèles de compréhension de texte dans les contextes à ressources limitées.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Ce papier propose INTRA, une méthode de vérification des faits sans recours à la recherche externe qui exploite les représentations internes des grands modèles de langage pour atteindre des performances de pointe et une forte généralisation sur des connaissances rares, multilingues et de longue portée.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Cette étude révèle que les modèles de raisonnement peuvent manifester un « théâtre de raisonnement » performant, mais que le sondage des activations permet de détecter les véritables changements de croyance et d'arrêter la génération de tokens bien plus tôt, réduisant ainsi considérablement le coût computationnel sans sacrifier la précision.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Cette étude utilise des modèles de langage chinois censurés comme banc d'essai naturel pour évaluer des techniques d'élicitation de l'honnêteté et de détection de mensonges, démontrant que certaines méthodes augmentent les réponses véridiques et se transfèrent à d'autres modèles, bien qu'aucune ne supprime totalement les fausses réponses.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Cette étude démontre que les activations massives et les puits d'attention, bien que souvent co-occurrents dans les Transformers pré-normés en raison d'un artefact architectural, remplissent des fonctions distinctes en agissant respectivement comme des paramètres implicites globaux et des modulateurs locaux des dépendances à court terme.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Le papier présente POET-X, une variante économe en mémoire et efficace du cadre POET pour l'entraînement des grands modèles de langage, qui permet de préentraîner des modèles à plusieurs milliards de paramètres sur un seul GPU Nvidia H100 là où les optimiseurs standards échouent par manque de mémoire.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Cet article propose une méthode innovante pour la segmentation d'instances camouflées à vocabulaire ouvert, qui exploite les modèles de diffusion texte--image pour apprendre des représentations visuelles et textuelles multi-échelles afin de surmonter le défi du masquage des objets dans leur environnement.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

← Précédent Suivant →