cs.CL articles | Gist.Science

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Cette étude évalue onze algorithmes de fusion de modèles pour l'adaptation multi-domaine en reconnaissance automatique de la parole en portugais européen, en proposant une nouvelle méthode, BoostedTSV-M, qui surpasse le fine-tuning complet tout en préservant la généralisation hors distribution.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Le papier présente DiSCTT, un cadre d'adaptation au moment du test qui guide l'optimisation des modèles de raisonnement en fonction de la difficulté des instances via un consensus entre trajectoires, combinant ajustement supervisé et apprentissage par renforcement pour améliorer l'efficacité et la stabilité.

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

Ce papier propose ProRes, une méthode de pré-entraînement pour les modèles de langage qui stabilise l'apprentissage et accélère la convergence en appliquant un réchauffement progressif des résidus par couche, permettant aux premières couches de se stabiliser avant que les couches plus profondes ne contribuent à l'optimisation.

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Cette étude démontre que des modèles de langage de petite taille (<4B paramètres), affinés avec des stratégies de raisonnement centrées sur l'analyse des voisins et la chaîne de pensée, peuvent atteindre des performances de désambiguïsation sémantique comparables à celles de modèles massifs comme GPT-4-Turbo tout en réduisant considérablement les coûts computationnels et énergétiques.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

Cette étude démontre que les modèles d'IA utilisent deux mécanismes distincts pour l'introspection : une inférence probabiliste basée sur les anomalies du prompt et un accès direct aux états internes qui détecte la présence d'une anomalie sans en identifier le contenu sémantique.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

Cet article propose un cadre unifié pour l'assemblage de modèles de langage via des distributions $f$ -ensembles, en utilisant un algorithme de Monte Carlo séquentiel au niveau des octets pour surmonter les défis de la normalisation locale et des vocabulaires incompatibles, permettant ainsi d'obtenir de meilleures performances de génération que les méthodes d'agrégation traditionnelles.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Cet article présente le puzzle d'information partielle distribué (DPIP) et un jeu de données multimodales associé pour évaluer la construction de terrain commun, révélant que les grands modèles de langage actuels peinent à suivre l'évolution des croyances et de la tâche face à une asymétrie épistémique, contrairement à une approche axiomatique fondée sur la logique épistémique dynamique.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

FlashAttention-4 est une nouvelle méthode de conception conjointe d'algorithmes et de pipelines de noyaux optimisée pour les GPU Blackwell asymétriques, qui surpasse les solutions existantes en vitesse et en efficacité tout en étant entièrement implémentée en CuTe-DSL pour réduire considérablement les temps de compilation.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Cet article présente DEBISS, un nouveau corpus de débats individuels, semi-structurés et oraux enrichi d'annotations variées pour des tâches de TAL telles que la transcription, la diérèse, l'extraction d'arguments et l'évaluation de la qualité des débats.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Cet article présente NCTB-QA, un nouveau jeu de données à grande échelle en langue bengalie issu de manuels scolaires, qui intègre une distribution équilibrée de questions répondables et non répondables pour évaluer et améliorer les performances des modèles de compréhension de texte dans les contextes à ressources limitées.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Ce papier propose INTRA, une méthode de vérification des faits sans recours à la recherche externe qui exploite les représentations internes des grands modèles de langage pour atteindre des performances de pointe et une forte généralisation sur des connaissances rares, multilingues et de longue portée.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Cette étude révèle que les modèles de raisonnement peuvent manifester un « théâtre de raisonnement » performant, mais que le sondage des activations permet de détecter les véritables changements de croyance et d'arrêter la génération de tokens bien plus tôt, réduisant ainsi considérablement le coût computationnel sans sacrifier la précision.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Cette étude utilise des modèles de langage chinois censurés comme banc d'essai naturel pour évaluer des techniques d'élicitation de l'honnêteté et de détection de mensonges, démontrant que certaines méthodes augmentent les réponses véridiques et se transfèrent à d'autres modèles, bien qu'aucune ne supprime totalement les fausses réponses.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Cette étude démontre que les activations massives et les puits d'attention, bien que souvent co-occurrents dans les Transformers pré-normés en raison d'un artefact architectural, remplissent des fonctions distinctes en agissant respectivement comme des paramètres implicites globaux et des modulateurs locaux des dépendances à court terme.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Le papier présente POET-X, une variante économe en mémoire et efficace du cadre POET pour l'entraînement des grands modèles de langage, qui permet de préentraîner des modèles à plusieurs milliards de paramètres sur un seul GPU Nvidia H100 là où les optimiseurs standards échouent par manque de mémoire.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Cet article propose une méthode innovante pour la segmentation d'instances camouflées à vocabulaire ouvert, qui exploite les modèles de diffusion texte--image pour apprendre des représentations visuelles et textuelles multi-échelles afin de surmonter le défi du masquage des objets dans leur environnement.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

Ce papier présente RAEE, un cadre robuste d'arrêt anticipé augmenté par la récupération qui améliore l'efficacité de l'inférence des grands modèles de langage en guidant l'arrêt des couches intermédiaires à l'aide d'informations extraites de données similaires, permettant ainsi d'accélérer le processus tout en maintenant des performances zéro-shot élevées sur diverses tâches.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Cette recherche propose un système innovant de traitement de requêtes sémantiques qui combine des modèles de langage de grande taille (LLM) et le graphe de connaissances scientifiques de l'ANU (ASKG), enrichi par un modèle de document profond (DDM) et une fusion automatique LLM-SPARQL, afin d'améliorer la précision et l'efficacité de l'extraction d'informations sur les travaux de recherche en informatique.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Cette étude démontre que l'altération des données d'entraînement des modèles de langage permet de confirmer que l'apprentissage des exceptions à la passivation en anglais repose sur deux sources d'induction indépendantes : la fréquence d'usage (enracinement) et la sémantique (notamment l'affectedness).

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

Ce papier présente LMUnit, une approche d'évaluation des modèles de langage qui utilise des tests unitaires en langage naturel et un modèle de notation unifié pour surmonter les limites des méthodes actuelles, améliorant ainsi la fiabilité et l'efficacité des flux de travail de développement.

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

← Précédent Suivant →