Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

En étendant la couverture linguistique d'un modèle de reconnaissance automatique de la parole auto-supervisé de 126 à 4 017 langues, cette étude révèle un changement qualitatif non linéaire permettant de capturer des signaux généalogiques profonds et des contacts linguistiques à long terme, notamment au sein d'un macro-cluster robuste du Pacifique.

Minu Kim, Hoirin Kim, David R. Mortensen2026-03-10💬 cs.CL

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Cet article propose une troisième ambition pour la recherche en intelligence artificielle, consistant à utiliser les grands modèles de langage comme instruments scientifiques pour étudier le comportement humain, la culture et le raisonnement moral en exploitant les régularités symboliques qu'ils ont apprises, tout en clarifiant leurs limites épistémiques et en adaptant les méthodologies des sciences sociales à cette nouvelle échelle.

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise

Cette étude démontre que les méthodes d'estimation d'incertitude basées sur le dropout de Monte Carlo surpassent les approches traditionnelles en termes de fiabilité et de calibration dans des environnements multilingues bruyants, permettant d'améliorer significativement les performances des systèmes NLP en excluant les prédictions les plus incertaines.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Cette étude évalue l'impact de diverses stratégies de débruitage sur la détection de la difficulté des phrases en utilisant des modèles BERT multilingues, révélant que si ces modèles sont intrinsèquement robustes, le filtrage par modèles de mélanges gaussiens améliore significativement les performances sur les petits jeux de données, tandis que le nettoyage des annotations crowdsourcées permet de créer le plus grand corpus multilingue dédié à cette tâche.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Cette étude propose une méthode d'estimation de qualité pour la traduction automatique vers des langues indiennes en ressources limitées, démontrant que l'adaptation des couches intermédiaires de grands modèles de langage (via ALOPE et LoRMA) surpasse les approches par simple prompt pour garantir une robustesse accrue, notamment dans les domaines à haut risque.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Cet article de synthèse (SoK) propose le premier cadre unifié pour les systèmes de Génération Augmentée par Récupération (RAG) agents, en formalisant leur fonctionnement comme des processus de décision markoviens, en établissant une taxonomie architecturale complète, en identifiant des risques critiques tels que la propagation des hallucinations, et en définissant des orientations de recherche pour améliorer leur fiabilité et leur contrôlabilité.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Ce papier présente OAKS, un nouveau benchmark évaluant la capacité des grands modèles de langage à s'adapter en temps réel à des flux de connaissances continus, révélant ainsi des limites significatives des modèles actuels et des systèmes de mémoire agentic dans le suivi précis des faits évolutifs.

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo2026-03-10💬 cs.CL

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Ce papier présente AQuA, un nouveau jeu de données et une méthode de fine-tuning qui permettent aux modèles vision-langage de classifier les ambiguïtés visuelles en quatre niveaux et d'adopter dynamiquement des stratégies de réponse adaptées, telles que la demande de clarification ou l'énumération d'alternatives, surpassant ainsi les modèles existants dans la gestion des questions visuelles ambiguës.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Le papier propose PACT, un cadre d'ajustement fin qui préserve l'alignement de sécurité des grands modèles de langage en régularisant spécifiquement la confiance du modèle sur un petit sous-ensemble de tokens liés à la sécurité, évitant ainsi la dérive de l'alignement sans compromettre les performances sur les tâches en aval.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Le papier présente Dial, un système NL2SQL ancré dans des connaissances qui améliore la génération de requêtes pour des dialectes SQL hétérogènes grâce à une planification logique adaptée, une base de connaissances hiérarchique et une boucle de débogage exécutée, surpassant ainsi les méthodes existantes sur un nouveau benchmark multi-dialectes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Cross-Modal Taxonomic Generalization in (Vision-) Language Models

Cette étude démontre que les modèles de langage préentraînés, lorsqu'ils sont intégrés à des modèles vision-langage, peuvent récupérer et généraliser des connaissances taxonomiques (comme les hyperonymes) à partir de l'input linguistique seul, même en l'absence totale d'évidence visuelle explicite, à condition que les données visuelles présentent une cohérence intra-catégorielle.

Tianyang Xu, Marcelo Sandoval-Castaneda, Karen Livescu, Greg Shakhnarovich, Kanishka Misra2026-03-10💬 cs.CL

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Cette étude révèle que les objectifs d'entraînement des modèles de diffusion créent des représentations hiérarchiques avec une redondance précoce permettant un saut de couches à l'inférence réduisant les FLOPs de près de 19 % sans perte de performance, contrairement aux modèles autoregressifs dont les représentations sont plus dépendantes de la profondeur.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli2026-03-10💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Ce papier présente Bolbosh, le premier système de synthèse vocale neuronale open-source pour le Kashmiri, qui surpasse les modèles multilingues existants grâce à une adaptation supervisée par Flow Matching et un pipeline d'amélioration acoustique, comblant ainsi une lacune critique dans les technologies de la parole pour cette langue.

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir2026-03-10💬 cs.CL