How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Questo studio valuta l'impatto delle strategie di denoising sui modelli BERT per il rilevamento della difficoltà delle frasi in contesti multilingue, rivelando che sebbene i modelli pre-addestrati siano intrinsecamente robusti, la filtrazione dei dati rumorosi (in particolare tramite GMM) migliora significativamente le prestazioni su dataset più piccoli, portando alla creazione e al rilascio del più grande corpus multilingue per questa attività.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Questo documento di posizione sostiene che la mitigazione dei pregiudizi nei grandi modelli linguistici richieda un approccio duale che integri trasformazioni matematiche basate sulla teoria delle categorie (functor) per preservare l'integrità semantica e la generazione aumentata dal recupero (RAG) per iniettare conoscenze esterne diversificate, garantendo così risultati equi e privi di stereotipi.

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou2026-03-10💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Questo studio presenta un approccio di stima della qualità per la traduzione automatica dall'inglese alle lingue indiane in scenari a risorse limitate, dimostrando che l'adattamento degli strati intermedi tramite tecniche come ALOPE e LoRMA supera i limiti dei metodi basati esclusivamente sul prompting, specialmente nei domini ad alto rischio.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Il paper presenta OAKS, un nuovo benchmark per valutare la capacità dei modelli linguistici di adattarsi in tempo reale a flussi di conoscenza in continua evoluzione, rivelando che le attuali metodologie, inclusi i sistemi di memoria agenziali, mostrano limitazioni significative nel tracciamento accurato delle informazioni dinamiche.

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo2026-03-10💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

Questo lavoro presenta AndroidWorld-Generalization, un benchmark e un sistema di apprendimento per rinforzo basato su GRPO, per valutare e migliorare la capacità di generalizzazione zero-shot degli agenti mobili VLM su istanze, template e applicazioni non visti, dimostrando significativi guadagni sulle istanze ma sfide persistenti su template e app, con il rilascio completo del codice per la riproducibilità.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Il paper presenta Dial, un sistema NL2SQL basato sulla conoscenza che supera le limitazioni dei metodi esistenti nel gestire diversi dialetti SQL attraverso una pianificazione logica consapevole del dialetto, una base di conoscenza gerarchica e un ciclo di verifica semantica, dimostrando miglioramenti significativi nell'accuratezza e nella copertura delle funzionalità su un nuovo benchmark multi-database.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Questo studio dimostra che gli obiettivi di addestramento diffusi modellano rappresentazioni interne più gerarchiche e ridondanti rispetto ai modelli autoregressivi, permettendo di ridurre fino al 18,75% i FLOPs durante l'inferenza tramite un metodo di skipping degli strati senza compromettere le prestazioni su compiti di ragionamento e generazione di codice.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli2026-03-10💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Il paper presenta Bolbosh, il primo sistema neurale open-source di sintesi vocale (TTS) dedicato alla lingua Kashmiri, che supera i limiti dei modelli multilingue esistenti grazie a un adattamento supervisionato basato sul Flow Matching e a un pipeline di miglioramento acustico, raggiungendo prestazioni significativamente superiori in termini di intelligibilità e qualità.

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir2026-03-10💬 cs.CL

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

Il paper introduce TableMind++, un agente programmatico autonomo per il ragionamento su tabelle che supera i limiti dei metodi esistenti integrando un framework di inferenza consapevole dell'incertezza, basato su potatura dei piani guidata dalla memoria, raffinamento delle azioni basato sulla confidenza e aggregazione delle traiettorie, per mitigare le allucinazioni e migliorare la precisione numerica.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL