cs.CL articoli | Gist.Science

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Questo articolo propone una "terza ambizione" per l'intelligenza artificiale, che vede i grandi modelli linguistici non solo come strumenti di produttività o di allineamento, ma come nuovi strumenti scientifici per studiare la cultura, il comportamento umano e il ragionamento morale attraverso l'analisi delle regolarità simboliche apprese dai dati testuali.

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise

Questo studio dimostra che, sebbene i metodi basati sull'output softmax siano competitivi in contesti ad alta risorsa, l'approccio Monte Carlo dropout offre stime di incertezza più robuste e affidabili per la classificazione multilingue in condizioni rumorose, consentendo di migliorare le prestazioni complessive rifiutando le previsioni più incerte.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Questo studio valuta l'impatto delle strategie di denoising sui modelli BERT per il rilevamento della difficoltà delle frasi in contesti multilingue, rivelando che sebbene i modelli pre-addestrati siano intrinsecamente robusti, la filtrazione dei dati rumorosi (in particolare tramite GMM) migliora significativamente le prestazioni su dataset più piccoli, portando alla creazione e al rilascio del più grande corpus multilingue per questa attività.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts

Il paper introduce RILEC, un vasto dataset di oltre 18.000 frasi e un framework di generazione basati su modelli linguistici e regole per rilevare e produrre errori di interferenza linguistica dall'inglese causati dal russo come madrelingua, migliorando significativamente le prestazioni dei modelli di rilevamento.

Darya Kharlamova, Irina Proskurina2026-03-10💬 cs.CL

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Questo documento di posizione sostiene che la mitigazione dei pregiudizi nei grandi modelli linguistici richieda un approccio duale che integri trasformazioni matematiche basate sulla teoria delle categorie (functor) per preservare l'integrità semantica e la generazione aumentata dal recupero (RAG) per iniettare conoscenze esterne diversificate, garantendo così risultati equi e privi di stereotipi.

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou2026-03-10💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Questo studio presenta un approccio di stima della qualità per la traduzione automatica dall'inglese alle lingue indiane in scenari a risorse limitate, dimostrando che l'adattamento degli strati intermedi tramite tecniche come ALOPE e LoRMA supera i limiti dei metodi basati esclusivamente sul prompting, specialmente nei domini ad alto rischio.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Questo articolo presenta il primo quadro unificato per i sistemi di RAG agenziali, fornendo una formalizzazione matematica, una tassonomia architetturale completa, un'analisi dei rischi critici e una roadmap per la ricerca futura su questi sistemi autonomi.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Il paper presenta OAKS, un nuovo benchmark per valutare la capacità dei modelli linguistici di adattarsi in tempo reale a flussi di conoscenza in continua evoluzione, rivelando che le attuali metodologie, inclusi i sistemi di memoria agenziali, mostrano limitazioni significative nel tracciamento accurato delle informazioni dinamiche.

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo2026-03-10💬 cs.CL

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Il paper introduce AQuA, un dataset fine-grained che classifica le domande visive ambigue in quattro livelli e addestra i modelli Vision-Language a generare risposte strategiche adattive, superando le capacità degli attuali sistemi nel gestire l'incertezza e nel richiedere chiarimenti quando necessario.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

Questo lavoro presenta AndroidWorld-Generalization, un benchmark e un sistema di apprendimento per rinforzo basato su GRPO, per valutare e migliorare la capacità di generalizzazione zero-shot degli agenti mobili VLM su istanze, template e applicazioni non visti, dimostrando significativi guadagni sulle istanze ma sfide persistenti su template e app, con il rilascio completo del codice per la riproducibilità.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Il paper propone PACT, un framework di fine-tuning che preserva l'allineamento alla sicurezza dei grandi modelli linguistici regolando la confidenza su un piccolo sottoinsieme di token critici, evitando così il drift di sicurezza senza compromettere le prestazioni nei compiti downstream.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Il paper presenta Dial, un sistema NL2SQL basato sulla conoscenza che supera le limitazioni dei metodi esistenti nel gestire diversi dialetti SQL attraverso una pianificazione logica consapevole del dialetto, una base di conoscenza gerarchica e un ciclo di verifica semantica, dimostrando miglioramenti significativi nell'accuratezza e nella copertura delle funzionalità su un nuovo benchmark multi-database.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Questo articolo offre un'analisi tecnica completa dell'evoluzione dei modelli di generazione delle immagini, esaminando le architetture fondamentali, le tecniche di ottimizzazione, le limitazioni e le recenti applicazioni nella generazione video, con un focus particolare sulla sicurezza e sulla responsabilità nel loro utilizzo.

Rouzbeh Shirvani2026-03-10💬 cs.CL

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

Questo lavoro introduce il Dual-Stream Transformer, un'architettura che scompone il flusso residuo in due componenti funzionalmente distinte per bilanciare interpretabilità e prestazioni, dimostrando che strategie di mixing controllate permettono di mantenere una generazione robusta pur esponendo la struttura interna del modello.

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Cross-Modal Taxonomic Generalization in (Vision-) Language Models

Lo studio dimostra che i modelli linguistici pre-addestrati possono recuperare e generalizzare la conoscenza tassonomica (iperonimi) in modelli visione-linguaggio anche in assenza di evidenze esplicite durante l'addestramento, grazie alla sinergia tra coerenza degli input visivi e indizi derivati dal linguaggio.

Tianyang Xu, Marcelo Sandoval-Castaneda, Karen Livescu, Greg Shakhnarovich, Kanishka Misra2026-03-10💬 cs.CL

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Questo studio dimostra che gli obiettivi di addestramento diffusi modellano rappresentazioni interne più gerarchiche e ridondanti rispetto ai modelli autoregressivi, permettendo di ridurre fino al 18,75% i FLOPs durante l'inferenza tramite un metodo di skipping degli strati senza compromettere le prestazioni su compiti di ragionamento e generazione di codice.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli2026-03-10💬 cs.CL

A Joint Neural Baseline for Concept, Assertion, and Relation Extraction from Clinical Text

Questo lavoro propone un sistema end-to-end innovativo che ottimizza congiuntamente il riconoscimento dei concetti, la classificazione dell'asserzione e l'estrazione delle relazioni nei testi clinici, superando significativamente le prestazioni dei metodi a pipeline tradizionali e stabilendo una nuova baseline per la ricerca futura.

Fei Cheng, Ribeka Tanaka, Sadao Kurohashi2026-03-10💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Il paper presenta Bolbosh, il primo sistema neurale open-source di sintesi vocale (TTS) dedicato alla lingua Kashmiri, che supera i limiti dei modelli multilingue esistenti grazie a un adattamento supervisionato basato sul Flow Matching e a un pipeline di miglioramento acustico, raggiungendo prestazioni significativamente superiori in termini di intelligibilità e qualità.

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir2026-03-10💬 cs.CL

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

Il paper introduce TableMind++, un agente programmatico autonomo per il ragionamento su tabelle che supera i limiti dei metodi esistenti integrando un framework di inferenza consapevole dell'incertezza, basato su potatura dei piani guidata dalla memoria, raffinamento delle azioni basato sulla confidenza e aggregazione delle traiettorie, per mitigare le allucinazioni e migliorare la precisione numerica.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

Il paper presenta "Accent Vector", un metodo che permette di controllare e manipolare gli accenti nella sintesi vocale multilingue senza necessitare di dati di addestramento accentrati, generando invece rappresentazioni derivanti dall'adattamento di modelli su lingue native diverse.

Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

← Precedente Successivo →