cs.CL articoli | Gist.Science

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Il paper propone di sostituire la proiezione di output densa nell'attenzione multi-testa con una trasformata di Hadamard di Walsh fissa e priva di parametri seguita da un ridimensionamento affine leggero, ottenendo una significativa riduzione dei parametri e dei costi di inferenza mantenendo o migliorando le prestazioni sui benchmark.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

Questo studio introduce un nuovo framework computazionale e un dataset diagnostico per valutare come i modelli linguistici affrontano il "proviso problem" nella pragmatica, rivelando che, sebbene i loro giudizi si allineino a quelli umani, lo fanno basandosi su abbinamenti superficiali piuttosto che su un vero ragionamento semantico o pragmatico.

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Questo capitolo esamina i recenti progressi nei modelli computazionali che, attraverso l'apprendimento auto-supervisionato e la fondazione visiva, spiegano come gli infanti acquisiscano il linguaggio da input acustici e audiovisivi senza ricorrere a precondizioni linguistiche, dimostrando come principi di apprendimento condivisi possano unificare diverse teorie sullo sviluppo cognitivo.

Okko Räsänen2026-03-10💬 cs.CL

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

Questo studio dimostra che combinare l'iterazione adattiva degli strati e banchi di memoria gating nei transformer permette di superare le prestazioni di modelli isoflop molto più profondi, sfruttando il looping per il ragionamento matematico e la memoria per i compiti di senso comune.

Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

Il paper presenta QUORUM, un framework di valutazione che unisce le prospettive di sviluppatori, esperti e utenti, e COACH, una pipeline basata su LLM per generare consigli sullo stile di vita personalizzati per pazienti oncologici, dimostrando come un approccio multi-stakeholder sia essenziale per sviluppare sistemi di linguaggio sanitario affidabili e centrati sul paziente.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Il paper presenta ToCoRL, un framework che sfrutta la plasticità comportamentale intrinseca dei modelli linguistici di grandi dimensioni, rivelata attraverso la generazione condizionata ai token, per internalizzare tramite apprendimento per rinforzo adattamenti comportamentali stabili che permettono un controllo preciso delle modalità di risposta (come passare dal ragionamento passo-passo alla risposta diretta) senza degradare le capacità del modello.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

Il paper presenta Sandpiper, un sistema misto che integra dashboard interattive e motori LLM per scalare l'analisi qualitativa dei discorsi educativi digitali, garantendo al contempo privacy, rigore metodologico e affidabilità attraverso l'orchestrazione vincolata e la de-identificazione automatica.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Il paper dimostra che il segnale di preferenza alla base del Reinforcement Learning from Human Feedback (RLHF) è vulnerabile a fenomeni di "cecità alla scelta" sia umani che artificiali, rivelando come le preferenze siano costruite dal contesto di elicita-zione piuttosto che riflettere stati interni stabili, il che compromette l'efficacia dell'addestramento dei modelli.

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Il paper propone un metodo che equipaggia gli agenti LLM con capacità di recupero native mappando direttamente gli stati nascosti in uno spazio di embedding tramite un leggero strato di proiezione, eliminando la necessità di un modello di embedding separato e mantenendo il 97% della qualità del recupero rispetto alla pipeline standard.

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

Il paper introduce VET-Bench, un test diagnostico che rivela l'incapacità degli attuali modelli visione-linguaggio di tracciare oggetti indistinguibili, proponendo e validando il metodo SGCoT che supera il 90% di accuratezza generando esplicitamente le traiettorie degli oggetti come stati intermedi.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Questo studio prospettico di fattibilità dimostra che un'intelligenza artificiale conversazionale basata su modelli linguistici (AMIE) può condurre in sicurezza colloqui clinici e formulare diagnosi differenziali in un contesto di cure primarie reale, ottenendo un'alta soddisfazione dei pazienti e una qualità delle diagnosi paragonabile a quella dei medici, sebbene i medici superino l'AI nella praticità e nel costo delle terapie proposte.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Questo lavoro introduce il primo dataset gratuito in inglese-svedese per analizzare le preferenze dei modelli linguistici verso il "translationese", rivelando che tali modelli tendono a favorire traduzioni letterali rispetto a formulazioni idiomatiche, specialmente quando esposti alla frase sorgente.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann2026-03-10💬 cs.CL

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

LycheeCluster è un metodo innovativo per la gestione efficiente della cache KV nei modelli linguistici su contesti lunghi, che combina un'analisi semantica dei blocchi e un indicizzazione gerarchica per ridurre la complessità di ricerca da lineare a logaritmica, ottenendo un'accelerazione fino a 3,6 volte rispetto agli stati dell'arte.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Il paper presenta Fanar-Sadiq, un assistente islamico bilingue basato su un'architettura multi-agente che combina recupero di informazioni, calcolo deterministico e verifica delle fonti per fornire risposte precise e radicate nei testi canonici su zakat, eredità e giurisprudenza, superando le limitazioni degli attuali modelli linguistici.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

Il paper introduce Drift2Act, un controller che trasforma il monitoraggio della deriva dei dati in un processo decisionale vincolato, combinando stime di drift e certificati di rischio online per attivare interventi sicuri e a basso costo, garantendo il rispetto dei vincoli di budget e riducendo le violazioni di sicurezza.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Il paper introduce OfficeQA Pro, un benchmark per valutare le capacità di ragionamento fondato su documenti degli agenti AI, rivelando che anche i modelli linguistici più avanzati faticano a ottenere risultati affidabili su un vasto corpus di bollettini del Tesoro degli Stati Uniti, sebbene l'uso di rappresentazioni documentali strutturate possa migliorare significativamente le prestazioni.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

Il paper presenta CODA, un metodo che ottimizza l'allocazione dinamica delle risorse computazionali nei modelli di ragionamento adattivo, riducendo i costi sui compiti semplici e aumentando la deliberazione su quelli difficili attraverso un segnale interno di difficoltà, senza richiedere annotazioni esterne.

Siye Wu, Jian Xie, Yikai Zhang, Yanghua Xiao2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

Questo lavoro analizza l'apprendimento per rinforzo non supervisionato con ricompense verificabili (URLVR), rivelando che i metodi intrinseci tendono al collasso del modello a causa di un allineamento errato tra confidenza e correttezza, mentre le ricompense esterne basate sull'asimmetria computazionale offrono una potenziale via di fuga per superare questi limiti di scalabilità.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

Il paper propone l'Agentic Critical Training (ACT), un paradigma di apprendimento per rinforzo che supera i limiti dell'imitazione addestrando gli agenti a identificare autonomamente le azioni migliori tra alternative, sviluppando così una genuina capacità di auto-riflessione che migliora significativamente le prestazioni e la generalizzazione rispetto ai metodi esistenti.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Analyzing the Performance of ChatGPT in Cardiology and Vascular Pathologies

Lo studio analizza le prestazioni di ChatGPT in cardiologia e patologie vascolari, dimostrando che il modello ha superato due studenti di medicina nel rispondere correttamente a un set di 190 domande a scelta multipla, ottenendo un punteggio del 92,10%.

Walid Hariri2026-03-09💬 cs.CL

← Precedente Successivo →