cs.CL articoli | Gist.Science

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Il paper presenta MITRA, un assistente AI basato su Retrieval-Augmented Generation (RAG) ospitato on-premise per le collaborazioni scientifiche come CMS, che utilizza un'architettura a due livelli e tecniche di estrazione avanzate per recuperare in modo sicuro ed efficiente informazioni da vasti corpus di documentazione interna.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Il paper presenta One-Eval, un sistema agentic che automatizza la valutazione dei grandi modelli linguistici trasformando richieste in linguaggio naturale in flussi di lavoro eseguibili, tracciabili e personalizzabili, riducendo lo sforzo manuale e migliorando la riproducibilità nei contesti industriali.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Questo lavoro propone l'utilizzo degli alberi di Chow-Liu per determinare un ordinamento ottimale dei chunk nei framework di ragionamento multi-agente a catena, riducendo la perdita di informazioni e migliorando significativamente l'accuratezza nella risoluzione di query con contesti estesi rispetto alle strategie di ordinamento tradizionali.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Questo studio dimostra che i modelli linguistici le cui previsioni si allineano maggiormente alle statistiche n-gram sono anche quelli che meglio predicono i tempi di lettura, suggerendo che tale metrica è sensibile a pattern statistici semplici piuttosto che alla complessità dei moderni modelli transformer.

James A. Michaelov, Roger P. Levy2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Il paper introduce DoWhatISay (DOWIS), un dataset multilingue di prompt parlati e scritti per valutare realisticamente i Modelli Linguistici a Grande Scala per la voce, rivelando che i prompt testuali superano quelli vocali tranne nei compiti con output vocale.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Questo studio valuta i rischi di persuasione politica di sette modelli linguistici all'avanguardia attraverso due esperimenti su 19.145 partecipanti, rivelando che questi modelli superano le pubblicità elettorali tradizionali, con Claude che risulta il più persuasivo e Grok il meno, mentre l'efficacia dei prompt basati su informazioni varia significativamente a seconda del modello.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Il paper propone MSSR, un framework di replay esperienziale che stima la forza della memoria a livello di campione e pianifica la ripetizione adattiva per mitigare l'oblio catastrofico durante il fine-tuning continuo dei grandi modelli linguistici, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Questo studio dimostra che l'abilitazione del ragionamento nei modelli linguistici di grandi dimensioni migliora significativamente il richiamo della conoscenza parametrica anche per domande fattuali semplici, grazie a un effetto di buffer computazionale e a un meccanismo di priming fattuale, sebbene quest'ultimo comporti il rischio di allucinazioni che possono essere mitigate selezionando traiettorie prive di errori fattuali.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Questo articolo offre una panoramica completa del merging dei modelli nell'era dei grandi modelli linguistici, presentando la tassonomia FUSE per analizzare fondamenti teorici, strategie algoritmiche, scenari applicativi e l'ecosistema di supporto, con l'obiettivo di guidare ricercatori e professionisti verso lo sviluppo futuro di questa tecnologia.

Mingyang Song, Mao Zheng2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Questo studio dimostra che, al contrario degli esseri umani, il processo di ragionamento aumenta la coerenza onesta nei modelli linguistici di grandi dimensioni, poiché lo spazio rappresentativo sottostante rende le risposte ingannevoli metastabili e più suscettibili di destabilizzazione rispetto a quelle oneste.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Il paper introduce CREATE, un benchmark progettato per valutare la capacità dei modelli linguistici di generare connessioni associative creative, specifiche e diversificate tra concetti, evidenziando come i modelli più avanzati ottengano risultati superiori ma come il compito rimanga complesso e difficile da saturare.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

A Survey of Large Language Models

Questa rassegna esamina i recenti progressi dei grandi modelli linguistici (LLM), analizzando il loro background, le tecniche principali e le applicazioni in quattro aree chiave: pre-addestramento, adattamento, utilizzo e valutazione delle capacità, oltre a fornire risorse e discutere le sfide future.

Wayne Xin Zhao, Kun Zhou, Junyi Li + 19 more2026-03-10💬 cs.CL

Agent-OM: Leveraging LLM Agents for Ontology Matching

Il paper introduce Agent-OM, un nuovo framework basato su agenti LLM che utilizza due agenti siamesi e strumenti specifici per il matching di ontologie, dimostrando prestazioni competitive su compiti semplici e significativamente superiori su compiti complessi e few-shot rispetto agli stati dell'arte attuali.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

Questo studio presenta Llama-Mob, un modello LLM basato su Llama-3-8B e affinato tramite instruction tuning che supera gli stati dell'arte nella previsione a lungo termine della mobilità urbana e dimostra una forte capacità di generalizzazione zero-shot tra diverse città.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru Sezaki2026-03-10💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Questo articolo propone un modello integrato che spiega come l'identità del parlante influenzi la comprensione linguistica attraverso l'interazione tra processi percettivi basati sulla memoria acustico-episodica e aspettative top-down guidate da un modello del parlante, distinguendo tra effetti legati alla familiarità individuale e a gruppi demografici, e suggerendo l'estensione di tali ricerche agli interlocutori artificiali.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Il paper introduce un collo di bottiglia discreto chiave-valore (DKVB) per modelli linguistici encoder-only che, grazie a un'inizializzazione indipendente dal compito e aggiornamenti localizzati, permette un apprendimento continuo efficiente riducendo il dimenticamento catastrofico e mantenendo prestazioni competitive anche in scenari senza identificatore di task.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Il paper propone HarmonicEval, una metrica di valutazione automatica senza riferimento che aggrega i punteggi per criterio in modo bottom-up, e introduce il benchmark MMHE con 18.000 giudizi umani per dimostrare che il metodo supera le metriche convenzionali nella valutazione multi-task e multi-criterio dei modelli visione-linguaggio.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Questo studio esamina l'impatto del collasso degli embedding nel Prompt-Tuning, dimostrando che l'uso di priors di embedding permette un controllo efficace sulle posizioni degli embedding e rivela che le traiettorie generate formano cluster distinti per compiti diversi, suggerendo che la generalizzazione dei modelli linguistici non dipende necessariamente da un unico cluster di attivazione.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Il paper presenta un framework di ensemble basato su un singolo modello per la traduzione automatica neurale che, sfruttando la traduzione pivot per generare candidati diversificati e aggregarli successivamente, migliora la qualità della traduzione per le coppie linguistiche a risorse limitate riducendo al contempo i costi computazionali.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Il paper introduce GRADIEND, un nuovo approccio encoder-decoder che utilizza i gradienti delle reti neurali per identificare e modificare i pesi responsabili dei pregiudizi sociali, consentendo di debiasare i modelli mantenendone le altre capacità.

Jonathan Drechsel, Steffen Herbold2026-03-10🤖 cs.LG

← Precedente Successivo →