One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Il paper presenta One-Eval, un sistema agentic che automatizza la valutazione dei grandi modelli linguistici trasformando richieste in linguaggio naturale in flussi di lavoro eseguibili, tracciabili e personalizzabili, riducendo lo sforzo manuale e migliorando la riproducibilità nei contesti industriali.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Questo lavoro propone l'utilizzo degli alberi di Chow-Liu per determinare un ordinamento ottimale dei chunk nei framework di ragionamento multi-agente a catena, riducendo la perdita di informazioni e migliorando significativamente l'accuratezza nella risoluzione di query con contesti estesi rispetto alle strategie di ordinamento tradizionali.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Questo studio valuta i rischi di persuasione politica di sette modelli linguistici all'avanguardia attraverso due esperimenti su 19.145 partecipanti, rivelando che questi modelli superano le pubblicità elettorali tradizionali, con Claude che risulta il più persuasivo e Grok il meno, mentre l'efficacia dei prompt basati su informazioni varia significativamente a seconda del modello.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Questo studio dimostra che l'abilitazione del ragionamento nei modelli linguistici di grandi dimensioni migliora significativamente il richiamo della conoscenza parametrica anche per domande fattuali semplici, grazie a un effetto di buffer computazionale e a un meccanismo di priming fattuale, sebbene quest'ultimo comporti il rischio di allucinazioni che possono essere mitigate selezionando traiettorie prive di errori fattuali.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Questo studio dimostra che, al contrario degli esseri umani, il processo di ragionamento aumenta la coerenza onesta nei modelli linguistici di grandi dimensioni, poiché lo spazio rappresentativo sottostante rende le risposte ingannevoli metastabili e più suscettibili di destabilizzazione rispetto a quelle oneste.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

Speaker effects in language comprehension: An integrative model of language and speaker processing

Questo articolo propone un modello integrato che spiega come l'identità del parlante influenzi la comprensione linguistica attraverso l'interazione tra processi percettivi basati sulla memoria acustico-episodica e aspettative top-down guidate da un modello del parlante, distinguendo tra effetti legati alla familiarità individuale e a gruppi demografici, e suggerendo l'estensione di tali ricerche agli interlocutori artificiali.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Il paper introduce un collo di bottiglia discreto chiave-valore (DKVB) per modelli linguistici encoder-only che, grazie a un'inizializzazione indipendente dal compito e aggiornamenti localizzati, permette un apprendimento continuo efficiente riducendo il dimenticamento catastrofico e mantenendo prestazioni competitive anche in scenari senza identificatore di task.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Il paper propone HarmonicEval, una metrica di valutazione automatica senza riferimento che aggrega i punteggi per criterio in modo bottom-up, e introduce il benchmark MMHE con 18.000 giudizi umani per dimostrare che il metodo supera le metriche convenzionali nella valutazione multi-task e multi-criterio dei modelli visione-linguaggio.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Questo studio esamina l'impatto del collasso degli embedding nel Prompt-Tuning, dimostrando che l'uso di priors di embedding permette un controllo efficace sulle posizioni degli embedding e rivela che le traiettorie generate formano cluster distinti per compiti diversi, suggerendo che la generalizzazione dei modelli linguistici non dipende necessariamente da un unico cluster di attivazione.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG