ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Il paper presenta ClinConsensus, un benchmark cinese basato sul consenso di esperti clinici composto da 2500 casi a risposta aperta che valutano le capacità dei modelli linguistici su compiti medici complessi e longitudinali, introducendo nuove metriche di valutazione e rivelando significative lacune nelle attuali capacità di pianificazione terapeutica.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Il paper presenta un modello surrogato innovativo che preserva simultaneamente le distribuzioni di frequenza (legge di Zipf) e le correlazioni a lungo raggio delle sequenze simboliche, come testi e DNA, mappando il rumore gaussiano frazionario sull'istogramma empirico per generare dati che mantengono le statistiche del primo ordine e la struttura di scala senza le dipendenze a breve termine originali.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Il documento dimostra che l'addestramento end-to-end dell'attenzione sparsa fallisce nel migliorare le prestazioni rispetto a gate casuali a causa del fenomeno di "assorbimento del routing", dove le proiezioni Q/K/V si adattano al mascheramento imposto, rendendo inefficaci i gate appresi e suggerendo che gli approcci post-hoc sono necessari per decoupling l'apprendimento delle rappresentazioni dalla sparsificazione.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Questo lavoro presenta un quadro teorico ed empirico che caratterizza la memorizzazione nei modelli linguistici a diffusione, dimostrando che un aumento della risoluzione del campionamento incrementa l'estrazione dei dati di addestramento e che tali modelli, rispetto a quelli autoregressivi, presentano una minore fuoriuscita di informazioni personali identificabili.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Questo studio propone un modello a grafo diretto e un framework sperimentale basato su testi sintetici generati da LLM per valutare la comprensione delle visualizzazioni temporali di testi, rivelando che gli utenti faticano a interpretare i modelli predefiniti e suggerendo la necessità di approcci di visualizzazione più adattivi alle esigenze individuali.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Il paper presenta MUSE, una piattaforma open-source per la valutazione unificata della sicurezza multimodale dei grandi modelli linguistici che integra la generazione automatica di payload cross-modali, algoritmi di attacco multi-turno e un sistema di giudizio basato su LLM, rivelando come le strategie di attacco multi-turno e il cambio di modalità tra i turni possano compromettere significativamente le difese dei modelli anche quando questi mostrano un alto tasso di rifiuto negli input singoli.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess