cs.CL articoli | Gist.Science

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Il paper presenta ClinConsensus, un benchmark cinese basato sul consenso di esperti clinici composto da 2500 casi a risposta aperta che valutano le capacità dei modelli linguistici su compiti medici complessi e longitudinali, introducendo nuove metriche di valutazione e rivelando significative lacune nelle attuali capacità di pianificazione terapeutica.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

Recursive Think-Answer Process for LLMs and VLMs

Il paper propone R-TAP, un processo ricorsivo di pensiero e risposta che, sfruttando un generatore di fiducia e ricompense specifiche, permette a LLM e VLM di superare i limiti dell'inferenza singola, riducendo gli errori e le espressioni di auto-riflessione come "Oops!" per ottenere ragionamenti più stabili, veloci e accurati.

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Il paper presenta un modello surrogato innovativo che preserva simultaneamente le distribuzioni di frequenza (legge di Zipf) e le correlazioni a lungo raggio delle sequenze simboliche, come testi e DNA, mappando il rumore gaussiano frazionario sull'istogramma empirico per generare dati che mantengono le statistiche del primo ordine e la struttura di scala senza le dipendenze a breve termine originali.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Questo articolo dimostra che l'evoluzione sostenibile dei modelli linguistici richiede un pipeline auto-sintetico che garantisca un guadagno di informazione apprendibile, raggiungibile attraverso ruoli triadici asimmetrici, crescita della capacità e ricerca proattiva di informazioni per superare i limiti del semplice self-play.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Il documento dimostra che l'addestramento end-to-end dell'attenzione sparsa fallisce nel migliorare le prestazioni rispetto a gate casuali a causa del fenomeno di "assorbimento del routing", dove le proiezioni Q/K/V si adattano al mascheramento imposto, rendendo inefficaci i gate appresi e suggerendo che gli approcci post-hoc sono necessari per decoupling l'apprendimento delle rappresentazioni dalla sparsificazione.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Safety Training Persists Through Helpfulness Optimization in LLM Agents

Lo studio dimostra che, negli agenti LLM multi-step, l'addestramento alla sicurezza persiste anche dopo un successivo addestramento all'essere utili, e che tutte le configurazioni di ottimizzazione convergono verso una frontiera di Pareto lineare senza riuscire a trovare una strategia che massimizzi simultaneamente entrambi gli obiettivi.

Benjamin Plaut2026-03-04💬 cs.CL

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

Il paper presenta HELIOS, un approccio innovativo che armonizza l'early fusion, la late fusion e il ragionamento tramite LLM per migliorare la ricerca multi-granulare di tabelle e testi, superando i limiti delle metodologie esistenti e ottenendo risultati significativamente superiori sul benchmark OTT-QA.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

Lo studio dimostra che il modello di traduzione neurale NLLB-200 apprende implicitamente sia la struttura genealogica delle lingue sia associazioni concettuali universali, rivelando una geometria di rappresentazione che supporta l'esistenza di un archivio concettuale neutrale rispetto alla lingua.

Kyle Elliott Mathewson2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Questo lavoro presenta un quadro teorico ed empirico che caratterizza la memorizzazione nei modelli linguistici a diffusione, dimostrando che un aumento della risoluzione del campionamento incrementa l'estrazione dei dati di addestramento e che tali modelli, rispetto a quelli autoregressivi, presentano una minore fuoriuscita di informazioni personali identificabili.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Il paper introduce RO-N3WS, un benchmark diversificato di dati vocali rumeni che, attraverso l'addestramento su registri stilistici differenti, migliora significativamente la generalizzazione e le prestazioni dei sistemi ASR in condizioni a risorse limitate.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Questo studio propone un modello a grafo diretto e un framework sperimentale basato su testi sintetici generati da LLM per valutare la comprensione delle visualizzazioni temporali di testi, rivelando che gli utenti faticano a interpretare i modelli predefiniti e suggerendo la necessità di approcci di visualizzazione più adattivi alle esigenze individuali.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

Il paper presenta GLoRIA, un framework efficiente e interpretabile per il riconoscimento vocale dei dialetti che utilizza metadati geografici per modulare aggiornamenti a basso rango, ottenendo prestazioni all'avanguardia con una frazione minima dei parametri rispetto ai metodi esistenti.

Pouya Mehralian, Melissa Farasyn, Anne Breitbarth + 2 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Il paper presenta MUSE, una piattaforma open-source per la valutazione unificata della sicurezza multimodale dei grandi modelli linguistici che integra la generazione automatica di payload cross-modali, algoritmi di attacco multi-turno e un sistema di giudizio basato su LLM, rivelando come le strategie di attacco multi-turno e il cambio di modalità tra i turni possano compromettere significativamente le difese dei modelli anche quando questi mostrano un alto tasso di rifiuto negli input singoli.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

Il paper introduce CoDAR, un framework a due stadi che risolve il collo di bottiglia della quantizzazione nei modelli di linguaggio a diffusione continua mantenendo la generazione nello spazio degli embedding e utilizzando un decoder autoregressivo per la discretizzazione contestuale, ottenendo così prestazioni competitive con i modelli discreti.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Il paper presenta VC-STaR, un nuovo framework di auto-miglioramento che sfrutta coppie di domande visive contrastive per mitigare le allucinazioni nei modelli visione-linguaggio, generando il dataset VisCoR-55K che potenzia significativamente le capacità di ragionamento visivo rispetto agli approcci esistenti.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

FlashEvaluator è un nuovo framework che supera i limiti dei metodi Generator-Evaluator tradizionali consentendo la condivisione delle informazioni tra sequenze e l'elaborazione parallela in un singolo passaggio, migliorando così sia l'accuratezza della selezione che l'efficienza computazionale, con risultati già validati in produzione su Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Il paper introduce SteerEval, un benchmark gerarchico che valuta la controllabilità dei modelli linguistici su tre domini e tre livelli di granularità, rivelando come il controllo tenda a degradare a livelli più fini e fornendo un quadro interpretabile per comportamenti LLM più sicuri.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

Il paper presenta ExpGuard, un modello di moderazione specializzato e il dataset ExpGuardMix, che superano le soluzioni attuali nel rilevare contenuti dannosi in ambiti tecnici come finanza, medicina e legge, garantendo una maggiore sicurezza per le applicazioni LLM in questi settori.

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

Il paper presenta GPUTOK, un tokenizzatore BPE a livello di byte accelerato da GPU che, mantenendo la qualità dei risultati, supera le prestazioni delle soluzioni CPU esistenti (come tiktoken e HuggingFace) fino a 7,6 volte su sequenze lunghe, rendendo più pratica l'inferenza con contesti estesi.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

Questo studio dimostra che, sebbene l'approccio "Recursive Language Models" con profondità di ricorsione 1 migliori le prestazioni su compiti complessi, l'aumento della profondità a 2 porta a un "sovrapensiero" che degrada le prestazioni su compiti semplici e aumenta esponenzialmente tempi di esecuzione e costi.

Daren Wang2026-03-04💬 cs.CL

← Precedente Successivo →