cs.CL articoli | Gist.Science

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Il paper presenta MUSE, una piattaforma open-source per la valutazione unificata della sicurezza multimodale dei grandi modelli linguistici che integra la generazione automatica di payload cross-modali, algoritmi di attacco multi-turno e un sistema di giudizio basato su LLM, rivelando come le strategie di attacco multi-turno e il cambio di modalità tra i turni possano compromettere significativamente le difese dei modelli anche quando questi mostrano un alto tasso di rifiuto negli input singoli.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

Il paper introduce CoDAR, un framework a due stadi che risolve il collo di bottiglia della quantizzazione nei modelli di linguaggio a diffusione continua mantenendo la generazione nello spazio degli embedding e utilizzando un decoder autoregressivo per la discretizzazione contestuale, ottenendo così prestazioni competitive con i modelli discreti.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Il paper presenta VC-STaR, un nuovo framework di auto-miglioramento che sfrutta coppie di domande visive contrastive per mitigare le allucinazioni nei modelli visione-linguaggio, generando il dataset VisCoR-55K che potenzia significativamente le capacità di ragionamento visivo rispetto agli approcci esistenti.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

FlashEvaluator è un nuovo framework che supera i limiti dei metodi Generator-Evaluator tradizionali consentendo la condivisione delle informazioni tra sequenze e l'elaborazione parallela in un singolo passaggio, migliorando così sia l'accuratezza della selezione che l'efficienza computazionale, con risultati già validati in produzione su Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Il paper introduce SteerEval, un benchmark gerarchico che valuta la controllabilità dei modelli linguistici su tre domini e tre livelli di granularità, rivelando come il controllo tenda a degradare a livelli più fini e fornendo un quadro interpretabile per comportamenti LLM più sicuri.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

Il paper presenta ExpGuard, un modello di moderazione specializzato e il dataset ExpGuardMix, che superano le soluzioni attuali nel rilevare contenuti dannosi in ambiti tecnici come finanza, medicina e legge, garantendo una maggiore sicurezza per le applicazioni LLM in questi settori.

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

Il paper presenta GPUTOK, un tokenizzatore BPE a livello di byte accelerato da GPU che, mantenendo la qualità dei risultati, supera le prestazioni delle soluzioni CPU esistenti (come tiktoken e HuggingFace) fino a 7,6 volte su sequenze lunghe, rendendo più pratica l'inferenza con contesti estesi.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

Questo studio dimostra che, sebbene l'approccio "Recursive Language Models" con profondità di ricorsione 1 migliori le prestazioni su compiti complessi, l'aumento della profondità a 2 porta a un "sovrapensiero" che degrada le prestazioni su compiti semplici e aumenta esponenzialmente tempi di esecuzione e costi.

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

Il paper presenta StitchCUDA, un framework multi-agente automatizzato che utilizza l'apprendimento per rinforzo basato su rubriche per generare programmi GPU end-to-end ottimizzati, raggiungendo un successo quasi totale e prestazioni superiori rispetto alle soluzioni esistenti.

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Il documento propone la "Credibility Governance", un meccanismo sociale che realloca l'influenza online basandosi sulla coerenza storica degli agenti con le evidenze pubbliche, dimostrando attraverso simulazioni di superare i sistemi tradizionali di voto o stake nel correggere collettivamente errori e resistere alla disinformazione.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Questo paper presenta due strategie di decoding basate sul prompting per la generazione in tempo reale di commenti video multimediali, dimostrando che un approccio dinamico basato sugli intervalli di pausa permette di allineare meglio i tempi e i contenuti delle descrizioni rispetto ai metodi a intervallo fisso, senza necessità di addestramento.

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Il paper introduce M3IRT, un framework basato sulla teoria della risposta all'elemento multidimensionale che decompone abilità e difficoltà in componenti visive, testuali e multimodali, permettendo di identificare e selezionare domande autenticamente cross-modali per valutare in modo più affidabile ed efficiente i modelli linguistici multimodali.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Il paper presenta un metodo innovativo che riduce i bias di contenuto nel ragionamento dei modelli linguistici multilingue trasformando i sillogismi in rappresentazioni logiche canoniche e applicando un parsing deterministico, ottenendo risultati di primo piano nella sfida SemEval-2026 Task 11.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Il paper presenta HateMirage, un nuovo dataset spiegabile e multidimensionale di commenti "Faux Hate" derivati da disinformazione, progettato per superare i limiti delle ricerche esistenti sull'odio online sottile attraverso un'annotazione dettagliata di bersaglio, intento e implicazione sociale.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Il paper presenta Graph-GRPO, un nuovo framework che stabilizza l'apprendimento della topologia di comunicazione nei sistemi multi-agente basati su LLM applicando l'ottimizzazione della politica relativa di gruppo per ridurre la varianza del gradiente e migliorare l'assegnazione del credito rispetto ai metodi tradizionali.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

Il paper propone \textsc{ASEGR}, un framework innovativo che migliora la raccomandazione sequenziale integrando attributi sensoriali strutturati, estratti e distillati dai testi delle recensioni tramite un modello linguistico, per arricchire le rappresentazioni degli articoli con significati esperienziali interpretabili.

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Il paper propone DiSE, un metodo efficiente di autovalutazione per i modelli linguistici a diffusione che quantifica la fiducia rigenerando l'intera sequenza, permettendo una stima affidabile della qualità e un controllo adattivo della lunghezza della generazione.

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Il paper introduce KMP-Bench, un benchmark completo per valutare l'intelligenza pedagogica dei modelli linguistici nell'insegnamento della matematica K-8, evidenziando il divario tra le loro capacità di risoluzione e quelle didattiche, e presentando KMP-Pile, un dataset di dialogo su larga scala che, se utilizzato per il fine-tuning, migliora significativamente le prestazioni dei modelli in questo ambito.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Questo studio dimostra che, grazie all'uso di dataset su larga scala e a un'analisi gerarchica degli errori, i modelli multimodali di grandi dimensioni (MLLM) possono ottenere prestazioni nel recupero delle informazioni dai documenti paragonabili a quelle dei metodi tradizionali basati su OCR, rendendo quest'ultimo non strettamente necessario quando si utilizzano input puramente visivi combinati con istruzioni e schemi ben progettati.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Il paper presenta GLEAN, un framework di verifica per agenti LLM ad alto rischio che, integrando linee guida cliniche esperte e accumulo di evidenze con calibrazione bayesiana, supera significativamente i metodi esistenti nella diagnosi medica migliorando sia la discriminazione che l'affidabilità delle previsioni.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

← Precedente Successivo →