MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Il paper presenta MUSE, una piattaforma open-source per la valutazione unificata della sicurezza multimodale dei grandi modelli linguistici che integra la generazione automatica di payload cross-modali, algoritmi di attacco multi-turno e un sistema di giudizio basato su LLM, rivelando come le strategie di attacco multi-turno e il cambio di modalità tra i turni possano compromettere significativamente le difese dei modelli anche quando questi mostrano un alto tasso di rifiuto negli input singoli.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Questo paper presenta due strategie di decoding basate sul prompting per la generazione in tempo reale di commenti video multimediali, dimostrando che un approccio dinamico basato sugli intervalli di pausa permette di allineare meglio i tempi e i contenuti delle descrizioni rispetto ai metodi a intervallo fisso, senza necessità di addestramento.

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Il paper introduce M3IRT, un framework basato sulla teoria della risposta all'elemento multidimensionale che decompone abilità e difficoltà in componenti visive, testuali e multimodali, permettendo di identificare e selezionare domande autenticamente cross-modali per valutare in modo più affidabile ed efficiente i modelli linguistici multimodali.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Il paper introduce KMP-Bench, un benchmark completo per valutare l'intelligenza pedagogica dei modelli linguistici nell'insegnamento della matematica K-8, evidenziando il divario tra le loro capacità di risoluzione e quelle didattiche, e presentando KMP-Pile, un dataset di dialogo su larga scala che, se utilizzato per il fine-tuning, migliora significativamente le prestazioni dei modelli in questo ambito.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Questo studio dimostra che, grazie all'uso di dataset su larga scala e a un'analisi gerarchica degli errori, i modelli multimodali di grandi dimensioni (MLLM) possono ottenere prestazioni nel recupero delle informazioni dai documenti paragonabili a quelle dei metodi tradizionali basati su OCR, rendendo quest'ultimo non strettamente necessario quando si utilizzano input puramente visivi combinati con istruzioni e schemi ben progettati.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL