cs.CL articoli | Gist.Science

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Il paper introduce MuRating, un framework scalabile che trasferisce segnali di qualità dai dati inglesi per addestrare un valutatore multilingue, permettendo la selezione di subset di dati equilibrati che migliorano significativamente le prestazioni dei modelli linguistici su compiti sia in inglese che multilingue.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

Il paper presenta Eka-Eval, un framework open-source modulare e unificato che offre una valutazione end-to-end di modelli linguistici multilingue a risorse limitate, integrando oltre 55 benchmark e garantendo un'accessibilità superiore rispetto alle soluzioni esistenti.

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Questo lavoro introduce TreeBench, un benchmark diagnostico per valutare il ragionamento visivo fondato su prove tracciabili, e TreeVGR, un paradigma di addestramento basato sul reinforcement learning che migliora significativamente le capacità di localizzazione e ragionamento dei modelli visivi.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Il documento presenta Vevo2, un framework unificato e controllabile per la generazione di voce parlata e cantata che supera le limitazioni dei dati annotati e garantisce un controllo flessibile su prosodia, stile e timbro grazie a nuovi tokenizzatori audio e strategie di addestramento congiunto.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Questo studio dimostra che la quantizzazione dei modelli linguistici di grandi dimensioni ha un impatto complesso sui pregiudizi, riducendo la tossicità ma tendendo ad aumentare leggermente gli stereotipi e l'ingiustizia nelle attività generative, sottolineando la necessità di bilanciare efficienza ed etica.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Questo lavoro propone un modello di allineamento basato sul trasporto ottimale sbilanciato, che tratta l'associazione tra rappresentazioni acustiche e linguistiche come un problema di rilevamento per gestire asimmetrie strutturali e rumore, migliorando così il trasferimento di conoscenza nei sistemi ASR.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Il paper propone TSPC, un'architettura a due stadi incentrata sui fonemi che utilizza un set fonemico vietnamita esteso come rappresentazione intermedia per migliorare il riconoscimento del parlato code-switching vietnamita-inglese, ottenendo risultati superiori rispetto alle basi esistenti con una riduzione delle risorse computazionali necessarie.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

Lo studio dimostra che l'analisi longitudinale dei dati linguistici sui social media permette di rilevare cambiamenti comportamentali e sintomatologici associati al disturbo bipolare, inclusi fluttuazioni stagionali, offrendo un prezioso complemento alla ricerca psichiatrica tradizionale.

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

Il paper presenta Llama-Mimi, un modello di linguaggio per il parlato che semplifica l'architettura trasformando i token RVQ multilivello in una singola sequenza elaborata da un decoder Transformer, ottenendo prestazioni superiori rispetto ai modelli gerarchici esistenti, in particolare nella coerenza acustica.

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Lo studio rivela che i modelli linguistici alla base dei sistemi SpeechLLM mostrano fragilità strutturali nell'elaborazione del discorso conversazionale, tendendo a sovracancellare contenuti fluenti a favore dell'astrazione semantica e dimostrando che la robustezza è plasmata da specifici obiettivi di addestramento piuttosto che dalla semplice scalabilità o dal fine-tuning.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Il paper introduce BeyondBench, un framework di valutazione resistente alla contaminazione che utilizza la generazione algoritmica dinamica di problemi matematici per testare in modo affidabile le capacità di ragionamento di oltre 100 modelli linguistici, rivelando significative carenze nelle prestazioni su compiti complessi.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Questo studio introduce un metodo innovativo per l'addestramento stabile ed efficiente di grandi modelli linguistici in formato NVFP4, combinando trasformate di Hadamard casuali, quantizzazione bidimensionale e arrotondamento stocastico, che permette di addestrare un modello da 12 miliardi di parametri su 10 trilioni di token con prestazioni comparabili alla base FP8.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Il paper introduce PrefDisco, un nuovo metodo di valutazione e metrica (PrefAlign) che trasforma i benchmark statici in compiti interattivi per dimostrare come i modelli linguistici debbano sviluppare un ragionamento personalizzato proattivo, basato su domande strategiche per allinearsi alle preferenze individuali degli utenti in scenari senza dati storici, superando i limiti degli approcci attuali che trattano separatamente la risoluzione dei compiti e l'allineamento alle preferenze.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Il paper introduce Graph2Eval, un framework basato su grafi della conoscenza che genera automaticamente e in modo scalabile compiti multimodali affidabili per agenti AI, superando i limiti dei dataset statici e delle allucinazioni dei LLM attraverso un processo di campionamento e filtraggio strutturato.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

Il paper propone GMT, un nuovo paradigma che supera i limiti delle tecniche basate sui prefissi integrando la struttura dei grafi di conoscenza direttamente nella memoria degli LLM tramite un meccanismo di cross-attention profondo e token-specifico, ottenendo così prestazioni superiori nel completamento dei grafi di conoscenza.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Questo lavoro presenta AuthenHallu, il primo benchmark per il rilevamento delle allucinazioni nei modelli linguistici di grandi dimensioni (LLM) costruito interamente su interazioni umane autentiche, rivelando un tasso di allucinazioni significativo (31,4% in generale e fino al 60% in domini complessi) e dimostrando che l'uso di LLM standard come rilevatori è attualmente insufficiente per scenari reali.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Il paper dimostra che il fine-tuning su domini ristretti lascia tracce leggibili nelle differenze di attivazione dei modelli linguistici, permettendo di ricostruire il dominio di addestramento e rivelando che tale pratica, spesso usata come proxy per studi di sicurezza, può non riflettere realisticamente i modelli addestrati su dati più ampi.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Il paper introduce Grasp Any Region (GAR), un modello che supera i limiti delle precedenti MLLM regionali integrando il contesto globale e il replay delle caratteristiche per ottenere una comprensione visiva precisa, interattiva e capace di ragionamento compositivo su qualsiasi regione, come dimostrato dalle sue prestazioni superiori su benchmark specifici e sulla capacità di generalizzazione ai video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

Il paper presenta EchoMind, il primo benchmark multi-livello interconnesso che valuta la capacità dei modelli linguistici vocali di integrare contenuti linguistici e cue vocali per generare risposte empatiche, rivelando che gli attuali modelli avanzati faticano ancora a percepire e rispondere adeguatamente alle sfumature emotive della voce.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Il paper presenta l'Open Korean Historical Corpus, un vasto dataset di testi di dominio pubblico che copre 1.300 anni e 6 lingue, permettendo per la prima volta un'analisi quantitativa dell'evoluzione linguistica coreana e offrendo una risorsa fondamentale per il pre-addestramento di modelli linguistici.

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

← Precedente Successivo →