Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Il documento presenta il framework CFD (Confidence-Aware Fine-Grained Debate), che utilizza il dibattito collaborativo tra modelli linguistici open-source per arricchire automaticamente i dati su salute mentale e sicurezza online, ottenendo risultati superiori rispetto alle linee di base grazie all'integrazione delle trascrizioni del dibattito.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Questo lavoro introduce un metodo di steering delle attivazioni per i modelli linguistici a diffusione mascherata (MDLM) che, estraendo una direzione unidimensionale da prompt contrastivi, permette un controllo efficiente e generalizzabile del comportamento del modello (come il rifiuto di risposte non sicure) intervenendo globalmente sulle attivazioni durante il processo di denoising, superando i limiti delle tecniche basate su prompt o ottimizzazione e rivelando differenze architetturali rispetto ai modelli autoregressivi.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Il paper introduce CFE-Bench, un benchmark multimodale basato su esami universitari reali che valuta le capacità di ragionamento dei modelli linguistici in oltre 20 ambiti STEM, rivelando che, nonostante le buone prestazioni complessive, i modelli avanzati faticano a mantenere stati intermedi corretti durante soluzioni complesse e mostrano un'efficienza di passaggio inferiore rispetto alle soluzioni degli istruttori.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Il paper propone RuCL, un nuovo framework di apprendimento curricolare basato su rubriche stratificate che migliora il ragionamento dei modelli linguistici multimodali ottimizzando la progettazione delle ricompense per guidare dinamicamente il modello dalla percezione di base al ragionamento logico avanzato, ottenendo risultati all'avanguardia sui benchmark di ragionamento visivo.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Questo lavoro introduce uCDCR, un dataset unificato che consolida e analizza corpora eterogenei per la risoluzione della coreferenza cross-documento, fornendo un framework standardizzato che evidenzia la necessità di considerare sia le entità che gli eventi per migliorare la generalizzabilità e la complessità dei modelli.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Il paper presenta ClinConsensus, un benchmark cinese basato sul consenso di esperti clinici composto da 2500 casi a risposta aperta che valutano le capacità dei modelli linguistici su compiti medici complessi e longitudinali, introducendo nuove metriche di valutazione e rivelando significative lacune nelle attuali capacità di pianificazione terapeutica.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL