C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Il paper introduce C2-Faith, un benchmark basato su PRM800K che valuta l'affidabilità dei giudici LLM nel misurare la fedeltà causale e la completezza del ragionamento a catena di pensiero, rivelando che le prestazioni dipendono fortemente dal compito specifico e che esistono significative lacune nella capacità di localizzare errori o valutare ragionamenti incompleti.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

Il paper presenta un approccio basato sull'allineamento dei kernel che utilizza un framework di distillazione teacher-student per mappare la semantica della Logica Temporale sui Segnali (STL) in spazi vettoriali neurali continui e invertibili, superando i limiti computazionali dei metodi simbolici esistenti e permettendo un ragionamento neuro-simbolico scalabile ed efficiente.

Sara Candussio, Gabriele Sarti, Gaia Saveri + 1 more2026-03-06💬 cs.CL

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Il paper presenta WavSLM, un modello linguistico per il parlato che, tramite la distillazione di rappresentazioni WavLM in un unico codice e l'ottimizzazione di un obiettivo di previsione autoregressiva, riesce a modellare congiuntamente informazioni semantiche e acustiche in un singolo flusso di token senza supervisione testuale, ottenendo prestazioni competitive con minori parametri e dati di addestramento.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Il paper presenta Med-V1, una famiglia di modelli linguistici di piccole dimensioni addestrata su dati sintetici di alta qualità che, pur essendo efficiente ed economica, supera le prestazioni dei modelli di base e compete con i modelli LLM all'avanguardia nel compito di attribuzione e verifica delle evidenze biomediche, offrendo applicazioni pratiche per il rilevamento di allucinazioni e la verifica di linee guida cliniche.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI