C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Il paper introduce C2-Faith, un benchmark basato su PRM800K che valuta l'affidabilità dei giudici LLM nel misurare la fedeltà causale e la completezza del ragionamento a catena di pensiero, rivelando che le prestazioni dipendono fortemente dal compito specifico e che esistono significative lacune nella capacità di localizzare errori o valutare ragionamenti incompleti.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Escaping the Hydrolysis Trap: An Agentic Workflow for Inverse Design of Durable Photocatalytic Covalent Organic Frameworks

Il lavoro presenta "Ara", un agente basato su modelli linguistici che accelera la scoperta di fotocatalizzatori COF stabili e attivi per la produzione di idrogeno solare, superando significativamente i metodi di ricerca tradizionali grazie all'integrazione di conoscenze chimiche pre-addestrate e a una logica di ragionamento interpretabile.

Iman Peivaste, Nicolas D. Boscher, Ahmed Makradi + 1 more2026-03-06🔬 cond-mat.mtrl-sci

Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

Questo studio presenta IAENet, un innovativo framework di apprendimento multi-etichetta basato su Transformer che, integrando un dataset specifico (MuAE) e una nuova funzione di perdita, supera le limitazioni degli approcci esistenti nel prevedere tempestivamente eventi avversi intraoperatori multipli, migliorando significativamente la sicurezza del paziente.

Xueyao Wang, Xiuding Cai, Honglin Shang + 2 more2026-03-06🤖 cs.AI