C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Il paper introduce C2-Faith, un benchmark basato su PRM800K che valuta l'affidabilità dei giudici LLM nel misurare la fedeltà causale e la completezza del ragionamento a catena di pensiero, rivelando che le prestazioni dipendono fortemente dal compito specifico e che esistono significative lacune nella capacità di localizzare errori o valutare ragionamenti incompleti.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Escaping the Hydrolysis Trap: An Agentic Workflow for Inverse Design of Durable Photocatalytic Covalent Organic Frameworks

Il lavoro presenta "Ara", un agente basato su modelli linguistici che accelera la scoperta di fotocatalizzatori COF stabili e attivi per la produzione di idrogeno solare, superando significativamente i metodi di ricerca tradizionali grazie all'integrazione di conoscenze chimiche pre-addestrate e a una logica di ragionamento interpretabile.

Iman Peivaste, Nicolas D. Boscher, Ahmed Makradi + 1 more2026-03-06🔬 cond-mat.mtrl-sci

Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

Questo studio presenta IAENet, un innovativo framework di apprendimento multi-etichetta basato su Transformer che, integrando un dataset specifico (MuAE) e una nuova funzione di perdita, supera le limitazioni degli approcci esistenti nel prevedere tempestivamente eventi avversi intraoperatori multipli, migliorando significativamente la sicurezza del paziente.

Xueyao Wang, Xiuding Cai, Honglin Shang + 2 more2026-03-06🤖 cs.AI

Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts

Questo articolo presenta il "Whisperer", un innovativo framework di prompting visivo che utilizza un curriculum di apprendimento per imitazione comportamentale di miglioramenti stocastici trovati da un modello di diffusione, permettendo di ridurre significativamente l'errore di riconoscimento dei caratteri su immagini degradate adattando gli input pixel per pixel senza modificare i pesi dei modelli OCR pre-addestrati e congelati.

Samandar Samandarov, Nazirjon Ismoiljonov, Abdullah Sattorov + 1 more2026-03-06🤖 cs.AI