C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Dit paper introduceert C2-Faith, een benchmark op basis van PRM800K die de betrouwbaarheid van LLM-jurissen meet bij het beoordelen van oorzakelijke samenhang en volledigheid in chain-of-thought-redeneringen, en laat zien dat de prestaties sterk afhangen van de taakstelling en dat er aanzienlijke beperkingen zijn in het lokaliseren van fouten en het correct beoordelen van onvolledige redeneringen.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

Deze paper introduceert een Transformer-gebaseerd raamwerk dat de semantische geometrie van Signal Temporal Logic (STL) distilleert in een continue neurale ruimte, waardoor efficiënte, schaalbare en omkeerbare neurale representaties ontstaan die de logische structuur van formele specificaties behouden zonder de hoge rekenkosten van traditionele symbolische methoden.

Sara Candussio, Gabriele Sarti, Gaia Saveri + 1 more2026-03-06💬 cs.CL

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Dit paper introduceert een door mensen geannoteerd meertalig corpus met originele en vereenvoudigde teksten in het Spaans, Catalaans en Italiaans om de toegang tot democratische participatieprocessen te ondersteunen en de ontwikkeling van automatische tekstvereenvoudiging voor minder bedreigde talen te bevorderen.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL