C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Este artigo apresenta o C2-Faith, um benchmark derivado do PRM800K para avaliar a fidelidade causal e de cobertura de modelos de linguagem atuando como juízes de raciocínio passo a passo, revelando que a confiabilidade desses modelos varia significativamente conforme a tarefa e que eles frequentemente falham em localizar erros ou identificar lacunas no raciocínio.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

Este documento estabelece diretrizes sistemáticas para a anotação e visualização da estrutura de argumentação jurídica em decisões judiciais chinesas, definindo tipos de proposições, relações argumentativas e fluxos de trabalho padronizados para viabilizar a análise computacional e o modelamento de raciocínio legal.

Kun Chen, Xianglei Liao, Kaixue Fei + 2 more2026-03-06🤖 cs.AI

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

O artigo apresenta o WavSLM, um modelo de linguagem de fala de fluxo único que, ao quantizar e destilar representações do WavLM em um único código e otimizar a previsão autoregressiva de próximos blocos, consegue modelar conjuntamente informações semânticas e acústicas sem supervisão textual, alcançando desempenho competitivo com menos parâmetros e dados.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

O artigo apresenta o Med-V1, uma família de modelos de linguagem pequenos e eficientes que, apesar de terem apenas três bilhões de parâmetros, superam seus modelos base e competem com modelos de ponta como o GPT-5 na atribuição de evidências biomédicas e na detecção de alucinações, oferecendo uma alternativa escalável e de baixo custo para aplicações práticas.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Este artigo apresenta o PersianPunc, um grande conjunto de dados de 17 milhões de amostras para restauração de pontuação em persa, e demonstra que uma abordagem baseada no modelo ParsBERT supera modelos de linguagem grandes em precisão e eficiência, evitando edições indesejadas em pipelines de reconhecimento de fala.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Este artigo apresenta um corpus multilingue de textos originais e suas versões simplificadas para "Leitura Fácil", anotados por especialistas humanos em espanhol, catalão e italiano, criado para apoiar o acesso a processos democráticos participativos e preencher a lacuna de recursos de alta qualidade para essas línguas.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL