WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

O artigo apresenta o WavSLM, um modelo de linguagem de fala de fluxo único que, ao quantizar e destilar representações do WavLM em um único código e otimizar a previsão autoregressiva de próximos blocos, consegue modelar conjuntamente informações semânticas e acústicas sem supervisão textual, alcançando desempenho competitivo com menos parâmetros e dados.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

O artigo apresenta o Med-V1, uma família de modelos de linguagem pequenos e eficientes que, apesar de terem apenas três bilhões de parâmetros, superam seus modelos base e competem com modelos de ponta como o GPT-5 na atribuição de evidências biomédicas e na detecção de alucinações, oferecendo uma alternativa escalável e de baixo custo para aplicações práticas.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Este artigo apresenta o PersianPunc, um grande conjunto de dados de 17 milhões de amostras para restauração de pontuação em persa, e demonstra que uma abordagem baseada no modelo ParsBERT supera modelos de linguagem grandes em precisão e eficiência, evitando edições indesejadas em pipelines de reconhecimento de fala.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Este artigo apresenta um corpus multilingue de textos originais e suas versões simplificadas para "Leitura Fácil", anotados por especialistas humanos em espanhol, catalão e italiano, criado para apoiar o acesso a processos democráticos participativos e preencher a lacuna de recursos de alta qualidade para essas línguas.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Este estudo demonstra que modelos de linguagem de baixo parâmetro (<4B), quando fine-tunados com estratégias de raciocínio centrado em *Chain-of-Thought* e análise de palavras vizinhas, alcançam desempenho comparável ao de modelos de grande porte como o GPT-4-Turbo na tarefa de Desambiguação de Sentido de Palavras, oferecendo uma solução escalável e energeticamente eficiente.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Este artigo apresenta o quebra-cabeça de informação parcial distribuída (DPIP) e um conjunto de dados multimodais correspondente para avaliar a construção de terreno comum sob assimetria epistêmica, demonstrando que os modelos de linguagem atuais têm dificuldades em rastrear tanto o progresso da tarefa quanto os estados de crença em comparação com abordagens baseadas em lógica epistêmica dinâmica.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

O artigo apresenta o FlashAttention-4, uma nova abordagem de co-design de algoritmos e kernel que otimiza a atenção para GPUs Blackwell (como B200 e GB200), superando gargalos de hardware assimétrico através de pipelines assíncronos e técnicas de redução de operações não matriciais, alcançando até 1,3x de velocidade em relação ao cuDNN e implementado inteiramente em CuTe-DSL para compilação significativamente mais rápida.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Este artigo apresenta o NCTB-QA, um grande conjunto de dados e benchmark em bengali para perguntas e respostas educacionais que inclui uma distribuição equilibrada de questões respondíveis e não respondíveis, demonstrando que o ajuste fino de modelos baseados em transformadores melhora significativamente o desempenho em cenários de baixo recurso.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

O artigo apresenta evidências de "teatro de raciocínio" em modelos de IA, onde a confiança na resposta final é decodificável muito antes do modelo revelar sua crença interna, demonstrando que sondas de ativação podem identificar genuína incerteza e permitir uma saída antecipada que reduz significativamente o uso de tokens sem comprometer a precisão.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Este artigo demonstra que as ativações massivas e os sumidouros de atenção, embora frequentemente co-ocorram devido a artefatos arquitetônicos como a configuração pré-norm, desempenham funções distintas e separáveis nos modelos Transformer: as primeiras atuam globalmente como parâmetros implícitos, enquanto os segundos operam localmente para modular a atenção.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI