TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Este trabalho apresenta o TTSDS2, uma métrica aprimorada que supera todas as outras 15 comparadas ao correlacionar-se consistentemente com avaliações subjetivas em diversos domínios e idiomas, além de disponibilizar recursos abrangentes, incluindo um conjunto de dados com mais de 11.000 avaliações, um pipeline para evitar vazamento de dados e um benchmark atualizado para 14 idiomas.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

O artigo apresenta o DAPFAM, um novo conjunto de dados de nível familiar para patentes com divisões explícitas de domínio que revela uma lacuna significativa de desempenho na recuperação de arte anterior entre domínios diferentes, servindo como um teste reprodutível para o desenvolvimento de sistemas de recuperação de patentes mais robustos.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

O artigo apresenta o FrugalRAG, um framework de dois estágios que utiliza aprendizado por reforço para treinar modelos de linguagem pequenos na adaptação dinâmica do número de etapas de recuperação com base na dificuldade da pergunta, alcançando um equilíbrio superior entre precisão e eficiência em tarefas de resposta a perguntas de múltiplas etapas com poucos dados de treinamento.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Este artigo propõe o SASFT, um método de ajuste fino supervisionado guiado por autoencoders esparsos que mitiga a alternância de código inesperada em Grandes Modelos de Linguagem ao regular os valores de pré-ativação das características linguísticas, reduzindo esse problema em mais de 50% sem comprometer o desempenho multilíngue.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

O artigo apresenta o SpiroLLM, o primeiro modelo de linguagem multimodal capaz de interpretar séries temporais de espirogramas para gerar relatórios diagnósticos explicáveis e clinicamente validados para a DPOC, superando as limitações de modelos anteriores ao alcançar alta precisão e robustez mesmo com dados incompletos.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

O estudo demonstra que a esparsidade ideal em modelos de linguagem do tipo Mixture-of-Experts para tarefas de raciocínio depende de um equilíbrio entre FLOPs ativos e tokens totais por parâmetro, revelando que o aumento do cálculo ativo melhora o raciocínio enquanto a memorização beneficia-se de mais parâmetros, independentemente de técnicas de pós-treinamento ou computação em tempo de teste.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

O artigo apresenta o SVDecode, um método leve e teoricamente fundamentado que melhora a adaptação de tarefas em grandes modelos de linguagem alinhando suas distribuições de saída durante a decodificação por meio de um vetor de direção extraído de um ajuste fino inicial, alcançando ganhos de desempenho significativos sem adicionar parâmetros treináveis além dos adaptadores PEFT existentes.

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

Este estudo de grande escala avalia sistematicamente a interação entre modelos de linguagem grandes (LLMs) e dados gráficos, revelando que a geração de código supera outras abordagens em desempenho e adaptabilidade, especialmente em grafos heterofílicos e com textos longos, oferecendo diretrizes práticas para o desenvolvimento futuro de métodos de inferência gráfica.

Ben Finkelshtein, Silviu Cucerzan, Sujay Kumar Jauhar + 1 more2026-03-03💬 cs.CL