Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Este artigo apresenta o LA-CDM, um agente de linguagem baseado em aprendizado por reforço e supervisionado que simula o processo cíclico de tomada de decisão clínica ao gerar hipóteses, estimar incertezas e solicitar testes relevantes para melhorar o diagnóstico e a eficiência, demonstrando resultados superiores em um conjunto de dados real de doenças abdominais.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

O artigo apresenta o GenRecal, um framework de distilação geral para modelos visão-linguagem que utiliza um recalibrador para alinhar representações entre arquiteturas heterogêneas, permitindo a transferência eficaz de conhecimento de modelos grandes para pequenos e superando o desempenho de sistemas de grande escala em diversos benchmarks.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Este artigo propõe um framework teórico de decomposição de ruído para analisar os modos de falha em tarefas de contexto longo com LLMs, demonstrando que estratégias de divisão e agregação (chunking) podem superar modelos mais avançados em processamento único ao gerenciar eficazmente a dependência entre partes, a confusão do modelo e a integração de resultados.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Este trabalho apresenta o TTSDS2, uma métrica aprimorada que supera todas as outras 15 comparadas ao correlacionar-se consistentemente com avaliações subjetivas em diversos domínios e idiomas, além de disponibilizar recursos abrangentes, incluindo um conjunto de dados com mais de 11.000 avaliações, um pipeline para evitar vazamento de dados e um benchmark atualizado para 14 idiomas.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

O artigo apresenta o DAPFAM, um novo conjunto de dados de nível familiar para patentes com divisões explícitas de domínio que revela uma lacuna significativa de desempenho na recuperação de arte anterior entre domínios diferentes, servindo como um teste reprodutível para o desenvolvimento de sistemas de recuperação de patentes mais robustos.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

O artigo apresenta o FrugalRAG, um framework de dois estágios que utiliza aprendizado por reforço para treinar modelos de linguagem pequenos na adaptação dinâmica do número de etapas de recuperação com base na dificuldade da pergunta, alcançando um equilíbrio superior entre precisão e eficiência em tarefas de resposta a perguntas de múltiplas etapas com poucos dados de treinamento.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Este artigo propõe o SASFT, um método de ajuste fino supervisionado guiado por autoencoders esparsos que mitiga a alternância de código inesperada em Grandes Modelos de Linguagem ao regular os valores de pré-ativação das características linguísticas, reduzindo esse problema em mais de 50% sem comprometer o desempenho multilíngue.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

O artigo apresenta o SpiroLLM, o primeiro modelo de linguagem multimodal capaz de interpretar séries temporais de espirogramas para gerar relatórios diagnósticos explicáveis e clinicamente validados para a DPOC, superando as limitações de modelos anteriores ao alcançar alta precisão e robustez mesmo com dados incompletos.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

O estudo demonstra que a esparsidade ideal em modelos de linguagem do tipo Mixture-of-Experts para tarefas de raciocínio depende de um equilíbrio entre FLOPs ativos e tokens totais por parâmetro, revelando que o aumento do cálculo ativo melhora o raciocínio enquanto a memorização beneficia-se de mais parâmetros, independentemente de técnicas de pós-treinamento ou computação em tempo de teste.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL