cs.CL artigos | Gist.Science

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Este artigo apresenta o LA-CDM, um agente de linguagem baseado em aprendizado por reforço e supervisionado que simula o processo cíclico de tomada de decisão clínica ao gerar hipóteses, estimar incertezas e solicitar testes relevantes para melhorar o diagnóstico e a eficiência, demonstrando resultados superiores em um conjunto de dados real de doenças abdominais.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

O artigo apresenta o AgentSynth, um pipeline escalável e de baixo custo que gera automaticamente mais de 6.000 tarefas realistas e de alta qualidade para agentes de uso geral de computadores, permitindo modular a complexidade das tarefas e superando a eficiência da anotação humana.

Jingxu Xie, Dylan Xu, Xuandong Zhao + 1 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

O artigo apresenta o GenRecal, um framework de distilação geral para modelos visão-linguagem que utiliza um recalibrador para alinhar representações entre arquiteturas heterogêneas, permitindo a transferência eficaz de conhecimento de modelos grandes para pequenos e superando o desempenho de sistemas de grande escala em diversos benchmarks.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

OJBench: A Competition Level Code Benchmark For Large Language Models

O artigo apresenta o OJBench, um novo benchmark desafiador composto por 232 problemas de competições de programação (NOI e ICPC) para avaliar a capacidade de raciocínio em código de nível competitivo de modelos de linguagem, revelando que mesmo os modelos mais avançados atuais enfrentam dificuldades significativas nesses cenários.

Zhexu Wang, Yiping Liu, Yejie Wang + 9 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Este artigo propõe um framework teórico de decomposição de ruído para analisar os modos de falha em tarefas de contexto longo com LLMs, demonstrando que estratégias de divisão e agregação (chunking) podem superar modelos mais avançados em processamento único ao gerenciar eficazmente a dependência entre partes, a confusão do modelo e a integração de resultados.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

O artigo apresenta o LongWriter-Zero, um modelo de linguagem treinado exclusivamente por meio de aprendizado por reforço a partir de um modelo base, que supera métodos tradicionais de ajuste fino supervisionado e modelos maiores na geração de textos ultra-longos de alta qualidade, eliminando a necessidade de dados sintéticos ou anotados.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Este trabalho apresenta o TTSDS2, uma métrica aprimorada que supera todas as outras 15 comparadas ao correlacionar-se consistentemente com avaliações subjetivas em diversos domínios e idiomas, além de disponibilizar recursos abrangentes, incluindo um conjunto de dados com mais de 11.000 avaliações, um pipeline para evitar vazamento de dados e um benchmark atualizado para 14 idiomas.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

O estudo conclui que, embora o Pós-Treinamento com Reforço (RPT) traga ganhos substanciais em tarefas semelhantes aos dados de ajuste fino, essas melhorias generalizam-se de forma inconsistente e podem desaparecer em domínios com padrões de raciocínio diferentes.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

Cognitive models can reveal interpretable value trade-offs in language models

Este artigo demonstra que modelos cognitivos podem ser utilizados para revelar e analisar sistematicamente as compensações de valores em modelos de linguagem, permitindo diagnosticar comportamentos sociais e compreender como fatores como o esforço de raciocínio, prompts e o treinamento pós-inicial influenciam a alinhamento desses sistemas.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

O artigo apresenta o DAPFAM, um novo conjunto de dados de nível familiar para patentes com divisões explícitas de domínio que revela uma lacuna significativa de desempenho na recuperação de arte anterior entre domínios diferentes, servindo como um teste reprodutível para o desenvolvimento de sistemas de recuperação de patentes mais robustos.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

XISM: an eXploratory and Interactive Graph Tool to Visualize and Evaluate Semantic Map Models

O artigo apresenta o XISM, uma ferramenta interativa que combina inferência orientada por dados e conhecimento especializado para gerar e refinar mapas semânticos, oferecendo uma abordagem colaborativa que equilibra escalabilidade e interpretabilidade na linguística tipológica.

Zhu Liu, Zhen Hu, Lei Dai + 2 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

O artigo apresenta o FrugalRAG, um framework de dois estágios que utiliza aprendizado por reforço para treinar modelos de linguagem pequenos na adaptação dinâmica do número de etapas de recuperação com base na dificuldade da pergunta, alcançando um equilíbrio superior entre precisão e eficiência em tarefas de resposta a perguntas de múltiplas etapas com poucos dados de treinamento.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Este artigo propõe o SASFT, um método de ajuste fino supervisionado guiado por autoencoders esparsos que mitiga a alternância de código inesperada em Grandes Modelos de Linguagem ao regular os valores de pré-ativação das características linguísticas, reduzindo esse problema em mais de 50% sem comprometer o desempenho multilíngue.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

O artigo apresenta o SpiroLLM, o primeiro modelo de linguagem multimodal capaz de interpretar séries temporais de espirogramas para gerar relatórios diagnósticos explicáveis e clinicamente validados para a DPOC, superando as limitações de modelos anteriores ao alcançar alta precisão e robustez mesmo com dados incompletos.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Diversity-Enhanced Reasoning for Subjective Questions

O artigo propõe o MultiRole-R1, um framework de treinamento que aprimora o raciocínio de modelos em questões subjetivas ao introduzir diversidade de perspectivas e de tokens via RL, resultando em ganhos significativos de precisão tanto em tarefas subjetivas quanto em problemas matemáticos avançados.

Yumeng Wang, Zhiyuan Fan, Jiayu Liu + 2 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

Este trabalho desafia a visão de que a aprendizagem de cor (memorização) prejudica a generalização, demonstrando que modelos de linguagem de grande escala podem generalizar dados memorizados através de um framework de duas fases que alinha representações latentes entre tokens sintéticos e prompts semanticamente significativos.

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

O artigo apresenta o DeepSieve, um framework agênico de RAG que utiliza um LLM como roteador de conhecimento para decompor consultas complexas, filtrar informações irrelevantes e melhorar a precisão da recuperação e a profundidade do raciocínio em tarefas de múltiplos saltos.

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

O artigo apresenta o Uni-CoT, um framework unificado que supera as limitações atuais no raciocínio multimodal ao combinar compreensão e geração de imagens em um único modelo, utilizando uma abordagem de raciocínio em dois níveis (macro e micro) e treinamento estruturado para alcançar desempenho state-of-the-art com eficiência computacional.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

O estudo demonstra que a esparsidade ideal em modelos de linguagem do tipo Mixture-of-Experts para tarefas de raciocínio depende de um equilíbrio entre FLOPs ativos e tokens totais por parâmetro, revelando que o aumento do cálculo ativo melhora o raciocínio enquanto a memorização beneficia-se de mais parâmetros, independentemente de técnicas de pós-treinamento ou computação em tempo de teste.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

EigenBench: A Comparative Behavioral Measure of Value Alignment

O artigo apresenta o EigenBench, um método de caixa preta que utiliza o algoritmo EigenTrust para gerar uma métrica comparativa de alinhamento de valores em modelos de linguagem, avaliando-os mutuamente em diversos cenários sem depender de rótulos de verdade absoluta e validando seus resultados através da forte correlação com julgamentos humanos.

Jonathn Chang, Leonhard Piff, Suvadip Sana + 2 more2026-03-03💬 cs.CL

← Anterior Próximo →