cs.CL artigos | Gist.Science

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

O artigo apresenta o LongWriter-Zero, um modelo de linguagem treinado exclusivamente por meio de aprendizado por reforço a partir de um modelo base, que supera métodos tradicionais de ajuste fino supervisionado e modelos maiores na geração de textos ultra-longos de alta qualidade, eliminando a necessidade de dados sintéticos ou anotados.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Este trabalho apresenta o TTSDS2, uma métrica aprimorada que supera todas as outras 15 comparadas ao correlacionar-se consistentemente com avaliações subjetivas em diversos domínios e idiomas, além de disponibilizar recursos abrangentes, incluindo um conjunto de dados com mais de 11.000 avaliações, um pipeline para evitar vazamento de dados e um benchmark atualizado para 14 idiomas.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

O estudo conclui que, embora o Pós-Treinamento com Reforço (RPT) traga ganhos substanciais em tarefas semelhantes aos dados de ajuste fino, essas melhorias generalizam-se de forma inconsistente e podem desaparecer em domínios com padrões de raciocínio diferentes.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

Cognitive models can reveal interpretable value trade-offs in language models

Este artigo demonstra que modelos cognitivos podem ser utilizados para revelar e analisar sistematicamente as compensações de valores em modelos de linguagem, permitindo diagnosticar comportamentos sociais e compreender como fatores como o esforço de raciocínio, prompts e o treinamento pós-inicial influenciam a alinhamento desses sistemas.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

O artigo apresenta o DAPFAM, um novo conjunto de dados de nível familiar para patentes com divisões explícitas de domínio que revela uma lacuna significativa de desempenho na recuperação de arte anterior entre domínios diferentes, servindo como um teste reprodutível para o desenvolvimento de sistemas de recuperação de patentes mais robustos.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

XISM: an eXploratory and Interactive Graph Tool to Visualize and Evaluate Semantic Map Models

O artigo apresenta o XISM, uma ferramenta interativa que combina inferência orientada por dados e conhecimento especializado para gerar e refinar mapas semânticos, oferecendo uma abordagem colaborativa que equilibra escalabilidade e interpretabilidade na linguística tipológica.

Zhu Liu, Zhen Hu, Lei Dai + 2 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

O artigo apresenta o FrugalRAG, um framework de dois estágios que utiliza aprendizado por reforço para treinar modelos de linguagem pequenos na adaptação dinâmica do número de etapas de recuperação com base na dificuldade da pergunta, alcançando um equilíbrio superior entre precisão e eficiência em tarefas de resposta a perguntas de múltiplas etapas com poucos dados de treinamento.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Este artigo propõe o SASFT, um método de ajuste fino supervisionado guiado por autoencoders esparsos que mitiga a alternância de código inesperada em Grandes Modelos de Linguagem ao regular os valores de pré-ativação das características linguísticas, reduzindo esse problema em mais de 50% sem comprometer o desempenho multilíngue.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

O artigo apresenta o SpiroLLM, o primeiro modelo de linguagem multimodal capaz de interpretar séries temporais de espirogramas para gerar relatórios diagnósticos explicáveis e clinicamente validados para a DPOC, superando as limitações de modelos anteriores ao alcançar alta precisão e robustez mesmo com dados incompletos.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Diversity-Enhanced Reasoning for Subjective Questions

O artigo propõe o MultiRole-R1, um framework de treinamento que aprimora o raciocínio de modelos em questões subjetivas ao introduzir diversidade de perspectivas e de tokens via RL, resultando em ganhos significativos de precisão tanto em tarefas subjetivas quanto em problemas matemáticos avançados.

Yumeng Wang, Zhiyuan Fan, Jiayu Liu + 2 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

Este trabalho desafia a visão de que a aprendizagem de cor (memorização) prejudica a generalização, demonstrando que modelos de linguagem de grande escala podem generalizar dados memorizados através de um framework de duas fases que alinha representações latentes entre tokens sintéticos e prompts semanticamente significativos.

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

O artigo apresenta o DeepSieve, um framework agênico de RAG que utiliza um LLM como roteador de conhecimento para decompor consultas complexas, filtrar informações irrelevantes e melhorar a precisão da recuperação e a profundidade do raciocínio em tarefas de múltiplos saltos.

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

O artigo apresenta o Uni-CoT, um framework unificado que supera as limitações atuais no raciocínio multimodal ao combinar compreensão e geração de imagens em um único modelo, utilizando uma abordagem de raciocínio em dois níveis (macro e micro) e treinamento estruturado para alcançar desempenho state-of-the-art com eficiência computacional.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

O estudo demonstra que a esparsidade ideal em modelos de linguagem do tipo Mixture-of-Experts para tarefas de raciocínio depende de um equilíbrio entre FLOPs ativos e tokens totais por parâmetro, revelando que o aumento do cálculo ativo melhora o raciocínio enquanto a memorização beneficia-se de mais parâmetros, independentemente de técnicas de pós-treinamento ou computação em tempo de teste.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

EigenBench: A Comparative Behavioral Measure of Value Alignment

O artigo apresenta o EigenBench, um método de caixa preta que utiliza o algoritmo EigenTrust para gerar uma métrica comparativa de alinhamento de valores em modelos de linguagem, avaliando-os mutuamente em diversos cenários sem depender de rótulos de verdade absoluta e validando seus resultados através da forte correlação com julgamentos humanos.

Jonathn Chang, Leonhard Piff, Suvadip Sana + 2 more2026-03-03💬 cs.CL

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

O artigo propõe o método GACD, uma técnica de decodificação baseada em inferência que utiliza gradientes de primeira ordem para estimar e mitigar vieses textuais e de coocorrência em modelos de linguagem multimodal, reduzindo alucinações e melhorando a fundamentação visual sem necessidade de ajuste fino.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

Post-training Large Language Models for Diverse High-Quality Responses

O artigo propõe o método DQO (Otimização de Qualidade e Diversidade), baseado em Processos de Pontos Determinantais, para aprimorar a diversidade semântica das respostas de Grandes Modelos de Linguagem durante o treinamento por reforço sem comprometer sua qualidade.

Yilei Chen, Souradip Chakraborty, Lorenz Wolf + 2 more2026-03-03💬 cs.CL

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

O artigo apresenta o BinaryShield, um sistema pioneiro que permite o compartilhamento seguro de inteligência sobre ameaças entre serviços de LLMs através de impressões digitais que preservam a privacidade, superando as barreiras regulatórias para detectar ataques de injeção de prompts sem violar os dados dos usuários.

Waris Gill, Natalie Isak, Matthew Dressman2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

O artigo apresenta o SVDecode, um método leve e teoricamente fundamentado que melhora a adaptação de tarefas em grandes modelos de linguagem alinhando suas distribuições de saída durante a decodificação por meio de um vetor de direção extraído de um ajuste fino inicial, alcançando ganhos de desempenho significativos sem adicionar parâmetros treináveis além dos adaptadores PEFT existentes.

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

Este estudo de grande escala avalia sistematicamente a interação entre modelos de linguagem grandes (LLMs) e dados gráficos, revelando que a geração de código supera outras abordagens em desempenho e adaptabilidade, especialmente em grafos heterofílicos e com textos longos, oferecendo diretrizes práticas para o desenvolvimento futuro de métodos de inferência gráfica.

Ben Finkelshtein, Silviu Cucerzan, Sujay Kumar Jauhar + 1 more2026-03-03💬 cs.CL

← Anterior Próximo →