One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

O artigo apresenta o One-Eval, um sistema agêntico que automatiza e torna rastreável a avaliação de modelos de linguagem grandes, convertendo solicitações em linguagem natural em fluxos de trabalho executáveis e personalizáveis para reduzir o esforço manual e aumentar a reprodutibilidade em ambientes industriais.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Este trabalho propõe a utilização de árvores de Chow-Liu para determinar uma ordem de processamento de chunks que priorize dependências fortes, demonstrando empiricamente que essa abordagem reduz a perda de informação e supera métodos de ordenação padrão em tarefas de raciocínio de longo contexto com agentes em cadeia.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

O artigo apresenta o conjunto de dados multilíngue "DoWhatISay" (DOWIS), composto por prompts falados e escritos para avaliar modelos de linguagem de fala, revelando que os prompts textuais superam consistentemente os falados, exceto em tarefas com saída de áudio, onde a diferença diminui.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Este estudo avalia sete modelos de linguagem de ponta em dois experimentos com mais de 19 mil participantes, descobrindo que eles superam anúncios de campanha tradicionais em persuasão política, com o Claude apresentando o maior impacto e o Grok o menor, além de revelar que o uso de prompts baseados em informações afeta a eficácia persuasiva de forma dependente do modelo específico.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

O artigo demonstra que ativar o raciocínio em LLMs melhora a recuperação de conhecimento paramétrico em perguntas factuais simples através de dois mecanismos — um efeito de buffer computacional e uma priming factual —, embora também revele que alucinações em etapas intermediárias aumentem o risco de erros na resposta final.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Esta pesquisa apresenta uma revisão abrangente e estruturada do paradigma de fusão de modelos na era dos Grandes Modelos de Linguagem, introduzindo a taxonomia FUSE para analisar fundamentos teóricos, estratégias de unificação, cenários de aplicação e o ecossistema de ferramentas, visando oferecer uma base sólida para pesquisadores e praticantes avançarem nessa área.

Mingyang Song, Mao Zheng2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

O estudo demonstra que, ao contrário do comportamento humano, o raciocínio em modelos de linguagem aumenta consistentemente a honestidade, não apenas pelo conteúdo do pensamento, mas porque o processo de geração de tokens deliberativos navega por um espaço representacional onde as respostas enganosas são metaestáveis e mais facilmente destabilizadas do que as honestas.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

O artigo apresenta o CREATE, um benchmark projetado para avaliar a capacidade de raciocínio associativo criativo de modelos de linguagem, focando na geração de caminhos diversos e específicos entre conceitos, e demonstra que, embora os modelos mais avançados tenham maior utilidade criativa, o benchmark permanece difícil de saturar e não garante que modelos com processos de "pensamento" sejam sempre mais eficazes.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Este artigo propõe um modelo integrativo que explica como a identidade do falante influencia a compreensão da linguagem através da interação entre processos perceptivos baseados em memória episódica e expectativas top-down, distinguindo efeitos de familiaridade individual e de demografia social, e sugere a extensão dessas descobertas para a interação com agentes de inteligência artificial.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Este artigo apresenta um gargalo discreto chave-valor (DKVB) para modelos de linguagem pequenos, permitindo um aprendizado contínuo eficiente que mitiga o esquecimento catastrófico através de atualizações localizadas e uma inicialização independente de tarefas, alcançando desempenho competitivo com custos computacionais reduzidos.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

O artigo apresenta o HarmonicEval, uma métrica de avaliação automática sem referência que agrega pontuações por critério de forma bottom-up, e o benchmark MMHE, composto por 18.000 julgamentos humanos em quatro tarefas multimodais, demonstrando que essa abordagem supera as métricas convencionais ao alinhar-se melhor com os julgamentos humanos em cenários de múltiplas tarefas e critérios.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Este artigo investiga o fenômeno de colapso de embeddings no Prompt-Tuning, demonstrando que priores de embedding influenciam significativamente a posição dos embeddings ajustados e que as trajetórias geradas formam clusters distintos para tarefas distantes, levantando questões sobre a importância de um único cluster de ativação para a generalização dos modelos de linguagem.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG