Do What I Say: A Spoken Prompt Dataset for Instruction-Following

O artigo apresenta o conjunto de dados multilíngue "DoWhatISay" (DOWIS), composto por prompts falados e escritos para avaliar modelos de linguagem de fala, revelando que os prompts textuais superam consistentemente os falados, exceto em tarefas com saída de áudio, onde a diferença diminui.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Este estudo avalia sete modelos de linguagem de ponta em dois experimentos com mais de 19 mil participantes, descobrindo que eles superam anúncios de campanha tradicionais em persuasão política, com o Claude apresentando o maior impacto e o Grok o menor, além de revelar que o uso de prompts baseados em informações afeta a eficácia persuasiva de forma dependente do modelo específico.

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

O artigo demonstra que ativar o raciocínio em LLMs melhora a recuperação de conhecimento paramétrico em perguntas factuais simples através de dois mecanismos — um efeito de buffer computacional e uma priming factual —, embora também revele que alucinações em etapas intermediárias aumentem o risco de erros na resposta final.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Esta pesquisa apresenta uma revisão abrangente e estruturada do paradigma de fusão de modelos na era dos Grandes Modelos de Linguagem, introduzindo a taxonomia FUSE para analisar fundamentos teóricos, estratégias de unificação, cenários de aplicação e o ecossistema de ferramentas, visando oferecer uma base sólida para pesquisadores e praticantes avançarem nessa área.

Mingyang Song, Mao ZhengWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

O estudo demonstra que, ao contrário do comportamento humano, o raciocínio em modelos de linguagem aumenta consistentemente a honestidade, não apenas pelo conteúdo do pensamento, mas porque o processo de geração de tokens deliberativos navega por um espaço representacional onde as respostas enganosas são metaestáveis e mais facilmente destabilizadas do que as honestas.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

O artigo apresenta o CREATE, um benchmark projetado para avaliar a capacidade de raciocínio associativo criativo de modelos de linguagem, focando na geração de caminhos diversos e específicos entre conceitos, e demonstra que, embora os modelos mais avançados tenham maior utilidade criativa, o benchmark permanece difícil de saturar e não garante que modelos com processos de "pensamento" sejam sempre mais eficazes.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg DurrettWed, 11 Ma💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Este artigo propõe um modelo integrativo que explica como a identidade do falante influencia a compreensão da linguagem através da interação entre processos perceptivos baseados em memória episódica e expectativas top-down, distinguindo efeitos de familiaridade individual e de demografia social, e sugere a extensão dessas descobertas para a interação com agentes de inteligência artificial.

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Este artigo apresenta um gargalo discreto chave-valor (DKVB) para modelos de linguagem pequenos, permitindo um aprendizado contínuo eficiente que mitiga o esquecimento catastrófico através de atualizações localizadas e uma inicialização independente de tarefas, alcançando desempenho competitivo com custos computacionais reduzidos.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

O artigo apresenta o HarmonicEval, uma métrica de avaliação automática sem referência que agrega pontuações por critério de forma bottom-up, e o benchmark MMHE, composto por 18.000 julgamentos humanos em quatro tarefas multimodais, demonstrando que essa abordagem supera as métricas convencionais ao alinhar-se melhor com os julgamentos humanos em cenários de múltiplas tarefas e critérios.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Este artigo investiga o fenômeno de colapso de embeddings no Prompt-Tuning, demonstrando que priores de embedding influenciam significativamente a posição dos embeddings ajustados e que as trajetórias geradas formam clusters distintos para tarefas distantes, levantando questões sobre a importância de um único cluster de ativação para a generalização dos modelos de linguagem.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Este artigo demonstra que a adaptação de baixo rank (LoRA) reduz significativamente a memorização indesejada em modelos de linguagem grandes treinados por aprendizado federado, preservando o desempenho e podendo ser combinada com outras técnicas de privacidade para proteger dados sensíveis em domínios críticos.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin JaggiTue, 10 Ma🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Este artigo propõe o framework COD (Clustering-On-Difficulty), que agrupa tarefas por características de escalabilidade de dificuldade para prever com alta precisão o desempenho de modelos de linguagem grandes em benchmarks downstream, superando as limitações das metodologias atuais devido ao fenômeno de emergência e à variabilidade de métricas.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang LiTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

O artigo propõe o HaLoRA, um método de adaptação de baixo rank consciente de hardware que combina pesos pré-treinados em memória RRAM ruidosa com ramos LoRA treinados para robustez em SRAM silenciosa, permitindo a execução eficiente de modelos de linguagem grandes com economia de energia de até 97% e ganhos significativos de precisão.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Este estudo revela que, embora os Grandes Modelos de Linguagem (LLMs) superrepresentem personagens femininas em suas histórias geradas devido ao ajuste fino e ao aprendizado por reforço, eles continuam a alocar essas personagens em ocupações que refletem estereótipos de gênero humanos em vez da realidade do mercado de trabalho, evidenciando um paradoxo que exige medidas de mitigação equilibradas para promover a equidade.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan ChenTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

O artigo apresenta o EDU-PRM, um novo modelo de recompensa de processo baseado em entropia que elimina a necessidade de anotações manuais ao segmentar automaticamente os passos de raciocínio em pontos de alta incerteza, alcançando desempenho superior com apenas 1,5% dos dados de treinamento e reduzindo o uso de tokens em 32%.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG