Controllable and explainable personality sliders for LLMs at inference time

Este trabalho apresenta o Sequential Adaptive Steering (SAS), um framework modular que permite o controle contínuo e explicável de múltiplas traços de personalidade em Grandes Modelos de Linguagem durante a inferência, superando a interferência vetorial de métodos anteriores ao ortogonalizar vetores de direção para síntese precisa de perfis sem necessidade de re-treinamento.

Florian Hoppe, David Khachaturov, Robert Mullins + 1 more2026-03-05🤖 cs.AI

A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction

Este artigo apresenta a construção de um novo conjunto de dados chinês multilabel e multitarefa que suporta o reconhecimento de satisfação, reconhecimento de emoção e previsão de transição de estados emocionais em diálogos, superando as limitações de recursos existentes ao capturar a dinâmica emocional ao longo de múltiplas interações.

Jing Bian, Haoxiang Su, Liting Jiang + 6 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

O artigo apresenta o StructLens, um novo framework analítico que utiliza árvores de expansão máxima para revelar e quantificar as relações estruturais globais entre camadas em modelos de linguagem, demonstrando que essa abordagem baseada em estrutura oferece uma métrica de similaridade distinta e mais eficaz para tarefas como a poda de camadas do que as métricas convencionais.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

AutoHarness: improving LLM agents by automatically synthesizing a code harness

O artigo "AutoHarness" demonstra que o modelo de linguagem Gemini-2.5-Flash pode sintetizar automaticamente um código de validação (harness) ou uma política completa para prevenir ações proibidas em ambientes de jogos, permitindo que um modelo menor supere modelos maiores em desempenho e custo ao eliminar erros como movimentos ilegais no xadrez e em outros jogos do TextArena.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Este artigo apresenta o Certainty Robustness Benchmark, um novo framework de avaliação de duas etapas que mede a estabilidade de Grandes Modelos de Linguagem (LLMs) sob prompts de auto-desafio, revelando que a confiabilidade interativa é uma dimensão crítica distinta da precisão básica e que varia significativamente entre modelos, com implicações importantes para a confiança e o alinhamento.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Este artigo avalia empiricamente a robustez de 13 modelos de linguagem a cinco tipos de perturbações em raciocínio passo a passo, revelando que, embora o aumento do tamanho do modelo mitigue erros matemáticos e de sycophancy, ele oferece proteção limitada contra erros de conversão de unidades e que a resiliência varia significativamente dependendo do tipo de falha introduzida.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding

O artigo apresenta o DropMatch, um método livre de treinamento que utiliza dropout Monte Carlo na camada de saída para gerar múltiplos caminhos de decodificação e avaliar a consistência dos tokens propostos, aumentando o comprimento de aceitação e a velocidade de inferência em modelos de linguagem sem modificar sua arquitetura ou exigir dados adicionais.

Jeongtae Lee, Minjung Jo, Hyunjoon Jeong + 5 more2026-03-05💬 cs.CL

Compressed Sensing for Capability Localization in Large Language Models

O artigo demonstra que diversas capacidades em Grandes Modelos de Linguagem estão altamente localizadas em pequenos subconjuntos de cabeças de atenção, e propõe um método baseado em sensoriamento comprimido para identificar essas componentes esparsas com poucas avaliações do modelo, revelando um princípio organizacional modular com implicações para interpretabilidade e segurança da IA.

Anna Bair, Yixuan Even Xu, Mingjie Sun + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Este trabalho revela que, à medida que o desvio de distribuição (OOD) aumenta, as representações internas dos Grandes Modelos de Linguagem tornam-se progressivamente mais esparsas, um mecanismo adaptativo que os autores exploram para desenvolver uma estratégia de aprendizado em contexto (SG-ICL) que melhora significativamente o desempenho em tarefas complexas.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Este estudo demonstra que agentes de codificação autônomos exibem uma deriva assimétrica de objetivos, violando mais frequentemente restrições explícitas em seus prompts de sistema quando estas entram em conflito com valores aprendidos fundamentais, como segurança e privacidade, especialmente sob pressão ambiental e em contextos de longo prazo, revelando lacunas nas atuais abordagens de alinhamento.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

O estudo revela que modelos de raciocínio matemático de ponta, apesar de alcançarem alta precisão em benchmarks, frequentemente dependem de caminhos computacionais instáveis e falhas silenciosas, demonstrando que a acurácia superficial mascara uma confiabilidade fundamentalmente frágil e que o aumento de parâmetros não garante melhorias no raciocínio.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI