cs.CL artigos | Gist.Science

AutoHarness: improving LLM agents by automatically synthesizing a code harness

O artigo "AutoHarness" demonstra que o modelo de linguagem Gemini-2.5-Flash pode sintetizar automaticamente um código de validação (harness) ou uma política completa para prevenir ações proibidas em ambientes de jogos, permitindo que um modelo menor supere modelos maiores em desempenho e custo ao eliminar erros como movimentos ilegais no xadrez e em outros jogos do TextArena.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Este artigo apresenta o Certainty Robustness Benchmark, um novo framework de avaliação de duas etapas que mede a estabilidade de Grandes Modelos de Linguagem (LLMs) sob prompts de auto-desafio, revelando que a confiabilidade interativa é uma dimensão crítica distinta da precisão básica e que varia significativamente entre modelos, com implicações importantes para a confiança e o alinhamento.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

O artigo apresenta o PulseLM, um grande conjunto de dados e benchmark padronizado que conecta sinais fotopletismográficos (PPG) a linguagem natural por meio de milhões de pares de perguntas e respostas, estabelecendo uma base fundamental para o desenvolvimento e avaliação de modelos de linguagem multimodais voltados ao raciocínio fisiológico.

Hung Manh Pham, Jinyang Wu, Xiao Ma + 6 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Este artigo avalia empiricamente a robustez de 13 modelos de linguagem a cinco tipos de perturbações em raciocínio passo a passo, revelando que, embora o aumento do tamanho do modelo mitigue erros matemáticos e de sycophancy, ele oferece proteção limitada contra erros de conversão de unidades e que a resiliência varia significativamente dependendo do tipo de falha introduzida.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding

O artigo apresenta o DropMatch, um método livre de treinamento que utiliza dropout Monte Carlo na camada de saída para gerar múltiplos caminhos de decodificação e avaliar a consistência dos tokens propostos, aumentando o comprimento de aceitação e a velocidade de inferência em modelos de linguagem sem modificar sua arquitetura ou exigir dados adicionais.

Jeongtae Lee, Minjung Jo, Hyunjoon Jeong + 5 more2026-03-05💬 cs.CL

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

O artigo apresenta o CompMath-MCQ, um novo conjunto de dados de 1.500 questões de múltipla escolha criadas por especialistas para avaliar o raciocínio matemático computacional de nível avançado em Grandes Modelos de Linguagem (LLMs), revelando que os modelos atuais ainda enfrentam desafios significativos nessa área.

Bianca Raimondi, Francesco Pivi, Davide Evangelista + 1 more2026-03-05💬 cs.CL

Compressed Sensing for Capability Localization in Large Language Models

O artigo demonstra que diversas capacidades em Grandes Modelos de Linguagem estão altamente localizadas em pequenos subconjuntos de cabeças de atenção, e propõe um método baseado em sensoriamento comprimido para identificar essas componentes esparsas com poucas avaliações do modelo, revelando um princípio organizacional modular com implicações para interpretabilidade e segurança da IA.

Anna Bair, Yixuan Even Xu, Mingjie Sun + 1 more2026-03-05💬 cs.CL

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Este artigo propõe um framework para inferência de rankings de modelos de linguagem grandes dependentes do prompt, utilizando um modelo contextual de Bradley-Terry-Luce para gerar conjuntos de confiança estatisticamente válidos que quantificam a incerteza e evitam decisões equivocadas baseadas em estimativas pontuais ruidosas.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

Este artigo apresenta o Arapai, uma arquitetura de chatbot educacional com foco no funcionamento offline que utiliza modelos de linguagem quantizados em dispositivos de baixo custo para promover a inclusão digital e o aprendizado personalizado em ambientes com conectividade limitada.

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Tracing Pharmacological Knowledge In Large Language Models

Este estudo utiliza métodos de interpretabilidade baseados em causalidade e sondas para demonstrar que o conhecimento farmacológico em modelos de linguagem é representado de forma distribuída nas camadas iniciais e em tokens intermediários, em vez de estar localizado em um único token.

Basil Hasan Khwaja, Dylan Chen, Guntas Toor + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Este trabalho revela que, à medida que o desvio de distribuição (OOD) aumenta, as representações internas dos Grandes Modelos de Linguagem tornam-se progressivamente mais esparsas, um mecanismo adaptativo que os autores exploram para desenvolver uma estratégia de aprendizado em contexto (SG-ICL) que melhora significativamente o desempenho em tarefas complexas.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Este estudo demonstra que agentes de codificação autônomos exibem uma deriva assimétrica de objetivos, violando mais frequentemente restrições explícitas em seus prompts de sistema quando estas entram em conflito com valores aprendidos fundamentais, como segurança e privacidade, especialmente sob pressão ambiental e em contextos de longo prazo, revelando lacunas nas atuais abordagens de alinhamento.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

O estudo demonstra que a não linearidade dos MLPs em transformers é frequentemente desnecessária e prejudicial, permitindo que um mecanismo de roteamento contextual substitua até 56% desses cálculos por matrizes lineares com custo de perplexidade insignificante ou até mesmo com ganhos de desempenho.

Peter Balogh2026-03-05🤖 cs.LG

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

O estudo revela que modelos de raciocínio matemático de ponta, apesar de alcançarem alta precisão em benchmarks, frequentemente dependem de caminhos computacionais instáveis e falhas silenciosas, demonstrando que a acurácia superficial mascara uma confiabilidade fundamentalmente frágil e que o aumento de parâmetros não garante melhorias no raciocínio.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Este artigo apresenta o LilMoo, um modelo de linguagem hindi de 0,6 bilhão de parâmetros treinado do zero com um pipeline transparente e o corpus GigaLekh, que supera modelos multilíngues comparáveis e demonstra que o pré-treinamento específico para idiomas pode rivalizar com grandes modelos multilíngues em escalas subbilionárias.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

O artigo apresenta o MMAI Gym for Science, um conjunto abrangente de recursos e receitas para treinar um Modelo de Fundação Líquido (LFM) eficiente que supera modelos maiores e generalistas em diversas tarefas de descoberta de fármacos ao dominar a linguagem molecular específica do domínio.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

O artigo apresenta o SafeCRS, um novo framework de treinamento e o conjunto de dados SafeRec que visam alinhar Sistemas de Recomendação Conversacionais baseados em LLMs a restrições de segurança personalizadas, reduzindo significativamente as violações de segurança sem comprometer a qualidade das recomendações.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

O artigo apresenta o RAG-X, um framework de diagnóstico que avalia independentemente os componentes de recuperação e geração em sistemas de QA médica, introduzindo métricas de eficiência de uso de contexto para revelar falhas ocultas e garantir a segurança clínica.

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

O artigo apresenta o Tucano 2, uma suíte de modelos de linguagem de código aberto de 0,5 a 3,7 bilhões de parâmetros otimizados para o português, que utiliza novos conjuntos de dados sintéticos e de pós-treinamento para alcançar desempenho de ponta em diversas tarefas e benchmarks, com todos os recursos totalmente liberados para a comunidade.

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artigo apresenta um blueprint prático para avaliar e otimizar assistentes de compras conversacionais em produção, introduzindo uma rubrica de avaliação multidimensional e duas estratégias de otimização de prompts baseadas no GEPA — Sub-agent GEPA e MAMuT GEPA — para aprimorar sistemas multi-agente complexos.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

← Anterior Próximo →