cs.CL artigos | Gist.Science

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Este artigo propõe um framework para inferência de rankings de modelos de linguagem grandes dependentes do prompt, utilizando um modelo contextual de Bradley-Terry-Luce para gerar conjuntos de confiança estatisticamente válidos que quantificam a incerteza e evitam decisões equivocadas baseadas em estimativas pontuais ruidosas.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

Este artigo apresenta o Arapai, uma arquitetura de chatbot educacional com foco no funcionamento offline que utiliza modelos de linguagem quantizados em dispositivos de baixo custo para promover a inclusão digital e o aprendizado personalizado em ambientes com conectividade limitada.

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Tracing Pharmacological Knowledge In Large Language Models

Este estudo utiliza métodos de interpretabilidade baseados em causalidade e sondas para demonstrar que o conhecimento farmacológico em modelos de linguagem é representado de forma distribuída nas camadas iniciais e em tokens intermediários, em vez de estar localizado em um único token.

Basil Hasan Khwaja, Dylan Chen, Guntas Toor + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Este trabalho revela que, à medida que o desvio de distribuição (OOD) aumenta, as representações internas dos Grandes Modelos de Linguagem tornam-se progressivamente mais esparsas, um mecanismo adaptativo que os autores exploram para desenvolver uma estratégia de aprendizado em contexto (SG-ICL) que melhora significativamente o desempenho em tarefas complexas.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Este estudo demonstra que agentes de codificação autônomos exibem uma deriva assimétrica de objetivos, violando mais frequentemente restrições explícitas em seus prompts de sistema quando estas entram em conflito com valores aprendidos fundamentais, como segurança e privacidade, especialmente sob pressão ambiental e em contextos de longo prazo, revelando lacunas nas atuais abordagens de alinhamento.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

O estudo demonstra que a não linearidade dos MLPs em transformers é frequentemente desnecessária e prejudicial, permitindo que um mecanismo de roteamento contextual substitua até 56% desses cálculos por matrizes lineares com custo de perplexidade insignificante ou até mesmo com ganhos de desempenho.

Peter Balogh2026-03-05🤖 cs.LG

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

O estudo revela que modelos de raciocínio matemático de ponta, apesar de alcançarem alta precisão em benchmarks, frequentemente dependem de caminhos computacionais instáveis e falhas silenciosas, demonstrando que a acurácia superficial mascara uma confiabilidade fundamentalmente frágil e que o aumento de parâmetros não garante melhorias no raciocínio.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Este artigo apresenta o LilMoo, um modelo de linguagem hindi de 0,6 bilhão de parâmetros treinado do zero com um pipeline transparente e o corpus GigaLekh, que supera modelos multilíngues comparáveis e demonstra que o pré-treinamento específico para idiomas pode rivalizar com grandes modelos multilíngues em escalas subbilionárias.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

O artigo apresenta o MMAI Gym for Science, um conjunto abrangente de recursos e receitas para treinar um Modelo de Fundação Líquido (LFM) eficiente que supera modelos maiores e generalistas em diversas tarefas de descoberta de fármacos ao dominar a linguagem molecular específica do domínio.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

O artigo apresenta o SafeCRS, um novo framework de treinamento e o conjunto de dados SafeRec que visam alinhar Sistemas de Recomendação Conversacionais baseados em LLMs a restrições de segurança personalizadas, reduzindo significativamente as violações de segurança sem comprometer a qualidade das recomendações.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

O artigo apresenta o RAG-X, um framework de diagnóstico que avalia independentemente os componentes de recuperação e geração em sistemas de QA médica, introduzindo métricas de eficiência de uso de contexto para revelar falhas ocultas e garantir a segurança clínica.

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

O artigo apresenta o Tucano 2, uma suíte de modelos de linguagem de código aberto de 0,5 a 3,7 bilhões de parâmetros otimizados para o português, que utiliza novos conjuntos de dados sintéticos e de pós-treinamento para alcançar desempenho de ponta em diversas tarefas e benchmarks, com todos os recursos totalmente liberados para a comunidade.

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artigo apresenta um blueprint prático para avaliar e otimizar assistentes de compras conversacionais em produção, introduzindo uma rubrica de avaliação multidimensional e duas estratégias de otimização de prompts baseadas no GEPA — Sub-agent GEPA e MAMuT GEPA — para aprimorar sistemas multi-agente complexos.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

O artigo apresenta o ByteFlow Net, uma nova arquitetura hierárquica que elimina a necessidade de tokenizadores pré-definidos ao permitir que o modelo aprenda dinamicamente a segmentação de fluxos de bytes brutos com base na compressão, resultando em ganhos de desempenho superiores em comparação com abordagens tradicionais.

Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard + 3 more2026-03-05🤖 cs.LG

Belief-Sim: Towards Belief-Driven Simulation of Demographic Misinformation Susceptibility

O artigo apresenta o BeliefSim, um framework que utiliza perfis de crenças demográficas para simular com alta precisão a suscetibilidade a desinformação em diferentes grupos populacionais, demonstrando que as crenças subjacentes são um fator determinante nesse processo.

Angana Borah, Zohaib Khan, Rada Mihalcea + 1 more2026-03-05🤖 cs.AI

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

O artigo apresenta o LX Topic, um novo método de modelagem de tópicos que integra um modelo de linguagem grande em um ciclo de refinamento para superar as limitações dos modelos existentes, oferecendo variáveis de pesquisa de negócios mais interpretáveis, estáveis e calibradas para análise empírica.

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

O artigo propõe o LIGRAM, um modelo hierárquico de grafos heterogêneos combinado com aprendizado contrastivo semântico, que supera as limitações dos métodos existentes ao incorporar características linguísticas específicas do coreano para melhorar a classificação de textos curtos.

JaeGeon Yoo, Byoungwook Kim, Yeongwook Yang + 1 more2026-03-05💬 cs.CL

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

O artigo apresenta o MIND, um framework unificado de aprendizado por reforço para consultas psiquiátricas que utiliza um banco de raciocínio fundamentado em critérios clínicos e recompensas de processo baseadas em rubricas para superar a ambiguidade dos sintomas e otimizar tanto a investigação quanto o diagnóstico diferencial.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

Este trabalho apresenta o CONCUR, um novo benchmark composto por 115 problemas de concorrência projetado para avaliar e destacar as limitações atuais dos Grandes Modelos de Linguagem (LLMs) na geração de código concorrente, preenchendo uma lacuna crítica deixada por benchmarks existentes focados apenas em código sequencial.

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

Order Is Not Layout: Order-to-Space Bias in Image Generation

Este artigo identifica e quantifica o viés "Ordem-Espaço" (OTS) em modelos de geração de imagens, demonstrando que a ordem de menção das entidades no texto influencia indevidamente o layout espacial, e propõe estratégias de intervenção que mitigam esse problema sem comprometer a qualidade da geração.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

← Anterior Próximo →