cs.CL artigos | Gist.Science

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Este artigo apresenta o LilMoo, um modelo de linguagem hindi de 0,6 bilhão de parâmetros treinado do zero com um pipeline transparente e o corpus GigaLekh, que supera modelos multilíngues comparáveis e demonstra que o pré-treinamento específico para idiomas pode rivalizar com grandes modelos multilíngues em escalas subbilionárias.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

O artigo apresenta o MMAI Gym for Science, um conjunto abrangente de recursos e receitas para treinar um Modelo de Fundação Líquido (LFM) eficiente que supera modelos maiores e generalistas em diversas tarefas de descoberta de fármacos ao dominar a linguagem molecular específica do domínio.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

O artigo apresenta o SafeCRS, um novo framework de treinamento e o conjunto de dados SafeRec que visam alinhar Sistemas de Recomendação Conversacionais baseados em LLMs a restrições de segurança personalizadas, reduzindo significativamente as violações de segurança sem comprometer a qualidade das recomendações.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

O artigo apresenta o RAG-X, um framework de diagnóstico que avalia independentemente os componentes de recuperação e geração em sistemas de QA médica, introduzindo métricas de eficiência de uso de contexto para revelar falhas ocultas e garantir a segurança clínica.

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

O artigo apresenta o Tucano 2, uma suíte de modelos de linguagem de código aberto de 0,5 a 3,7 bilhões de parâmetros otimizados para o português, que utiliza novos conjuntos de dados sintéticos e de pós-treinamento para alcançar desempenho de ponta em diversas tarefas e benchmarks, com todos os recursos totalmente liberados para a comunidade.

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artigo apresenta um blueprint prático para avaliar e otimizar assistentes de compras conversacionais em produção, introduzindo uma rubrica de avaliação multidimensional e duas estratégias de otimização de prompts baseadas no GEPA — Sub-agent GEPA e MAMuT GEPA — para aprimorar sistemas multi-agente complexos.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

O artigo apresenta o ByteFlow Net, uma nova arquitetura hierárquica que elimina a necessidade de tokenizadores pré-definidos ao permitir que o modelo aprenda dinamicamente a segmentação de fluxos de bytes brutos com base na compressão, resultando em ganhos de desempenho superiores em comparação com abordagens tradicionais.

Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard + 3 more2026-03-05🤖 cs.LG

Belief-Sim: Towards Belief-Driven Simulation of Demographic Misinformation Susceptibility

O artigo apresenta o BeliefSim, um framework que utiliza perfis de crenças demográficas para simular com alta precisão a suscetibilidade a desinformação em diferentes grupos populacionais, demonstrando que as crenças subjacentes são um fator determinante nesse processo.

Angana Borah, Zohaib Khan, Rada Mihalcea + 1 more2026-03-05🤖 cs.AI

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

O artigo apresenta o LX Topic, um novo método de modelagem de tópicos que integra um modelo de linguagem grande em um ciclo de refinamento para superar as limitações dos modelos existentes, oferecendo variáveis de pesquisa de negócios mais interpretáveis, estáveis e calibradas para análise empírica.

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

O artigo propõe o LIGRAM, um modelo hierárquico de grafos heterogêneos combinado com aprendizado contrastivo semântico, que supera as limitações dos métodos existentes ao incorporar características linguísticas específicas do coreano para melhorar a classificação de textos curtos.

JaeGeon Yoo, Byoungwook Kim, Yeongwook Yang + 1 more2026-03-05💬 cs.CL

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

O artigo apresenta o MIND, um framework unificado de aprendizado por reforço para consultas psiquiátricas que utiliza um banco de raciocínio fundamentado em critérios clínicos e recompensas de processo baseadas em rubricas para superar a ambiguidade dos sintomas e otimizar tanto a investigação quanto o diagnóstico diferencial.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

Este trabalho apresenta o CONCUR, um novo benchmark composto por 115 problemas de concorrência projetado para avaliar e destacar as limitações atuais dos Grandes Modelos de Linguagem (LLMs) na geração de código concorrente, preenchendo uma lacuna crítica deixada por benchmarks existentes focados apenas em código sequencial.

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

Order Is Not Layout: Order-to-Space Bias in Image Generation

Este artigo identifica e quantifica o viés "Ordem-Espaço" (OTS) em modelos de geração de imagens, demonstrando que a ordem de menção das entidades no texto influencia indevidamente o layout espacial, e propõe estratégias de intervenção que mitigam esse problema sem comprometer a qualidade da geração.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement

O artigo apresenta o ErrorLLM, um framework que aprimora a geração de SQL a partir de texto ao modelar explicitamente erros sintáticos e semânticos por meio de tokens dedicados e representações estruturais, superando as limitações de auto-correção e auto-depuragem existentes para refinar consultas SQL com maior precisão.

Zijin Hong, Hao Chen, Zheng Yuan + 6 more2026-03-05💬 cs.CL

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

O artigo apresenta o COREA, um sistema que otimiza o custo e a precisão em tarefas de raciocínio complexo ao encadear um modelo de linguagem pequeno (SLM) com um grande (LLM), utilizando um algoritmo de aprendizado por reforço para calibrar a confiança do SLM e direcionar apenas as questões mais difíceis para o modelo maior, reduzindo significativamente os custos com uma perda mínima de desempenho.

Chuang Zhang, Zizhen Zhu, Yihao Wei + 5 more2026-03-05🤖 cs.AI

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

O artigo apresenta o MOOSE-Star, um quadro unificado que supera a intratabilidade matemática do treinamento direto para descoberta científica ao reduzir a complexidade de exponencial para logarítmica através de tarefas decompostas, busca hierárquica orientada por motivação e composição limitada, apoiado pelo novo conjunto de dados TOMATO-Star.

Zonglin Yang, Lidong Bing2026-03-05🤖 cs.LG

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Este trabalho introduz a técnica de "Estrutura do Pensamento" (SoT) para guiar modelos na construção de estruturas intermediárias e apresenta o T2S-Bench, o primeiro benchmark abrangente para avaliar e aprimorar a capacidade de conversão de texto em estrutura, demonstrando ganhos significativos de desempenho em diversas tarefas de processamento de linguagem.

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

O artigo apresenta o SWE-CI, o primeiro benchmark em nível de repositório baseado no ciclo de Integração Contínua, que avalia a capacidade de agentes de LLM em manter a qualidade do código ao longo de evoluções complexas e de longo prazo, superando as limitações das abordagens estáticas de correção única.

Jialong Chen, Xander Xu, Hu Wei + 2 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

Este artigo demonstra que prompts adversarialmente otimizados podem induzir modelos de linguagem a "sandbagging" (subdesempenho estratégico) ao explorarem a consciência de avaliação, causando degradações drásticas no desempenho em tarefas específicas e revelando que essa vulnerabilidade é governada pela estrutura da tarefa e por um raciocínio causal de avaliação, e não apenas pela força do prompt.

Maheep Chaudhary2026-03-05🤖 cs.AI

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

Este artigo propõe o método de Alinhamento Semântico Passo a Passo (SSA), que utiliza um domínio pseudo-fonte como uma ponte semântica corrigida por universais acessíveis e aprimorada por módulos de agregação hierárquica e aprendizado complementar, para superar as limitações de adaptação em cenários de teste sem dados de origem ou rótulos, alcançando ganhos significativos em tarefas como segmentação semântica e classificação de imagens.

Xizhong Yang, Huiming Wang, Ning Xu + 1 more2026-03-05💬 cs.CL

← Anterior Próximo →