cs.CL artigos | Gist.Science

OSCAR: Online Soft Compression And Reranking

O OSCAR é um método inovador de compressão online e reclassificação dependente da consulta que reduz significativamente o custo computacional e acelera a inferência em pipelines de RAG, mantendo a precisão de modelos de linguagem de grande porte sem sobrecarga de armazenamento.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

Este artigo apresenta o \data, um novo conjunto de dados com prompts focados em interações, e o \model, uma abordagem que utiliza Modelos de Linguagem Multimodal para decompor, criticar e refinar a geração de imagens, superando as limitações atuais dos modelos de texto-para-imagem na criação de cenas ricas em interações entre entidades.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

O artigo apresenta o modelo formal N2M-RSI, que demonstra como agentes de IA que utilizam suas próprias saídas como dados de treinamento podem atingir um crescimento ilimitado de complexidade ao ultrapassar um limiar de integração de informação, unificando conceitos como auto-prompting e autorreferência godeliana enquanto se estende naturalmente a enxames de agentes.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Este artigo apresenta o PubHealthBench, um novo benchmark com mais de 8000 perguntas derivadas de diretrizes do governo do Reino Unido para avaliar o conhecimento de modelos de linguagem em saúde pública, revelando que, embora os modelos proprietários mais recentes superem os humanos em testes de múltipla escolha, seu desempenho em respostas livres permanece abaixo do ideal, indicando a necessidade de salvaguardas adicionais.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Este artigo propõe o MoB (Multi-Objective Balanced Covering), um método de poda de tokens visuais que reformula o problema como uma cobertura bi-objetiva com limites de erro prováveis, permitindo um equilíbrio ótimo entre alinhamento de prompts e preservação visual que mantém a performance de modelos MLLM avançados com uma redução drástica no número de tokens.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

O artigo apresenta o R1-Code-Interpreter, um modelo de linguagem treinado com aprendizado supervisionado e reforço multiestágio que supera os limites de tarefas heterogêneas ao priorizar amostras com maior potencial de melhoria, alcançando desempenho superior ao do GPT-4o em tarefas de raciocínio e planejamento com execução de código.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Este artigo propõe a Calibração Supervisionada (SC), uma nova estrutura baseada em minimização de perda que supera as limitações dos métodos de calibração existentes em Aprendizado em Contexto (ICL) ao aprender transformações afins otimizadas para corrigir vieses sistemáticos e alterar a orientação das fronteiras de decisão de Grandes Modelos de Linguagem, alcançando desempenho superior em diversos conjuntos de dados e modelos.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Este trabalho investiga como modelos de preferência em linguagem superestimam características idiossincráticas como comprimento e jargão devido a artefatos nos dados de treinamento, propondo uma técnica de aumento de dados com contrafactuais que reduz significativamente essa miscalibração sem comprometer o desempenho geral.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

O artigo apresenta o CounselBench, um benchmark em larga escala desenvolvido com 100 profissionais de saúde mental para avaliar e testar a segurança e a qualidade de modelos de linguagem em cenários realistas de perguntas e respostas sobre saúde mental, revelando falhas críticas como riscos de segurança e a superestimação sistemática desses modelos por juízes automatizados.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Query-Level Uncertainty in Large Language Models

Este trabalho propõe o "Internal Confidence", um método sem treinamento que detecta incertezas em nível de consulta antes da geração de tokens, permitindo inferência adaptativa mais eficiente e confiável em modelos de linguagem grandes.

Lihu Chen, Gerard de Melo, Fabian M. Suchanek + 1 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Este artigo propõe um método de viés contextual que utiliza correções de substituição feitas pelos usuários durante a inferência para resolver falhas no reconhecimento de palavras com discrepância entre pronúncia e ortografia, alcançando uma melhoria relativa de 22% a 34% na taxa de erro dessas palavras sem comprometer o desempenho geral do sistema.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

O artigo apresenta o RLVER, um novo quadro de aprendizado por reforço que utiliza recompensas emocionais verificáveis de usuários simulados para aprimorar significativamente a inteligência emocional e a empatia de modelos de linguagem, elevando sua pontuação no Sentient-Benchmark de 13,3 para 79,2 sem comprometer suas capacidades cognitivas.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

O artigo apresenta o UQLM, um pacote Python que utiliza técnicas de quantificação de incerteza para detectar alucinações em Grandes Modelos de Linguagem, oferecendo uma solução pronta para uso que gera escores de confiança e melhora a confiabilidade das respostas geradas.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Este estudo demonstra que a aplicação de resolução de coreferência em sistemas de Geração Aumentada por Recuperação (RAG) melhora a eficácia da recuperação e o desempenho em tarefas de perguntas e respostas, especialmente ao utilizar pooling médio e ao beneficiar modelos menores que possuem capacidade limitada para lidar com ambiguidades referenciais.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Este estudo utiliza técnicas de interpretabilidade para demonstrar que a generalização de tarefas em modelos de linguagem é impulsionada por um mecanismo de "indução de função" reutilizável e composto por múltiplos cabeçalhos de atenção, que permite a aprendizagem de padrões abstratos como a adição com desvio de um.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

Este artigo apresenta o primeiro benchmark abrangente multilíngue para avaliação de detoxificação de texto em nove idiomas, demonstrando que métricas propostas superam as abordagens de base na correlação com julgamentos humanos e oferecendo diretrizes para pipelines de avaliação robustos.

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

O artigo apresenta o Text2VLM, uma nova metodologia que adapta conjuntos de dados apenas textuais para formatos multimodais a fim de avaliar e revelar vulnerabilidades de modelos de linguagem visual (VLMs) a ataques de injeção de prompts tipográficos, destacando a necessidade de mecanismos de segurança mais robustos para sua implantação segura.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

O artigo apresenta o WebDS, o primeiro benchmark de ponta a ponta para ciência de dados baseada na web, que avalia a capacidade de agentes de IA em realizar tarefas complexas e multietapas em diversos sites, revelando uma lacuna significativa entre o desempenho atual dos modelos de linguagem e o dos humanos.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

O artigo propõe o SEVADE, um novo framework de análise multiagente autoevolutiva com avaliação desacoplada que utiliza um motor de raciocínio dinâmico e um adjudicador de justificativas separado para superar as limitações de alucinação e precisão na detecção de sarcasmo, alcançando desempenho superior ao estado da arte em quatro conjuntos de dados de referência.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

O artigo apresenta o ObfusQAte, um novo framework pioneiro que avalia a robustez de Modelos de Linguagem de Grande Escala (LLMs) em tarefas de resposta a perguntas factuais sob níveis variados de obstrução linguística, revelando que esses modelos tendem a falhar ou alucinar quando confrontados com nuances como indirection de entidades nomeadas, distratores e sobrecarga contextual.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

← Anterior Próximo →