cs.CL artigos | Gist.Science

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Este estudo demonstra que a aplicação de resolução de coreferência em sistemas de Geração Aumentada por Recuperação (RAG) melhora a eficácia da recuperação e o desempenho em tarefas de perguntas e respostas, especialmente ao utilizar pooling médio e ao beneficiar modelos menores que possuem capacidade limitada para lidar com ambiguidades referenciais.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Este estudo utiliza técnicas de interpretabilidade para demonstrar que a generalização de tarefas em modelos de linguagem é impulsionada por um mecanismo de "indução de função" reutilizável e composto por múltiplos cabeçalhos de atenção, que permite a aprendizagem de padrões abstratos como a adição com desvio de um.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

Este artigo apresenta o primeiro benchmark abrangente multilíngue para avaliação de detoxificação de texto em nove idiomas, demonstrando que métricas propostas superam as abordagens de base na correlação com julgamentos humanos e oferecendo diretrizes para pipelines de avaliação robustos.

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

O artigo apresenta o Text2VLM, uma nova metodologia que adapta conjuntos de dados apenas textuais para formatos multimodais a fim de avaliar e revelar vulnerabilidades de modelos de linguagem visual (VLMs) a ataques de injeção de prompts tipográficos, destacando a necessidade de mecanismos de segurança mais robustos para sua implantação segura.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

O artigo apresenta o WebDS, o primeiro benchmark de ponta a ponta para ciência de dados baseada na web, que avalia a capacidade de agentes de IA em realizar tarefas complexas e multietapas em diversos sites, revelando uma lacuna significativa entre o desempenho atual dos modelos de linguagem e o dos humanos.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

O artigo propõe o SEVADE, um novo framework de análise multiagente autoevolutiva com avaliação desacoplada que utiliza um motor de raciocínio dinâmico e um adjudicador de justificativas separado para superar as limitações de alucinação e precisão na detecção de sarcasmo, alcançando desempenho superior ao estado da arte em quatro conjuntos de dados de referência.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

O artigo apresenta o ObfusQAte, um novo framework pioneiro que avalia a robustez de Modelos de Linguagem de Grande Escala (LLMs) em tarefas de resposta a perguntas factuais sob níveis variados de obstrução linguística, revelando que esses modelos tendem a falhar ou alucinar quando confrontados com nuances como indirection de entidades nomeadas, distratores e sobrecarga contextual.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

O artigo apresenta o MultiWikiQA, um novo benchmark de compreensão de leitura com mais de 1,2 milhão de amostras em 306 idiomas, gerado a partir de artigos da Wikipedia e avaliado quanto à fluidez e dificuldade por humanos e modelos de linguagem.

Dan Saattrup Smart2026-03-05💬 cs.CL

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

O artigo propõe um framework leve de poda de tokens que filtra regiões de fundo não informativas e refina áreas de texto fragmentado em imagens de documentos, reduzindo significativamente os custos computacionais dos modelos visão-linguagem sem comprometer a precisão na compreensão de documentos.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

O artigo apresenta o método de raciocínio State-aware Reasoning (StaR), que supera a dificuldade de agentes multimodais em executar instruções de alternância (toggle) em interfaces gráficas ao identificar o estado atual, melhorando a precisão dessas tarefas em mais de 30% e elevando o desempenho geral em benchmarks de agentes.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework

Este artigo propõe o Contextualized Argument Appraisal Framework, um novo modelo que integra variáveis de avaliação cognitiva e características do remetente e receptor para analisar a persuasividade de argumentos, validado através do corpus ContArgA de 4000 anotações que demonstram a correlação entre emoções, familiaridade e a percepção de convencimento.

Lynn Greschner, Sabine Weber, Roman Klinger2026-03-05💬 cs.CL

Non-Collaborative User Simulators for Tool Agents

Este artigo propõe um novo simulador de usuários não colaborativos que replica comportamentos desafiadores do mundo real, como desvios de assunto e impaciência, demonstrando que os agentes de ferramentas atuais falham sob essas condições e destacando a necessidade de melhorar sua robustez.

Jeonghoon Shim, Woojung Song, Cheyon Jin + 2 more2026-03-05💬 cs.CL

Towards Personalized Deep Research: Benchmarks and Evaluations

Este trabalho apresenta o PDR-Bench, o primeiro benchmark para avaliar agentes de pesquisa profunda personalizados, combinando tarefas diversificadas com perfis de usuários autênticos e propondo o framework PQR para medir alinhamento, qualidade e confiabilidade factual.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

O artigo apresenta o GraphMERT, um modelo gráfico eficiente e escalável que supera grandes modelos de linguagem na geração de bases de conhecimento confiáveis, factuais e ontologicamente consistentes a partir de textos não estruturados, estabelecendo um novo padrão em arquiteturas neurosimbólicas.

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Este trabalho propõe um novo quadro geométrico que modela o raciocínio de grandes modelos de linguagem como fluxos suaves no espaço de representações, demonstrando que o treinamento por previsão de próximo token permite a internalização de invariantes lógicos como geometria de ordem superior e desafia a visão de que esses modelos são meros "papagaios estocásticos".

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

O artigo apresenta o WeightLens e o CircuitLens, dois métodos complementares que superam as limitações das análises baseadas apenas em ativações ao interpretar características diretamente a partir dos pesos e capturar dinâmicas de circuitos, permitindo uma análise mecânica escalável e robusta de redes neurais.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

O artigo apresenta o COGS, um framework de síntese de dados que aprimora a capacidade de raciocínio de modelos de linguagem multimídia em domínios com poucas anotações, como gráficos e documentos, decompondo perguntas em fatores primitivos para gerar conjuntos de dados sintéticos que permitem treinamento com recompensas de processo em nível de fator.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Annotation-Efficient Universal Honesty Alignment

O artigo apresenta o EliCal, um framework de duas etapas que alinha a honestidade de modelos de linguagem de forma eficiente em anotações, combinando autoconsistência barata com um pequeno conjunto de anotações de correção, e libera o benchmark HonestyBench para validar que essa abordagem atinge alinhamento quase ótimo com apenas 0,18% dos dados supervisionados completos.

Shiyu Ni, Keping Bi, Jiafeng Guo + 4 more2026-03-05💬 cs.CL

Citation Failure: Definition, Analysis and Efficient Mitigation

Este trabalho propõe o benchmark CITECONTROL para analisar e o framework CITENTION para mitigar eficientemente falhas de citação em sistemas RAG baseados em LLM, distinguindo-as de falhas na resposta e demonstrando melhorias significativas ao combinar métodos generativos, baseados em atenção e em recuperação.

Jan Buchmann, Iryna Gurevych2026-03-05💬 cs.CL

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

O artigo apresenta o framework REVISION, que integra mineração de intenções implícitas offline e raciocínio online via modelos de linguagem para otimizar sistemas de busca visual no e-commerce, reduzindo significativamente a taxa de cliques nulos ao alinhar as respostas do sistema às necessidades diversificadas dos usuários.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

← Anterior Próximo →