cs.CL artigos | Gist.Science

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

O artigo apresenta o MultiWikiQA, um novo benchmark de compreensão de leitura com mais de 1,2 milhão de amostras em 306 idiomas, gerado a partir de artigos da Wikipedia e avaliado quanto à fluidez e dificuldade por humanos e modelos de linguagem.

Dan Saattrup Smart2026-03-05💬 cs.CL

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

O artigo propõe um framework leve de poda de tokens que filtra regiões de fundo não informativas e refina áreas de texto fragmentado em imagens de documentos, reduzindo significativamente os custos computacionais dos modelos visão-linguagem sem comprometer a precisão na compreensão de documentos.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

O artigo apresenta o método de raciocínio State-aware Reasoning (StaR), que supera a dificuldade de agentes multimodais em executar instruções de alternância (toggle) em interfaces gráficas ao identificar o estado atual, melhorando a precisão dessas tarefas em mais de 30% e elevando o desempenho geral em benchmarks de agentes.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework

Este artigo propõe o Contextualized Argument Appraisal Framework, um novo modelo que integra variáveis de avaliação cognitiva e características do remetente e receptor para analisar a persuasividade de argumentos, validado através do corpus ContArgA de 4000 anotações que demonstram a correlação entre emoções, familiaridade e a percepção de convencimento.

Lynn Greschner, Sabine Weber, Roman Klinger2026-03-05💬 cs.CL

Non-Collaborative User Simulators for Tool Agents

Este artigo propõe um novo simulador de usuários não colaborativos que replica comportamentos desafiadores do mundo real, como desvios de assunto e impaciência, demonstrando que os agentes de ferramentas atuais falham sob essas condições e destacando a necessidade de melhorar sua robustez.

Jeonghoon Shim, Woojung Song, Cheyon Jin + 2 more2026-03-05💬 cs.CL

Towards Personalized Deep Research: Benchmarks and Evaluations

Este trabalho apresenta o PDR-Bench, o primeiro benchmark para avaliar agentes de pesquisa profunda personalizados, combinando tarefas diversificadas com perfis de usuários autênticos e propondo o framework PQR para medir alinhamento, qualidade e confiabilidade factual.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

O artigo apresenta o GraphMERT, um modelo gráfico eficiente e escalável que supera grandes modelos de linguagem na geração de bases de conhecimento confiáveis, factuais e ontologicamente consistentes a partir de textos não estruturados, estabelecendo um novo padrão em arquiteturas neurosimbólicas.

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Este trabalho propõe um novo quadro geométrico que modela o raciocínio de grandes modelos de linguagem como fluxos suaves no espaço de representações, demonstrando que o treinamento por previsão de próximo token permite a internalização de invariantes lógicos como geometria de ordem superior e desafia a visão de que esses modelos são meros "papagaios estocásticos".

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

O artigo apresenta o WeightLens e o CircuitLens, dois métodos complementares que superam as limitações das análises baseadas apenas em ativações ao interpretar características diretamente a partir dos pesos e capturar dinâmicas de circuitos, permitindo uma análise mecânica escalável e robusta de redes neurais.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

O artigo apresenta o COGS, um framework de síntese de dados que aprimora a capacidade de raciocínio de modelos de linguagem multimídia em domínios com poucas anotações, como gráficos e documentos, decompondo perguntas em fatores primitivos para gerar conjuntos de dados sintéticos que permitem treinamento com recompensas de processo em nível de fator.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Annotation-Efficient Universal Honesty Alignment

O artigo apresenta o EliCal, um framework de duas etapas que alinha a honestidade de modelos de linguagem de forma eficiente em anotações, combinando autoconsistência barata com um pequeno conjunto de anotações de correção, e libera o benchmark HonestyBench para validar que essa abordagem atinge alinhamento quase ótimo com apenas 0,18% dos dados supervisionados completos.

Shiyu Ni, Keping Bi, Jiafeng Guo + 4 more2026-03-05💬 cs.CL

Citation Failure: Definition, Analysis and Efficient Mitigation

Este trabalho propõe o benchmark CITECONTROL para analisar e o framework CITENTION para mitigar eficientemente falhas de citação em sistemas RAG baseados em LLM, distinguindo-as de falhas na resposta e demonstrando melhorias significativas ao combinar métodos generativos, baseados em atenção e em recuperação.

Jan Buchmann, Iryna Gurevych2026-03-05💬 cs.CL

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

O artigo apresenta o framework REVISION, que integra mineração de intenções implícitas offline e raciocínio online via modelos de linguagem para otimizar sistemas de busca visual no e-commerce, reduzindo significativamente a taxa de cliques nulos ao alinhar as respostas do sistema às necessidades diversificadas dos usuários.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Este artigo apresenta o MuSaG, o primeiro conjunto de dados multimodal em alemão para detecção de sarcasmo, composto por trechos de programas de televisão com anotações humanas alinhadas de texto, áudio e vídeo, e demonstra que, embora os modelos atuais performem melhor com texto, existe uma lacuna significativa em relação à dependência humana de pistas auditivas, motivando o desenvolvimento de modelos mais robustos para cenários realistas.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Este trabalho apresenta o Protocolo de Dados de Agentes (ADP), uma linguagem de representação leve que unifica diversos conjuntos de dados de agentes em um formato padronizado, permitindo o ajuste fino eficaz de modelos de linguagem e alcançando desempenho de ponta em tarefas como codificação, navegação e uso de ferramentas sem necessidade de ajuste específico por domínio.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

O artigo apresenta o CareMedEval, um novo conjunto de dados derivado de exames médicos franceses para avaliar a capacidade de raciocínio crítico e análise fundamentada em artigos científicos de modelos de linguagem, revelando limitações significativas dos modelos atuais em tarefas especializadas de biomedicina.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

Este trabalho apresenta a extração de metáforas de dados em língua holandesa de pacientes com câncer, utilizando grandes modelos de linguagem com estratégias de prompt e validação humana para criar o corpus HealthQuote.NL, visando aprimorar a comunicação clínica e o cuidado personalizado.

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?

Este estudo demonstra que, ao prever a persuasividade de argumentos, os modelos de emoção baseados em avaliações (appraisals) superam os modelos categóricos ao capturar a natureza subjetiva da resposta emocional do receptor.

Lynn Greschner, Meike Bauer, Sabine Weber + 1 more2026-03-05💬 cs.CL

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Este artigo apresenta o desenvolvimento de um Modelo de Linguagem Multimodal (MLLM) robusto para a língua basca, demonstrando que uma pequena proporção de dados multimodais em basco (cerca de 20%) é suficiente para obter bons resultados e que não é necessário utilizar um modelo de linguagem base pré-adaptado ao basco para alcançar esse desempenho.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

O artigo apresenta o Dripper, um framework leve baseado em Small Language Models (SLMs) que reformula a extração de conteúdo principal de páginas web como uma tarefa de rotulagem de sequência, alcançando um equilíbrio superior entre eficiência e precisão ao superar métodos heurísticos e rivalizar com grandes modelos generativos, enquanto fornece um novo benchmark e um corpus pré-treinado de alta qualidade.

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

← Anterior Próximo →