cs.CL artigos | Gist.Science

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Este artigo apresenta o MuSaG, o primeiro conjunto de dados multimodal em alemão para detecção de sarcasmo, composto por trechos de programas de televisão com anotações humanas alinhadas de texto, áudio e vídeo, e demonstra que, embora os modelos atuais performem melhor com texto, existe uma lacuna significativa em relação à dependência humana de pistas auditivas, motivando o desenvolvimento de modelos mais robustos para cenários realistas.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Este trabalho apresenta o Protocolo de Dados de Agentes (ADP), uma linguagem de representação leve que unifica diversos conjuntos de dados de agentes em um formato padronizado, permitindo o ajuste fino eficaz de modelos de linguagem e alcançando desempenho de ponta em tarefas como codificação, navegação e uso de ferramentas sem necessidade de ajuste específico por domínio.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

O artigo apresenta o CareMedEval, um novo conjunto de dados derivado de exames médicos franceses para avaliar a capacidade de raciocínio crítico e análise fundamentada em artigos científicos de modelos de linguagem, revelando limitações significativas dos modelos atuais em tarefas especializadas de biomedicina.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

Este trabalho apresenta a extração de metáforas de dados em língua holandesa de pacientes com câncer, utilizando grandes modelos de linguagem com estratégias de prompt e validação humana para criar o corpus HealthQuote.NL, visando aprimorar a comunicação clínica e o cuidado personalizado.

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?

Este estudo demonstra que, ao prever a persuasividade de argumentos, os modelos de emoção baseados em avaliações (appraisals) superam os modelos categóricos ao capturar a natureza subjetiva da resposta emocional do receptor.

Lynn Greschner, Meike Bauer, Sabine Weber + 1 more2026-03-05💬 cs.CL

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Este artigo apresenta o desenvolvimento de um Modelo de Linguagem Multimodal (MLLM) robusto para a língua basca, demonstrando que uma pequena proporção de dados multimodais em basco (cerca de 20%) é suficiente para obter bons resultados e que não é necessário utilizar um modelo de linguagem base pré-adaptado ao basco para alcançar esse desempenho.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

O artigo apresenta o Dripper, um framework leve baseado em Small Language Models (SLMs) que reformula a extração de conteúdo principal de páginas web como uma tarefa de rotulagem de sequência, alcançando um equilíbrio superior entre eficiência e precisão ao superar métodos heurísticos e rivalizar com grandes modelos generativos, enquanto fornece um novo benchmark e um corpus pré-treinado de alta qualidade.

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Este estudo investiga as origens do viés de gênero em modelos de tradução automática, utilizando explicações contrastivas para identificar quais palavras do texto em inglês desencadeiam escolhas de gênero específicas em alemão e espanhol, demonstrando uma sobreposição significativa entre as atribuições do modelo e as percepções humanas.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

O artigo propõe o NRR-Core, um novo quadro computacional que desafia as limitações arquitetônicas atuais da IA ao rejeitar a resolução prematura de ambiguidades, mantendo múltiplas interpretações coexistentes através de princípios como não-identidade e rastreamento de identidade contextual para preservar a flexibilidade interpretativa até a chegada de informações suficientes.

Kei Saito2026-03-05🤖 cs.AI

A Systematic Analysis of Biases in Large Language Models

Este estudo analisa sistematicamente os vieses políticos, ideológicos, de aliança, linguísticos e de gênero em quatro grandes modelos de linguagem, revelando que, apesar de alinhados para serem neutros, eles ainda apresentam diversas inclinações e parcialidades.

Xulang Zhang, Rui Mao, Erik Cambria2026-03-05🤖 cs.AI

Generalization of RLVR Using Causal Reasoning as a Testbed

Este estudo demonstra que o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora a generalização em tarefas de raciocínio causal, especialmente em consultas complexas, mas apenas quando aplicado a modelos com competência inicial suficiente para otimizar estratégias de marginalização e reduzir erros de cálculo.

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

O artigo apresenta o DevRev-Search, um benchmark para recuperação de passagens em suporte técnico construído via pipeline automatizado, e propõe uma estratégia de adaptação que preserva o índice ao fine-tunar apenas o codificador de consultas, permitindo a evolução eficiente de sistemas de busca multi-tenant sem a necessidade de reindexação completa.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Este artigo propõe um paradigma de aprendizado pós-treinamento que utiliza grafos de conhecimento como modelos de recompensa implícitos para fundamentar modelos de linguagem em fatos axiomáticos, permitindo que um modelo de 14B generalize de raciocínios de curto alcance para tarefas complexas de múltiplos saltos no domínio médico, superando sistemas fronteira significativamente maiores.

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed🤖 cs.AI

NRR-Phi: Text-to-State Mapping for Ambiguity Preservation in LLM Inference

O artigo apresenta o NRR-Phi, um framework formal de mapeamento texto-para-estado que preserva a multiplicidade interpretativa em entradas ambíguas de modelos de linguagem, evitando o colapso prematuro de significados através de um pipeline híbrido de detecção de conflitos e extração de estados.

Kei Saito2026-03-05🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Este artigo apresenta o primeiro estudo empírico sobre o treinamento de Grandes Modelos de Linguagem para abster-se de responder em tarefas de QA temporal, demonstrando que uma abordagem combinando raciocínio passo a passo e Aprendizado por Reforço supera modelos de ponta como o GPT-4o e mitiga a superconfiança, ao mesmo tempo em que revela que pistas de raciocínio implícitas oferecem benefícios limitados.

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

Rewards as Labels: Revisiting RLVR from a Classification Perspective

O artigo propõe o framework REAL, que reformula o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) como um problema de classificação ao tratar recompensas como rótulos categóricos em vez de pesos escalares, resolvendo problemas de atribuição de gradiente e superando consistentemente métodos como GRPO e DAPO em benchmarks de raciocínio matemático.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao + 3 more2026-03-05🤖 cs.LG

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

O artigo apresenta o SureLock, uma técnica que acelera a decodificação de Modelos de Linguagem com Difusão Mascarada travando tokens já convergidos para reduzir drasticamente o custo computacional sem comprometer a qualidade da geração.

Daisuke Oba, Danushka Bollegala, Masahiro Kaneko + 1 more2026-03-05🤖 cs.LG

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Este estudo demonstra que os Modelos de Raciocínio Avançado (LRMs) não superam consistentemente os modelos não dedutivos em tarefas de Teoria da Mente, revelando que o raciocínio lento pode ser prejudicial e que esses modelos frequentemente dependem de atalhos de correspondência de opções em vez de inferência genuína, indicando a necessidade de novas capacidades específicas para o raciocínio social.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Este trabalho apresenta o primeiro estudo de processamento de linguagem natural focado no dialeto Meenzerisch, introduzindo um dicionário digital e demonstrando que os atuais modelos de linguagem de grande escala têm desempenho muito limitado na geração e compreensão desse dialeto alemão, o que evidencia a necessidade urgente de mais recursos e pesquisas para sua preservação.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Este artigo apresenta um novo conjunto de dados em checo para análise de sentimento baseada em aspectos no domínio de restaurantes, enriquecido com termos de opinião, e avalia modelos de linguagem modernos, propondo uma metodologia de tradução e alinhamento de rótulos que melhora o desempenho em cenários multilíngues e de baixa recursos.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL

← Anterior Próximo →