What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Este estudo investiga as origens do viés de gênero em modelos de tradução automática, utilizando explicações contrastivas para identificar quais palavras do texto em inglês desencadeiam escolhas de gênero específicas em alemão e espanhol, demonstrando uma sobreposição significativa entre as atribuições do modelo e as percepções humanas.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

O artigo propõe o NRR-Core, um novo quadro computacional que desafia as limitações arquitetônicas atuais da IA ao rejeitar a resolução prematura de ambiguidades, mantendo múltiplas interpretações coexistentes através de princípios como não-identidade e rastreamento de identidade contextual para preservar a flexibilidade interpretativa até a chegada de informações suficientes.

Kei Saito2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

O artigo apresenta o DevRev-Search, um benchmark para recuperação de passagens em suporte técnico construído via pipeline automatizado, e propõe uma estratégia de adaptação que preserva o índice ao fine-tunar apenas o codificador de consultas, permitindo a evolução eficiente de sistemas de busca multi-tenant sem a necessidade de reindexação completa.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Este artigo propõe um paradigma de aprendizado pós-treinamento que utiliza grafos de conhecimento como modelos de recompensa implícitos para fundamentar modelos de linguagem em fatos axiomáticos, permitindo que um modelo de 14B generalize de raciocínios de curto alcance para tarefas complexas de múltiplos saltos no domínio médico, superando sistemas fronteira significativamente maiores.

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed 🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Este artigo apresenta o primeiro estudo empírico sobre o treinamento de Grandes Modelos de Linguagem para abster-se de responder em tarefas de QA temporal, demonstrando que uma abordagem combinando raciocínio passo a passo e Aprendizado por Reforço supera modelos de ponta como o GPT-4o e mitiga a superconfiança, ao mesmo tempo em que revela que pistas de raciocínio implícitas oferecem benefícios limitados.

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

Rewards as Labels: Revisiting RLVR from a Classification Perspective

O artigo propõe o framework REAL, que reformula o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) como um problema de classificação ao tratar recompensas como rótulos categóricos em vez de pesos escalares, resolvendo problemas de atribuição de gradiente e superando consistentemente métodos como GRPO e DAPO em benchmarks de raciocínio matemático.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao + 3 more2026-03-05🤖 cs.LG

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Este estudo demonstra que os Modelos de Raciocínio Avançado (LRMs) não superam consistentemente os modelos não dedutivos em tarefas de Teoria da Mente, revelando que o raciocínio lento pode ser prejudicial e que esses modelos frequentemente dependem de atalhos de correspondência de opções em vez de inferência genuína, indicando a necessidade de novas capacidades específicas para o raciocínio social.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Este trabalho apresenta o primeiro estudo de processamento de linguagem natural focado no dialeto Meenzerisch, introduzindo um dicionário digital e demonstrando que os atuais modelos de linguagem de grande escala têm desempenho muito limitado na geração e compreensão desse dialeto alemão, o que evidencia a necessidade urgente de mais recursos e pesquisas para sua preservação.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Este artigo apresenta um novo conjunto de dados em checo para análise de sentimento baseada em aspectos no domínio de restaurantes, enriquecido com termos de opinião, e avalia modelos de linguagem modernos, propondo uma metodologia de tradução e alinhamento de rótulos que melhora o desempenho em cenários multilíngues e de baixa recursos.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Este estudo avalia a sensibilidade a prompts e a consistência de respostas de modelos de linguagem open-source pequenos em cenários clínicos, revelando que a alta consistência não garante precisão e identificando o Llama 3.2 como o modelo mais equilibrado para implantação em ambientes de recursos limitados.

Shravani Hariprasad2026-03-05🤖 cs.AI

Extracting Training Dialogue Data from Large Language Model based Task Bots

Este trabalho investiga os riscos de privacidade em sistemas de diálogo orientados a tarefas baseados em Grandes Modelos de Linguagem (LLMs), propondo e validando novos ataques de extração de dados que exploram a memorização do modelo para recuperar milhares de rótulos de estados de diálogo com alta precisão, ao mesmo tempo que analisa os fatores que influenciam essa memorização e discute estratégias de mitigação.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Este trabalho apresenta um framework de anotação de grafos narrativos que integra princípios de análise de conteúdo qualitativo para reduzir erros e variabilidade humana, validado por meio de um experimento que demonstra como métricas de sobreposição superestimam a confiabilidade e representações localmente restritas melhoram o acordo entre anotadores em narrativas sobre inflação.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Este artigo apresenta um framework de colaboração multiagente baseado no ciclo "Propor-Avaliar-Revisar" e aprendizado por reforço para melhorar a extração de argumentos de eventos em nível de documento em cenários zero-shot, superando as limitações dos métodos existentes ao gerar e refinar dados sintéticos com maior coerência contextual e estrutural.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI