Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Este trabalho propõe o framework CFD (Debate Fina-Granular Consciente de Confiança), que utiliza grandes modelos de linguagem open-source para enriquecer automaticamente dados de saúde mental e segurança online, demonstrando que a incorporação de transcrições de debate melhora significativamente o desempenho em tarefas downstream.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Este artigo introduz um mecanismo de direcionamento de ativação para Modelos de Linguagem de Difusão Mascarada (MDLMs) que, ao identificar e aplicar uma direção unidimensional consistente nas ativações do fluxo residual durante a difusão reversa, permite um controle eficiente e robusto do comportamento do modelo (como recusa de segurança) sem necessidade de otimização, superando métodos baseados em prompts e revelando características de acessibilidade e transferência específicas dessa arquitetura.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

O artigo introduz o fenômeno de "arrasto contextual", demonstrando que a presença de tentativas falhas no contexto de modelos de linguagem grandes (LLMs) induz a repetição estrutural de erros, causando quedas significativas de desempenho e levando a uma deterioração em processos de auto-refinamento iterativo que não são totalmente corrigidos por estratégias de mitigação atuais.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

O artigo propõe o RuCL, um novo framework de aprendizado curricular baseado em rubricas estratificadas que otimiza o raciocínio de Modelos de Linguagem Grandes Multimodais ao ajustar dinamicamente os pesos das rubricas conforme a competência do modelo, resultando em ganhos significativos de precisão em benchmarks de raciocínio visual.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

O artigo apresenta o "Super Research", uma nova tarefa e benchmark que avalia a capacidade de modelos de linguagem de responder a questões altamente complexas através de planejamento estruturado, recuperação super ampla e investigação super profunda, utilizando um protocolo de auditoria baseado em grafos para medir a qualidade das pesquisas autônomas.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Este artigo apresenta o uCDCR, um conjunto de dados unificado que consolida diversos corpora de resolução de coreferência entre documentos (CDCR) em inglês, padroniza métricas de avaliação e demonstra que a inclusão de múltiplos domínios melhora a generalização dos modelos, ao mesmo tempo que destaca a necessidade de tratar a coreferência de entidades e eventos como tarefas complexas e distintas.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

O artigo apresenta o ClinConsensus, um novo benchmark em chinês baseado em consenso de especialistas clínicos que avalia modelos de linguagem médica através de casos abertos de complexidade progressiva, introduzindo métricas de consistência e um sistema de dupla avaliação para identificar lacunas críticas na capacidade de planejamento terapêutico e acompanhamento longitudinal.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL