Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artigo propõe um novo método para segmentação de instâncias camufladas em vocabulário aberto, utilizando técnicas de difusão texto-para-imagem para aprender representações visuais e textuais multiescala que superam as limitações atuais na identificação de objetos que se fundem ao fundo, abrindo caminho para aplicações em vigilância, monitoramento da vida selvagem e reconhecimento militar.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Este trabalho propõe um sistema inovador de processamento de consultas semânticas que integra Modelos de Linguagem de Grande Escala (LLMs) ao Grafo de Conhecimento Acadêmico da ANU, utilizando o Modelo de Documento Profundo (DDM) e o Processamento de Consultas Aprimorado por KG (KGQP) para superar as limitações das abordagens tradicionais e permitir a recuperação precisa e eficiente de informações detalhadas sobre a pesquisa em Ciência da Computação.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Este estudo demonstra que modelos de linguagem neural aprendem as restrições de passivação no inglês a partir de evidências presentes nos dados de treinamento, sendo que tanto a frequência de uso (entrenchment) quanto a semântica (afetação) contribuem de forma independente para essas restrições, validando a manipulação de dados de treinamento como método eficaz para investigar a aquisição da linguagem.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

O artigo apresenta o modelo formal N2M-RSI, que demonstra como agentes de IA que utilizam suas próprias saídas como dados de treinamento podem atingir um crescimento ilimitado de complexidade ao ultrapassar um limiar de integração de informação, unificando conceitos como auto-prompting e autorreferência godeliana enquanto se estende naturalmente a enxames de agentes.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Este artigo apresenta o PubHealthBench, um novo benchmark com mais de 8000 perguntas derivadas de diretrizes do governo do Reino Unido para avaliar o conhecimento de modelos de linguagem em saúde pública, revelando que, embora os modelos proprietários mais recentes superem os humanos em testes de múltipla escolha, seu desempenho em respostas livres permanece abaixo do ideal, indicando a necessidade de salvaguardas adicionais.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Este artigo propõe o MoB (Multi-Objective Balanced Covering), um método de poda de tokens visuais que reformula o problema como uma cobertura bi-objetiva com limites de erro prováveis, permitindo um equilíbrio ótimo entre alinhamento de prompts e preservação visual que mantém a performance de modelos MLLM avançados com uma redução drástica no número de tokens.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

O artigo apresenta o R1-Code-Interpreter, um modelo de linguagem treinado com aprendizado supervisionado e reforço multiestágio que supera os limites de tarefas heterogêneas ao priorizar amostras com maior potencial de melhoria, alcançando desempenho superior ao do GPT-4o em tarefas de raciocínio e planejamento com execução de código.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Este artigo propõe a Calibração Supervisionada (SC), uma nova estrutura baseada em minimização de perda que supera as limitações dos métodos de calibração existentes em Aprendizado em Contexto (ICL) ao aprender transformações afins otimizadas para corrigir vieses sistemáticos e alterar a orientação das fronteiras de decisão de Grandes Modelos de Linguagem, alcançando desempenho superior em diversos conjuntos de dados e modelos.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Este trabalho investiga como modelos de preferência em linguagem superestimam características idiossincráticas como comprimento e jargão devido a artefatos nos dados de treinamento, propondo uma técnica de aumento de dados com contrafactuais que reduz significativamente essa miscalibração sem comprometer o desempenho geral.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

O artigo apresenta o CounselBench, um benchmark em larga escala desenvolvido com 100 profissionais de saúde mental para avaliar e testar a segurança e a qualidade de modelos de linguagem em cenários realistas de perguntas e respostas sobre saúde mental, revelando falhas críticas como riscos de segurança e a superestimação sistemática desses modelos por juízes automatizados.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Este artigo propõe um método de viés contextual que utiliza correções de substituição feitas pelos usuários durante a inferência para resolver falhas no reconhecimento de palavras com discrepância entre pronúncia e ortografia, alcançando uma melhoria relativa de 22% a 34% na taxa de erro dessas palavras sem comprometer o desempenho geral do sistema.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG