An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Este estudo demonstra que modelos de linguagem de baixo parâmetro (<4B), quando fine-tunados com estratégias de raciocínio centrado em *Chain-of-Thought* e análise de palavras vizinhas, alcançam desempenho comparável ao de modelos de grande porte como o GPT-4-Turbo na tarefa de Desambiguação de Sentido de Palavras, oferecendo uma solução escalável e energeticamente eficiente.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Este artigo apresenta o quebra-cabeça de informação parcial distribuída (DPIP) e um conjunto de dados multimodais correspondente para avaliar a construção de terreno comum sob assimetria epistêmica, demonstrando que os modelos de linguagem atuais têm dificuldades em rastrear tanto o progresso da tarefa quanto os estados de crença em comparação com abordagens baseadas em lógica epistêmica dinâmica.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

O artigo apresenta o FlashAttention-4, uma nova abordagem de co-design de algoritmos e kernel que otimiza a atenção para GPUs Blackwell (como B200 e GB200), superando gargalos de hardware assimétrico através de pipelines assíncronos e técnicas de redução de operações não matriciais, alcançando até 1,3x de velocidade em relação ao cuDNN e implementado inteiramente em CuTe-DSL para compilação significativamente mais rápida.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Este artigo apresenta o NCTB-QA, um grande conjunto de dados e benchmark em bengali para perguntas e respostas educacionais que inclui uma distribuição equilibrada de questões respondíveis e não respondíveis, demonstrando que o ajuste fino de modelos baseados em transformadores melhora significativamente o desempenho em cenários de baixo recurso.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

O artigo apresenta evidências de "teatro de raciocínio" em modelos de IA, onde a confiança na resposta final é decodificável muito antes do modelo revelar sua crença interna, demonstrando que sondas de ativação podem identificar genuína incerteza e permitir uma saída antecipada que reduz significativamente o uso de tokens sem comprometer a precisão.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Este artigo demonstra que as ativações massivas e os sumidouros de atenção, embora frequentemente co-ocorram devido a artefatos arquitetônicos como a configuração pré-norm, desempenham funções distintas e separáveis nos modelos Transformer: as primeiras atuam globalmente como parâmetros implícitos, enquanto os segundos operam localmente para modular a atenção.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artigo propõe um novo método para segmentação de instâncias camufladas em vocabulário aberto, utilizando técnicas de difusão texto-para-imagem para aprender representações visuais e textuais multiescala que superam as limitações atuais na identificação de objetos que se fundem ao fundo, abrindo caminho para aplicações em vigilância, monitoramento da vida selvagem e reconhecimento militar.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Este trabalho propõe um sistema inovador de processamento de consultas semânticas que integra Modelos de Linguagem de Grande Escala (LLMs) ao Grafo de Conhecimento Acadêmico da ANU, utilizando o Modelo de Documento Profundo (DDM) e o Processamento de Consultas Aprimorado por KG (KGQP) para superar as limitações das abordagens tradicionais e permitir a recuperação precisa e eficiente de informações detalhadas sobre a pesquisa em Ciência da Computação.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Este estudo demonstra que modelos de linguagem neural aprendem as restrições de passivação no inglês a partir de evidências presentes nos dados de treinamento, sendo que tanto a frequência de uso (entrenchment) quanto a semântica (afetação) contribuem de forma independente para essas restrições, validando a manipulação de dados de treinamento como método eficaz para investigar a aquisição da linguagem.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL