GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

O artigo apresenta o GTR-Turbo, um método eficiente que utiliza um modelo fundido a partir de checkpoints de treinamento como um "professor gratuito" para orientar o aprendizado por reforço de agentes VLM, eliminando a dependência de modelos proprietários caros enquanto aumenta a precisão e reduz significativamente o tempo e o custo computacional.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Este estudo apresenta um novo framework que combina YOLOv8 e a técnica explicativa Finer-CAM para classificar espécies arbóreas em nuvens de pontos TLS com 96% de precisão, revelando que o modelo utiliza principalmente a copa das árvores para a maioria das espécies, mas recorre ao tronco para diferenciar outras, demonstrando assim a capacidade de interpretar as decisões do modelo e identificar suas limitações.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

O artigo "The Bayesian Geometry of Transformer Attention" demonstra que, em ambientes controlados chamados "túneis de vento bayesianos", os transformadores realizam inferência bayesiana com alta precisão através de um mecanismo geométrico específico envolvendo o alinhamento progressivo de chaves e consultas e uma variedade de valores de baixa dimensão, estabelecendo uma separação arquitetônica clara em relação a MLPs e oferecendo uma base para conectar sistemas pequenos verificáveis a fenômenos de raciocínio em grandes modelos de linguagem.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Este artigo estabelece que o treinamento por entropia cruzada em transformadores induz uma dinâmica de roteamento baseada em vantagens e atualizações de valores ponderadas por responsabilidade, que atuam como um procedimento EM de duas escalas temporais para esculpir geometrias bayesianas de baixa dimensão que sustentam o raciocínio probabilístico em contexto.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Over-Searching in Search-Augmented Large Language Models

Este artigo investiga o problema do "excesso de busca" em modelos de linguagem aumentados por busca, propondo a métrica Tokens Per Correctness (TPC) para avaliar o equilíbrio entre desempenho e custo, identificando fatores que agravam o fenômeno e apresentando estratégias de mitigação e um novo conjunto de dados (OverSearchQA) para pesquisas futuras.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Este estudo apresenta uma Arquitetura Multi-Tenant Segura (SMTA) combinada com um mecanismo inovador de "Queimar-Após-Uso" (BAU) para ambientes de LLM corporativos, demonstrando através de extensos testes que essa abordagem previne eficazmente vazamentos de dados ao garantir isolamento estrito e a destruição automática de contextos de conversação após o uso.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Este artigo propõe um ataque de negação de serviço econômico e furtivo que explora o protocolo MCP para induzir agentes de LLM a cadeias de chamadas de ferramentas excessivamente longas e custosas, aumentando drasticamente o consumo de recursos e custos enquanto evade detecções convencionais.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Este artigo propõe um agente de aprendizado contínuo para o jogo Dark Souls III que, ao representar o combate como um grafo direcionado de cinco habilidades especializadas e treiná-las hierarquicamente, permite a adaptação eficiente a novas fases do jogo através do ajuste seletivo de apenas um subconjunto de habilidades, mantendo a transferência do conhecimento prévio.

Ali Najar2026-03-12🤖 cs.AI

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

O artigo apresenta o MemOCR, um agente multimodal que otimiza o raciocínio de longo prazo sob orçamentos de contexto restritos, convertendo memórias estruturadas em imagens com layout visual adaptativo para priorizar evidências cruciais e comprimir detalhes auxiliares, superando assim as abordagens baseadas em texto.

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang2026-03-12🤖 cs.AI

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Este artigo demonstra teoricamente e valida empiricamente que as alucinações em modelos de linguagem são uma consequência inevitável da otimização de memória sob capacidade limitada, onde a estratégia informacionalmente ótima para testes de associação em dados esparsos exige a atribuição de alta confiança a alguns fatos incorretos como resultado da compressão com perdas.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

O artigo apresenta o DEFT, um gerador de trajetória baseado em difusão que permite a robôs com falhas de atuação concluírem tarefas de manipulação de forma segura e robusta, superando significativamente os métodos clássicos tanto em simulação quanto em cenários do mundo real.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

DMS2F-HAD: A Dual-branch Mamba-based Spatial-Spectral Fusion Network for Hyperspectral Anomaly Detection

O artigo apresenta o DMS2F-HAD, uma nova rede de detecção de anomalias em imagens hiperespectrais baseada em Mamba que combina aprendizado eficiente de características espaciais e espectrais em ramos duplos com um mecanismo de fusão dinâmica, alcançando desempenho superior e maior velocidade de inferência em comparação com métodos existentes.

Aayushma Pant, Lakpa Tamang, Tsz-Kwan Lee + 1 more2026-03-12🤖 cs.AI

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Este artigo propõe o Fine-grained Group Policy Optimization (FGO), um algoritmo de Aprendizado por Reforço que comprime de forma eficiente o raciocínio passo a passo (Chain-of-Thought) de Grandes Modelos de Linguagem, superando limitações de eficiência de dados e colapso de entropia do GRPO sem degradar o desempenho em benchmarks de raciocínio.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}} for Unified Multimodal Large Language Model

O artigo apresenta o UniWeTok, um tokenizador binário unificado com um código de tamanho massivo ($2^{128}$) e uma arquitetura híbrida inovadora que alcança desempenho state-of-the-art em geração e compreensão multimodal com custos computacionais significativamente reduzidos.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang2026-03-12🤖 cs.AI

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning

O artigo apresenta o TikArt, um agente multimodal que estabiliza o raciocínio visual de alta granularidade por meio de um ciclo de "Pensar-Apertura-Observar" e aprendizado por reforço, permitindo a aquisição sequencial de evidências em regiões de interesse para superar as limitações de codificação global de imagens.

Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao2026-03-12🤖 cs.AI