COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

O artigo apresenta o COG, um framework não supervisionado para estimativa de pose 6DoF de objetos novos a partir de uma única referência, que formula a correspondência geométrica como um problema de transporte ótimo consciente de confiança para gerar correspondências suaves e balanceadas, superando as limitações de métodos existentes e alcançando desempenho comparável ou superior a abordagens supervisionadas.

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

M2^2: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

O artigo apresenta o M2^2, um framework livre de treinamento que utiliza um mecanismo de memória dupla, combinando sumarização dinâmica de trajetórias e recuperação de insights, para superar as limitações de tarefas de longo prazo em agentes web, resultando em aumentos significativos nas taxas de sucesso e reduções substanciais no uso de tokens.

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Este trabalho introduz o framework analítico EmbedLens para revelar que os tokens visuais em modelos de linguagem multimodais exibem uma esparsidade semântica significativa, onde apenas cerca de 60% dos tokens "vivos" carregam informações essenciais, demonstrando que a computação visual interna é frequentemente redundante e que a injeção direta desses tokens em camadas intermediárias do LLM é suficiente para tarefas complexas.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

O artigo apresenta o MLLM-4D, um framework inovador que supera as limitações atuais de modelos multimodais na inteligência espaço-temporal 4D ao utilizar um pipeline de curadoria de dados eficiente e uma estratégia de pós-treinamento com GRPO e raciocínio em cadeia especializado, alcançando desempenho de ponta na compreensão e raciocínio de evolução 3D a partir de entradas visuais 2D.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

O artigo apresenta o Vision-TTT, um novo modelo de aprendizado de representação visual que integra a Treinamento no Momento do Teste (TTT) com estratégias bidirecionais e módulos convolucionais para superar a complexidade quadrática dos Transformers, alcançando alta precisão e eficiência computacional superior em tarefas de visão computacional.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

O artigo propõe o TP-Spikformer, um método eficiente e de treinamento livre para poda de tokens em Transformers de Redes Neurais de Espinhos (SNNs) que utiliza um critério heurístico de retenção de informação espaço-temporal e uma estratégia de parada precoce em nível de bloco para reduzir o custo computacional e de armazenamento, mantendo o desempenho competitivo em diversas arquiteturas e tarefas.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Este estudo propõe o modelo MIMD-3DVT, uma nova abordagem baseada em Vision Transformer 3D que integra múltiplas entradas de imagens de ressonância magnética e dados mistos (demográficos e cognitivos) para superar as limitações dos métodos atuais e alcançar uma precisão de 97,14% na classificação da Doença de Alzheimer.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

O artigo propõe o MIDAS, um novo framework de jailbreak para Modelos de Linguagem Multimodais (MLLMs) que contorna mecanismos de segurança ao decompor intenções maliciosas em subunidades dispersas por múltiplas imagens e reconstruí-las gradualmente por meio de raciocínio visual cruzado, alcançando uma taxa de sucesso média de 81,46% em modelos fechados de última geração.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

O artigo apresenta o LangGap, um novo benchmark que expõe a incapacidade dos atuais modelos Visão-Linguagem-Ação de compreender instruções linguísticas diversas e demonstra que, embora a augmentação de dados possa melhorar o desempenho em tarefas específicas, a capacidade de aprendizado desses modelos permanece insuficiente para lidar com a diversidade semântica complexa.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL