UETrack: A Unified and Efficient Framework for Single Object Tracking

O UETrack é um framework unificado e eficiente para rastreamento de objetos únicos que supera as limitações de métodos existentes ao suportar múltiplos modos (RGB, profundidade, térmico, eventos e linguagem) através de mecanismos inovadores de mistura de especialistas e destilação adaptativa, alcançando um equilíbrio superior entre velocidade e precisão em diversas plataformas de hardware.

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

O artigo apresenta o InterCoG, um novo framework de raciocínio intercalado de cadeia de ancoragem que, combinado com o dataset GroundEdit-45K, permite edições de imagem espacialmente precisas em cenas complexas e multi-entidades ao primeiro deduzir a localização do alvo via texto, depois ancorá-lo visualmente e finalmente reescrever a descrição da edição.

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

O artigo apresenta o Nano-EmoX, um modelo de linguagem multimodal compacto de 2,2 bilhões de parâmetros que, guiado por uma hierarquia cognitiva de três níveis e um framework de treinamento curricular chamado P2E, unifica seis tarefas afetivas fundamentais para superar a lacuna entre percepção e empatia, alcançando desempenho de ponta com alta eficiência.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

O artigo apresenta o HiFi-Inpaint, um novo quadro de inpainting baseado em referência que, através de mecanismos como a Atenção de Melhoria Compartilhada e uma Perda Consciente de Detalhes, supera as limitações existentes na preservação de detalhes de produtos em imagens humano-produto, validado por um novo conjunto de dados de 40 mil amostras.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

O artigo apresenta o TimeGS, um novo framework de previsão de séries temporais que supera as limitações das abordagens baseadas em imagens ao reformular a previsão como renderização 2D, utilizando kernels gaussianos adaptativos e blocos de geração e rasterização para garantir continuidade temporal e modelar com precisão padrões não estacionários complexos.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

Social-JEPA: Emergent Geometric Isomorphism

O artigo "Social-JEPA" demonstra que agentes de visão independentes, treinados sem coordenação para prever observações futuras a partir de diferentes perspectivas, desenvolvem espontaneamente um espaço latente geometricamente alinhado por uma isometria linear aproximada, permitindo a transferência direta de classificadores e a aceleração do aprendizado entre sistemas descentralizados.

Haoran Zhang, Youjin Wang, Yi Duan + 6 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

Este estudo apresenta um framework de verificação multimodal para identificação de animais que, ao combinar um vasto corpus de 1,9 milhão de imagens com descrições textuais sintéticas e uma estratégia de fusão gateada, supera as abordagens unimodais em 11%, alcançando uma precisão Top-1 de 84,28% para o reencontro de pets perdidos.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

O artigo apresenta o HAMMER, um novo framework que utiliza modelos de linguagem multimodal (MLLM) para realizar a ancoragem de affordance 3D baseada em intenções de interação, empregando uma integração cruzada hierárquica e um módulo de elevação geométrica para refinar representações e localizar affordances com precisão, superando métodos existentes em benchmarks públicos e novos.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs