MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

O artigo apresenta o MI-DETR, um detector bio-inspirado que integra explicitamente mapas de movimento e aparência através de um mecanismo celular e de interconexão parvocelular-magnocelular, alcançando desempenho superior na detecção de pequenos alvos infravermelhos em benchmarks padrão sem a necessidade de rótulos ou módulos de alinhamento adicionais.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Este artigo propõe uma teoria formal de atribuições Aumann-Shapley em variedades baseada em fluxos generativos ótimos, que resolve artefatos fora da variedade ao definir um caminho de atribuição canônico como a geodésica de Wasserstein-2 que minimiza a energia cinética, garantindo invariância de reparametrização e superior alinhamento semântico em comparação com métodos existentes.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

O artigo apresenta o GEM-TFL, um framework de localização de falsificações temporais que supera as limitações da supervisão fraca ao integrar otimização EM para atributos latentes, refinamento temporal sem treinamento e um módulo baseado em grafos, alcançando desempenho próximo ao de métodos totalmente supervisionados.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

O artigo apresenta o UniPAR, um framework unificado baseado em Transformer que supera as limitações do paradigma "um modelo por conjunto de dados" ao permitir o processamento simultâneo de dados heterogêneos (RGB, vídeo e fluxos de eventos) de múltiplas fontes, alcançando desempenho comparável aos métodos especializados e melhorando a generalização em cenários extremos.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Este artigo propõe um quadro adaptativo para Modelos Visão-Linguagem-Ação que, inspirado na cognição humana, classifica dinamicamente a complexidade da tarefa utilizando apenas embeddings visuais para decidir entre executar, raciocinar ou abster-se, otimizando assim o uso de recursos e prevenindo falhas em cenários fora de distribuição.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

O artigo propõe o SSR-GS, uma nova estrutura para a reconstrução de superfícies brilhantes que combina cubemaps pré-filtrados e um módulo IndiASG para modelar reflexões especulares diretas e indiretas, além de utilizar Priors de Geometria Visual para mitigar o impacto de regiões dominadas por reflexões, alcançando desempenho superior na síntese de novas vistas.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

Mario: Multimodal Graph Reasoning with Large Language Models

O artigo apresenta o Mario, um framework unificado que permite o raciocínio em grafos multimodais por meio de modelos de linguagem grandes, superando desafios de consistência e preferência de modalidade através de um design de VLM condicionado ao grafo e de um mecanismo de ajuste de instruções adaptativo, alcançando desempenho superior em tarefas de classificação de nós e previsão de links.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

O artigo apresenta o SPyCer, uma rede semissupervisionada guiada por princípios físicos que utiliza atenção contextual e imagens de satélite para estimar com precisão e coerência física a temperatura do ar próxima à superfície, superando as limitações da distribuição esparsa de sensores terrestres.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Este trabalho apresenta um sistema robótico de triagem têxtil automatizada e acionado por gêmeo digital que integra percepção multimodal e modelos de linguagem visuais (VLMs) para classificar roupas e detectar objetos estranhos em tempo real, demonstrando a viabilidade de soluções escaláveis para reciclagem sustentável em ambientes industriais.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

O artigo apresenta o ICHOR, uma abordagem de aprendizado de representação auto-supervisionada baseada em autoencoders mascarados 3D que, ao ser pré-treinada em um grande conjunto de dados de mapas de fluxo sanguíneo cerebral (CBF) obtidos por marcação de spin arterial (ASL), supera os métodos existentes em tarefas de classificação diagnóstica e previsão de qualidade, superando desafios como variações entre sites e a escassez de dados rotulados.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics