UniPAR: A Unified Framework for Pedestrian Attribute Recognition

O artigo apresenta o UniPAR, um framework unificado baseado em Transformer que supera as limitações do paradigma "um modelo por conjunto de dados" ao permitir o processamento simultâneo de dados heterogêneos (RGB, vídeo e fluxos de eventos) de múltiplas fontes, alcançando desempenho comparável aos métodos especializados e melhorando a generalização em cenários extremos.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Este artigo propõe um quadro adaptativo para Modelos Visão-Linguagem-Ação que, inspirado na cognição humana, classifica dinamicamente a complexidade da tarefa utilizando apenas embeddings visuais para decidir entre executar, raciocinar ou abster-se, otimizando assim o uso de recursos e prevenindo falhas em cenários fora de distribuição.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

O artigo propõe o SSR-GS, uma nova estrutura para a reconstrução de superfícies brilhantes que combina cubemaps pré-filtrados e um módulo IndiASG para modelar reflexões especulares diretas e indiretas, além de utilizar Priors de Geometria Visual para mitigar o impacto de regiões dominadas por reflexões, alcançando desempenho superior na síntese de novas vistas.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

Mario: Multimodal Graph Reasoning with Large Language Models

O artigo apresenta o Mario, um framework unificado que permite o raciocínio em grafos multimodais por meio de modelos de linguagem grandes, superando desafios de consistência e preferência de modalidade através de um design de VLM condicionado ao grafo e de um mecanismo de ajuste de instruções adaptativo, alcançando desempenho superior em tarefas de classificação de nós e previsão de links.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

O artigo apresenta o SPyCer, uma rede semissupervisionada guiada por princípios físicos que utiliza atenção contextual e imagens de satélite para estimar com precisão e coerência física a temperatura do ar próxima à superfície, superando as limitações da distribuição esparsa de sensores terrestres.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Este trabalho apresenta um sistema robótico de triagem têxtil automatizada e acionado por gêmeo digital que integra percepção multimodal e modelos de linguagem visuais (VLMs) para classificar roupas e detectar objetos estranhos em tempo real, demonstrando a viabilidade de soluções escaláveis para reciclagem sustentável em ambientes industriais.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

O artigo apresenta o ICHOR, uma abordagem de aprendizado de representação auto-supervisionada baseada em autoencoders mascarados 3D que, ao ser pré-treinada em um grande conjunto de dados de mapas de fluxo sanguíneo cerebral (CBF) obtidos por marcação de spin arterial (ASL), supera os métodos existentes em tarefas de classificação diagnóstica e previsão de qualidade, superando desafios como variações entre sites e a escassez de dados rotulados.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

O artigo apresenta o Wiki-R1, um framework de aprendizado por reforço com currículo baseado em geração de dados que otimiza o raciocínio multimodal para Resposta a Perguntas Visuais Baseadas em Conhecimento (KB-VQA) ao alinhar distribuições de treinamento com a evolução da capacidade do modelo, alcançando resultados state-of-the-art nos benchmarks Encyclopedic VQA e InfoSeek.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Este estudo demonstra que, para otimizar a detecção de distribuição fora do domínio (OOD) em Vision Transformers, a melhor estratégia é combinar a sondagem de camadas intermediárias com a seleção específica de módulos, utilizando as ativações da rede feedforward sob grandes deslocamentos de distribuição e a saída normalizada da atenção multi-cabeça quando o deslocamento é fraco.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG