Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

O artigo apresenta o VeilGen, um modelo generativo não supervisionado que aprende a simular o brilho de lentes (veiling glare) estimando mapas de transmissão e brilho latentes, e o DeVeiler, uma rede de restauração que utiliza esses mapas para remover eficazmente esse tipo de degradação em sistemas ópticos simplificados, superando métodos existentes em qualidade e fidelidade física.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

O artigo apresenta o SyncMV4D, um modelo pioneiro que gera simultaneamente vídeos multi-visão e movimentos 4D sincronizados para interações mão-objeto, unindo priores visuais, dinâmicas de movimento e geometria multi-visão para superar as limitações de métodos atuais em realismo e consistência geométrica.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

O artigo apresenta o UniTS, um modelo generativo unificado de espaço-tempo baseado em fluxo de correspondência que integra tarefas como reconstrução, remoção de nuvens, detecção de mudanças e previsão de séries temporais de sensoriamento remoto, superando modelos especializados existentes ao oferecer geração controlada de alta qualidade sob condições desafiadoras.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Este trabalho propõe uma abordagem baseada em nuvem de pontos para estimativa de pose humana que explora as propriedades espaço-temporais de câmeras de eventos, utilizando módulos de convolução de fatias temporais e representação de nuvem de pontos aprimorada por bordas para melhorar a precisão e a eficiência computacional sem converter os fluxos de eventos em quadros densos.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

O artigo apresenta o DFIR-DETR, um detector baseado em transformers que melhora a detecção de objetos pequenos em cenas complexas através da Aggregação Dinâmica de Conteúdo-Recursos (DCFA), da Pirâmide de Recursos Dinâmica (DFPN) e do Refinamento Iterativo no Domínio da Frequência (FIRC3), alcançando desempenho superior com eficiência computacional reduzida.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Fast-BEV++: Fast by Algorithm, Deployable by Design

O artigo apresenta o Fast-BEV++, um novo framework de percepção em visão de pássaro (BEV) que resolve o compromisso entre precisão e eficiência de implantação através de um design algorítmico otimizado para hardware, alcançando um novo estado da arte no benchmark nuScenes com 0,488 NDS e inferência em tempo real superior a 134 FPS sem depender de kernels personalizados.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Este artigo apresenta um novo framework que combina seleção de subconjuntos submodulares com estimativa de incerteza baseada em gradientes para melhorar a robustez e a fidelidade da explicabilidade visual sob mudanças de distribuição, superando as limitações dos métodos existentes em cenários fora da distribuição (OOD) e também em cenários dentro da distribuição (ID).

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

O artigo apresenta o Photo3D, um framework que aprimora a geração de 3D fotorrealista ao utilizar imagens sintetizadas pelo GPT-4o-Image em um pipeline de síntese multi-visão alinhada à estrutura, superando a falta de dados 3D reais de alta qualidade e alcançando desempenho state-of-the-art na geração de texturas detalhadas e consistentes.

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Este artigo apresenta uma abordagem inovadora de Análise Topológica de Dados (TDA) baseada em patches para imagens de tomografia computadorizada (CT), que supera os métodos tradicionais de complexo cúbico e características radiômicas em precisão, sensibilidade e eficiência computacional, sendo disponibilizada através do pacote Python Patch-TDA.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

O artigo apresenta o VTP, um novo framework de pré-treinamento unificado para tokenizadores visuais que, ao otimizar conjuntamente perdas de contraste, auto-supervisionadas e de reconstrução, resolve o problema de escalabilidade ao alinhar a representação do espaço latente com semântica de alto nível, resultando em uma geração de imagens significativamente mais eficiente e de maior qualidade.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

O artigo apresenta o CASA, um modelo que reinvestiga e demonstra a eficácia da atenção cruzada como uma alternativa eficiente e de baixa latência à inserção de tokens para fusão visão-linguagem, superando limitações anteriores de desempenho e custo computacional em aplicações como legendagem de vídeo em tempo real.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

O artigo apresenta o Spatial4D-Bench, um benchmark abrangente e de grande escala com cerca de 40.000 pares de perguntas e respostas em 18 tarefas, projetado para avaliar e revelar as limitações atuais dos Modelos de Linguagem Multimodal (MLLMs) na inteligência espacial 4D em comparação com a capacidade humana.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs