cs.CV artigos | Gist.Science

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

O artigo apresenta o VeilGen, um modelo generativo não supervisionado que aprende a simular o brilho de lentes (veiling glare) estimando mapas de transmissão e brilho latentes, e o DeVeiler, uma rede de restauração que utiliza esses mapas para remover eficazmente esse tipo de degradação em sistemas ópticos simplificados, superando métodos existentes em qualidade e fidelidade física.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Este artigo apresenta o UAM, uma nova arquitetura unificada que combina mecanismos de atenção e Mamba para criar um backbone multimodal de alto desempenho, alcançando resultados state-of-the-art na classificação de células tumorais e segmentação de imagens médicas.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

O artigo apresenta o EgoCogNav, um framework de navegação egocêntrica multimodal que prevê incerteza percebida como estado latente para antecipar trajetórias e movimentos da cabeça, apoiado pelo novo conjunto de dados CEN que captura comportamentos de navegação em cenários reais.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

O artigo apresenta o SyncMV4D, um modelo pioneiro que gera simultaneamente vídeos multi-visão e movimentos 4D sincronizados para interações mão-objeto, unindo priores visuais, dinâmicas de movimento e geometria multi-visão para superar as limitações de métodos atuais em realismo e consistência geométrica.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

O artigo apresenta o ReInversion, um método de edição de imagem sem treinamento que utiliza um processo de inversão reversível de duas etapas e uma estratégia de desruído seletivo guiado por máscara para alcançar desempenho superior na edição baseada em exemplos com baixo custo computacional.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Este artigo apresenta um método de registro de imagens de corpo inteiro do UK Biobank que utiliza máscaras de tecido adiposo subcutâneo e muscular para melhorar a precisão da alinhamento espacial em comparação com métodos baseados apenas em intensidade ou existentes.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

O artigo apresenta o UniTS, um modelo generativo unificado de espaço-tempo baseado em fluxo de correspondência que integra tarefas como reconstrução, remoção de nuvens, detecção de mudanças e previsão de séries temporais de sensoriamento remoto, superando modelos especializados existentes ao oferecer geração controlada de alta qualidade sob condições desafiadoras.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Este trabalho propõe uma abordagem baseada em nuvem de pontos para estimativa de pose humana que explora as propriedades espaço-temporais de câmeras de eventos, utilizando módulos de convolução de fatias temporais e representação de nuvem de pontos aprimorada por bordas para melhorar a precisão e a eficiência computacional sem converter os fluxos de eventos em quadros densos.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

O artigo apresenta o DFIR-DETR, um detector baseado em transformers que melhora a detecção de objetos pequenos em cenas complexas através da Aggregação Dinâmica de Conteúdo-Recursos (DCFA), da Pirâmide de Recursos Dinâmica (DFPN) e do Refinamento Iterativo no Domínio da Frequência (FIRC3), alcançando desempenho superior com eficiência computacional reduzida.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Fast-BEV++: Fast by Algorithm, Deployable by Design

O artigo apresenta o Fast-BEV++, um novo framework de percepção em visão de pássaro (BEV) que resolve o compromisso entre precisão e eficiência de implantação através de um design algorítmico otimizado para hardware, alcançando um novo estado da arte no benchmark nuScenes com 0,488 NDS e inferência em tempo real superior a 134 FPS sem depender de kernels personalizados.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Este artigo apresenta um novo framework que combina seleção de subconjuntos submodulares com estimativa de incerteza baseada em gradientes para melhorar a robustez e a fidelidade da explicabilidade visual sob mudanças de distribuição, superando as limitações dos métodos existentes em cenários fora da distribuição (OOD) e também em cenários dentro da distribuição (ID).

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

O artigo apresenta o Photo3D, um framework que aprimora a geração de 3D fotorrealista ao utilizar imagens sintetizadas pelo GPT-4o-Image em um pipeline de síntese multi-visão alinhada à estrutura, superando a falta de dados 3D reais de alta qualidade e alcançando desempenho state-of-the-art na geração de texturas detalhadas e consistentes.

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

Modular Neural Image Signal Processing

Este artigo apresenta um framework modular de processamento de sinal de imagem (ISP) baseado em redes neurais que oferece controle total sobre as etapas intermediárias de renderização, garantindo alta qualidade, escalabilidade e flexibilidade para edição interativa e re-renderização ilimitada de imagens.

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Este artigo apresenta uma abordagem inovadora de Análise Topológica de Dados (TDA) baseada em patches para imagens de tomografia computadorizada (CT), que supera os métodos tradicionais de complexo cúbico e características radiômicas em precisão, sensibilidade e eficiência computacional, sendo disponibilizada através do pacote Python Patch-TDA.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

O artigo apresenta o VTP, um novo framework de pré-treinamento unificado para tokenizadores visuais que, ao otimizar conjuntamente perdas de contraste, auto-supervisionadas e de reconstrução, resolve o problema de escalabilidade ao alinhar a representação do espaço latente com semântica de alto nível, resultando em uma geração de imagens significativamente mais eficiente e de maior qualidade.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

O artigo apresenta o CASA, um modelo que reinvestiga e demonstra a eficácia da atenção cruzada como uma alternativa eficiente e de baixa latência à inserção de tokens para fusão visão-linguagem, superando limitações anteriores de desempenho e custo computacional em aplicações como legendagem de vídeo em tempo real.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Este artigo apresenta um codificador de histórico leve e pré-treinado que comprime longos históricos de vídeo em embeddings curtos, garantindo consistência de conteúdo na geração autoregressiva de vídeo mesmo em ambientes com recursos computacionais limitados.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

O artigo apresenta o Spatial4D-Bench, um benchmark abrangente e de grande escala com cerca de 40.000 pares de perguntas e respostas em 18 tarefas, projetado para avaliar e revelar as limitações atuais dos Modelos de Linguagem Multimodal (MLLMs) na inteligência espacial 4D em comparação com a capacidade humana.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

Bayesian Monocular Depth Refinement via Neural Radiance Fields

O artigo apresenta o MDENeRF, um framework iterativo que refina estimativas de profundidade monoculares utilizando a fusão bayesiana entre um prior global e detalhes de alta frequência derivados da incerteza de campos radiantes neurais (NeRFs), melhorando a precisão geométrica em cenas internas.

Arun Muthukkumar2026-03-09🤖 cs.LG

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

O artigo apresenta o FlyPose, um pipeline leve e robusto para estimativa de pose humana em imagens aéreas que, ao ser treinado em múltiplos conjuntos de dados e acompanhado pelo novo dataset FlyPose-104, alcança melhorias significativas na precisão e executa em tempo real em drones, superando desafios como baixa resolução e oclusão.

Hassaan Farooq, Marvin Brenner, Peter Stütz2026-03-09💻 cs

← Anterior Próximo →