Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Este artigo propõe o uso de primitivas de Gabor, que modulam envelopes gaussianos para representar frequências espaciais arbitrárias, combinadas com uma decomposição temporal de baixo posto, para reconstruir imagens de ressonância magnética cardíaca acelerada com maior eficiência e interpretabilidade física do que métodos existentes.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Este artigo apresenta um novo framework de inpainting longitudinal baseado em modelos de difusão que utiliza contexto temporal e atenção a regiões específicas para reparar lesões em ressonâncias magnéticas cerebrais com alta fidelidade perceptual, estabilidade temporal e eficiência computacional, superando significativamente os métodos existentes.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

O artigo apresenta o MultiHaystack, o primeiro benchmark de grande escala projetado para avaliar a recuperação e o raciocínio multimodais em corpora heterogêneos contendo mais de 46.000 documentos, imagens e vídeos, revelando que o desempenho dos modelos de linguagem multimodais cai drasticamente quando exigidos a localizar evidências em meio a grandes conjuntos de dados, em vez de receberem as informações diretamente.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

O artigo apresenta o Any2Full, um framework de uma única etapa e agnóstico a padrões que reformula a conclusão de profundidade como uma adaptação de escala baseada em prompts de um modelo pré-treinado de estimativa de profundidade monocromática, superando métodos existentes em robustez e eficiência ao eliminar a necessidade de alinhamento explícito em duas etapas.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

Este artigo apresenta um pipeline automatizado que converte o conjunto de treinamento do ImageNet em um dataset multilabel sem anotações humanas, utilizando descoberta de objetos auto-supervisionada para gerar rótulos que melhoram significativamente a precisão de classificação e a transferência de aprendizado em comparação com o esquema de rótulo único tradicional.

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

O artigo apresenta o LayerBind, um método sem treinamento e plug-and-play para Transformers de Difusão que permite controle preciso de layout regional e ordem de oclusão na geração de imagens a partir de texto, utilizando inicialização de instâncias em camadas e "enfermagem" semântica para garantir flexibilidade e qualidade.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

O artigo apresenta o BM25-V, um método de recuperação de imagens que aplica a pontuação Okapi BM25 a ativações esparsas de "palavras visuais" derivadas de um Autoencoder Esparsos (SAE) em features de Vision Transformers, oferecendo uma abordagem eficiente, interpretável e de alta precisão que rivaliza com métodos densos ao utilizar um índice invertido para selecionar candidatos e um reordenamento posterior.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

Este artigo apresenta um framework diagnóstico espectral que revela que a consistência estrutural espectral, e não o aprimoramento de detalhes espaciais, é o fator determinante para a qualidade da reconstrução 3D em pipelines de 2D para 3D, demonstrando que métodos clássicos de interpolação frequentemente superam upsamplers aprendíveis nessa tarefa.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

O artigo apresenta o EventGeM, um pipeline state-of-the-art para reconhecimento visual de lugares baseado em eventos que combina correspondência global e local de características com estimativa de profundidade para alcançar localização precisa em tempo real em diversas condições de iluminação e plataformas robóticas.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Este trabalho propõe uma arquitetura unificada e fisicamente consistente para processamento conjunto de imagens e parâmetros de Stokes, que supera as limitações de métodos existentes ao alcançar desempenho de ponta em diversas tarefas de restauração de imagens polarimétricas degradadas (como ruído, desfoque e artefatos de mosaico) sem a necessidade de redes específicas para cada tipo de degradação.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs