From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

O artigo apresenta o C2FMAE, um autoencoder mascarado de coarse-to-fine que resolve a tensão entre aprendizado de semântica global e detalhes locais ao aprender representações visuais hierárquicas através de um decodificador em cascata e um currículo de mascaramento progressivo, resultando em ganhos significativos em tarefas de visão computacional.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

O artigo apresenta o BEACON, um método que supera as limitações de navegação baseada em linguagem em cenários com oclusão ao prever um mapa de calor de affordance em visão de pássaro (BEV) a partir de observações multiview, alcançando uma melhoria significativa de 22,74 pontos percentuais em relação às abordagens de estado da arte baseadas em espaço de imagem.

Xinyu Gao, Gang Chen, Javier Alonso-Mora2026-03-11🤖 cs.AI

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

O artigo apresenta o ReCoSplat, um modelo feed-forward autoregressivo para síntese de novas visões online que utiliza um módulo Render-and-Compare para compensar erros de pose e uma estratégia híbrida de compressão de cache para permitir a reconstrução eficiente de sequências longas, alcançando desempenho state-of-the-art em diversos cenários.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Este artigo demonstra que, em cenários de dados realistas com características correlacionadas, a superposição em redes neurais pode organizar-se de forma a transformar interferências em efeitos construtivos, gerando agrupamentos semânticos e estruturas cíclicas que não são explicadas pelo modelo tradicional de superposição baseado em características não correlacionadas.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

O artigo apresenta o μ\partial\mu, uma abordagem de projeto de ponta a ponta baseada em dados para o design de sistemas ópticos, demonstrando sua eficácia na criação de um microscópio de recuperação de fase totalmente óptico que supera métodos existentes e foi validado experimentalmente.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Este artigo apresenta o PD-REAL, um novo conjunto de dados em larga escala para detecção de anomalias 3D baseado em modelos de Play-Doh, e propõe um método de destilação hierárquica multiescala que integra informações RGB e de profundidade para superar as limitações das abordagens unimodais e melhorar a precisão na detecção de anomalias.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Este artigo propõe três novos conjuntos de teste desafiadores e de alta qualidade (Hadrian, Eclipse e ND-Twins) para avaliar a robustez de algoritmos de reconhecimento facial em variações de atributos e semelhanças entre indivíduos, superando a necessidade de reduzir artificialmente a qualidade das imagens para obter dificuldades comparáveis às existentes.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Este artigo investiga a fase de corrupção observada no ajuste fino de poucos exemplos de Modelos de Difusão, identifica sua causa na distribuição de aprendizado restrita e propõe o uso de Redes Neurais Bayesianas para mitigar esse problema, melhorando a fidelidade, qualidade e diversidade das imagens geradas sem custos adicionais de inferência.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Este artigo propõe um sistema neurosimbólico que aprende a reconstruir imagens médicas a partir de primitivas visuais, resultando em um modelo mais transparente e preciso para o diagnóstico de anomalias em imagens histológicas do que as arquiteturas convencionais de aprendizado profundo.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

O artigo apresenta o Prithvi-EO-2.0, um modelo fundamental de observação da Terra de código aberto e multi-temporal que, treinado em 4,2 milhões de amostras globais, supera seu antecessor e outros modelos concorrentes em diversas tarefas geoespaciais, desde monitoramento de desastres até mapeamento de culturas, graças à sua versatilidade e ao envolvimento contínuo de especialistas.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs