ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

O artigo apresenta o ViTaPEs, uma arquitetura baseada em transformers que utiliza codificações de posição visotáteis em dois estágios para aprender representações multimodais robustas e generalizáveis, superando os métodos atuais em tarefas de reconhecimento e manipulação robótica sem depender de modelos pré-treinados de visão e linguagem.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Este estudo apresenta um modelo de GAN com penalização de variância, baseado na arquitetura pyramid pix2pix, que traduz imagens de histologia H&E em imagens de imuno-histoquímica (IHC) de alta fidelidade para avaliar a superexpressão de HER2 no câncer de mama, superando os métodos existentes em precisão e oferecendo uma alternativa eficiente e acessível para a oncologia de precisão.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Este artigo apresenta um novo framework em cascata guiado por Modelos de Linguagem e Visão (VLM) para a Segmentação de Objetos Camuflados em Vocabulário Aberto, que utiliza características do VLM como prompts explícitos para o Segment Anything Model (SAM) a fim de melhorar a localização e emprega a saída de segmentação como um prior espacial suave para evitar lacunas de domínio na classificação, superando assim as limitações dos métodos existentes.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

O artigo apresenta o LD-RPS, uma abordagem unificada e sem dados para restauração de imagens que utiliza amostragem recorrente de posterior em um modelo de difusão latente pré-treinado, combinado com um modelo de compreensão multimodal e um módulo leve de alinhamento, superando os métodos atuais ao lidar com diversos tipos de degradação sem necessidade de treinamento supervisionado.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Este artigo demonstra que orientar sistemas de IA através de uma "dieta visual" inspirada no desenvolvimento humano, focada na maturação da acuidade, sensibilidade ao contraste e cor, resulta em modelos de visão artificial mais robustos, que priorizam a forma em vez da textura e apresentam maior resiliência a distorções e ataques adversariais.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Este artigo apresenta a Agregação Adaptativa Baseada em Consultas (QAA), uma técnica inovadora que utiliza consultas aprendidas como códigos de referência para melhorar a capacidade de agregação de informações e superar os vieses específicos de conjuntos de dados, permitindo o treinamento conjunto eficaz de múltiplos conjuntos para reconhecimento visual universal de locais com generalização equilibrada e desempenho superior.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

O artigo apresenta o Mamba Snake, um novo framework de "snake" profundo baseado em modelagem de espaço de estados que supera os métodos atuais na segmentação unificada de imagens médicas ao integrar modelagem topológica inter-orgânica, refinamento morfológico adaptativo e mecanismos de sinergia de classificação para melhorar a precisão em estruturas heterogêneas.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

O artigo apresenta o π3π^3, uma rede neural feed-forward permutação-equivariante que realiza reconstrução geométrica visual de alta precisão sem depender de uma vista de referência fixa, alcançando desempenho superior em tarefas como estimativa de pose de câmera e reconstrução de mapas de pontos densos.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artigo propõe um framework de aprendizado profundo baseado em Vision Transformer (ViT) que utiliza análise de espaço de características e um índice de confiança para expandir anotações manuais limitadas, permitindo a segmentação precisa de áreas afetadas por desastres em imagens de satélite Sentinel-2 e Formosat-5 para aprimorar produtos de valor agregado emergenciais.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

O artigo apresenta o MIDAR, um modelo substituto de detecção LiDAR que utiliza características de alto nível de simuladores de tráfego microscópicos para gerar percepções realistas com baixo custo computacional, superando as limitações de escalabilidade dos simuladores baseados em motores de jogo e validando sua eficácia tanto em dados sintéticos quanto reais.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

O artigo apresenta o S²Q-VDiT, um framework de quantização pós-treinamento para transformadores de difusão de vídeo que utiliza seleção de dados salientes e destilação de tokens esparsos para alcançar desempenho sem perdas, compressão de 3,9 vezes e aceleração de 1,3 vezes sob quantização W4A6.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

O artigo apresenta o SPEX, o primeiro modelo de linguagem visual multimodal dedicado à extração de cobertura do solo em imagens de sensoriamento remoto espectrais, que supera os métodos existentes ao utilizar um novo conjunto de dados instrucional (SPIE) e estratégias de treinamento específicas para explorar eficazmente informações espectrais e gerar explicações textuais.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Este trabalho apresenta a primeira avaliação de métodos de 3D Gaussian Splatting em imagens de olho de peixe com campo de visão superior a 180°, demonstrando que a reconstrução atinge seu melhor desempenho em 160° e introduzindo uma inicialização baseada em profundidade com UniK3D que supera os desafios de geometria em cenas com distorção extrema, neblina ou céu aberto.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Este artigo apresenta uma estrutura unificada e semanticamente fundamentada para adaptação de domínio em segmentação de imagens médicas, que aprende um manifold probabilístico agnóstico ao domínio para capturar regularidades anatômicas, permitindo adaptação eficaz tanto em cenários com acesso à fonte quanto sem ela, alcançando resultados state-of-the-art em conjuntos de dados cardíacos e abdominais.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs