Unified Medical Image Segmentation with State Space Modeling Snake

O artigo apresenta o Mamba Snake, um novo framework de "snake" profundo baseado em modelagem de espaço de estados que supera os métodos atuais na segmentação unificada de imagens médicas ao integrar modelagem topológica inter-orgânica, refinamento morfológico adaptativo e mecanismos de sinergia de classificação para melhorar a precisão em estruturas heterogêneas.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

O artigo apresenta o π3π^3, uma rede neural feed-forward permutação-equivariante que realiza reconstrução geométrica visual de alta precisão sem depender de uma vista de referência fixa, alcançando desempenho superior em tarefas como estimativa de pose de câmera e reconstrução de mapas de pontos densos.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artigo propõe um framework de aprendizado profundo baseado em Vision Transformer (ViT) que utiliza análise de espaço de características e um índice de confiança para expandir anotações manuais limitadas, permitindo a segmentação precisa de áreas afetadas por desastres em imagens de satélite Sentinel-2 e Formosat-5 para aprimorar produtos de valor agregado emergenciais.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

O artigo apresenta o MIDAR, um modelo substituto de detecção LiDAR que utiliza características de alto nível de simuladores de tráfego microscópicos para gerar percepções realistas com baixo custo computacional, superando as limitações de escalabilidade dos simuladores baseados em motores de jogo e validando sua eficácia tanto em dados sintéticos quanto reais.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

O artigo apresenta o S²Q-VDiT, um framework de quantização pós-treinamento para transformadores de difusão de vídeo que utiliza seleção de dados salientes e destilação de tokens esparsos para alcançar desempenho sem perdas, compressão de 3,9 vezes e aceleração de 1,3 vezes sob quantização W4A6.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

O artigo apresenta o SPEX, o primeiro modelo de linguagem visual multimodal dedicado à extração de cobertura do solo em imagens de sensoriamento remoto espectrais, que supera os métodos existentes ao utilizar um novo conjunto de dados instrucional (SPIE) e estratégias de treinamento específicas para explorar eficazmente informações espectrais e gerar explicações textuais.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Este trabalho apresenta a primeira avaliação de métodos de 3D Gaussian Splatting em imagens de olho de peixe com campo de visão superior a 180°, demonstrando que a reconstrução atinge seu melhor desempenho em 160° e introduzindo uma inicialização baseada em profundidade com UniK3D que supera os desafios de geometria em cenas com distorção extrema, neblina ou céu aberto.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Este artigo apresenta uma estrutura unificada e semanticamente fundamentada para adaptação de domínio em segmentação de imagens médicas, que aprende um manifold probabilístico agnóstico ao domínio para capturar regularidades anatômicas, permitindo adaptação eficaz tanto em cenários com acesso à fonte quanto sem ela, alcançando resultados state-of-the-art em conjuntos de dados cardíacos e abdominais.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

O artigo apresenta o Video-EM, um framework sem treinamento que melhora a compreensão de vídeos longos ao transformar a tarefa de resposta a perguntas em uma construção episódica centrada em eventos, utilizando um agente de memória baseado em LLM para organizar, refinar e consolidar evidências temporais coerentes em uma linha do tempo compacta e confiável.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

O artigo apresenta o UniUGG, o primeiro framework unificado para compreensão e geração de modalidades 3D, que integra um LLM, um decodificador espacial baseado em difusão latente e uma estratégia de aprendizado geométrico-semântico para realizar tarefas avançadas de geração de cenas 3D e perguntas visuais espaciais.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artigo apresenta um framework de estimativa de pose humana 3D baseado em difusão que utiliza uma estratégia de Poda Temporal Hierárquica (HTP) para reduzir drasticamente o custo computacional e acelerar a inferência, mantendo desempenho de ponta ao eliminar dinamicamente tokens de pose redundantes em níveis de quadro e semântico.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

O artigo apresenta o PointSlice, um novo método de representação baseado em fatias que converte nuvens de pontos 3D em dados 2D e utiliza uma Rede de Interação de Fatias (SIN) para alcançar um equilíbrio superior entre precisão e eficiência na detecção de objetos 3D, superando as abordagens tradicionais baseadas em voxels e pilares em velocidade e número de parâmetros com perda mínima de acurácia.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

O artigo apresenta o Traffic-MLLM, um framework de raciocínio multimodal para cenários de trânsito que substitui a recuperação explícita de casos por uma modelagem neural estruturada e regularizada por curiosidade, demonstrando superioridade em benchmarks como SUTD-TrafficQA e DriveQA ao aprender um espaço de casos generalizável diretamente durante o treinamento.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs