Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Este artigo apresenta o hPGA-DP, uma nova política de difusão híbrida que incorpora a Álgebra Geométrica Projetiva (PGA) na arquitetura da rede para melhorar a eficiência do treinamento e o desempenho em tarefas de manipulação robótica, superando métodos convencionais ao reduzir a redundância no aprendizado de conceitos espaciais fundamentais.

Xiatao Sun, Yuxuan Wang, Shuo Yang, Yinxing Chen, Daniel Rakita2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

O artigo apresenta o Mamba Snake, um novo framework de "snake" profundo baseado em modelagem de espaço de estados que supera os métodos atuais na segmentação unificada de imagens médicas ao integrar modelagem topológica inter-orgânica, refinamento morfológico adaptativo e mecanismos de sinergia de classificação para melhorar a precisão em estruturas heterogêneas.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

O artigo apresenta o π3π^3, uma rede neural feed-forward permutação-equivariante que realiza reconstrução geométrica visual de alta precisão sem depender de uma vista de referência fixa, alcançando desempenho superior em tarefas como estimativa de pose de câmera e reconstrução de mapas de pontos densos.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artigo propõe um framework de aprendizado profundo baseado em Vision Transformer (ViT) que utiliza análise de espaço de características e um índice de confiança para expandir anotações manuais limitadas, permitindo a segmentação precisa de áreas afetadas por desastres em imagens de satélite Sentinel-2 e Formosat-5 para aprimorar produtos de valor agregado emergenciais.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs

O artigo apresenta o BrownoutServe, um novo framework de inferência para modelos LLM baseados em MoE que otimiza a eficiência e mantém a confiabilidade sob cargas de trabalho explosivas, utilizando "expertos unidos" para reduzir a latência e um mecanismo de "brownout" dinâmico para ajustar o processamento de tokens, resultando em um aumento de até 2,07x no throughput e uma redução de 90,28% nas violações de objetivos de nível de serviço (SLO) em comparação com o vLLM.

Jianmin Hu, Minxian Xu, Kejiang Ye + 1 more2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Este artigo apresenta o C-Koordinator, uma plataforma de código aberto desenvolvida pela Alibaba que utiliza modelos de previsão de interferência baseados em CPI para gerenciar clusters de microsserviços em grande escala e co-localizados, reduzindo significativamente a latência e mitigando a competição por recursos em ambientes heterogêneos.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Este artigo apresenta um novo sensor tátil de rolagem de alta velocidade que integra uma câmera neuromórfica e uma estratégia de fusão bayesiana para realizar inspeção de superfícies grandes com reconstrução 3D de alta resolução, alcançando velocidades de varredura 11 vezes superiores aos métodos contínuos anteriores com erro médio absoluto inferior a 100 micrômetros.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

Dynamic Symbolic Execution for Semantic Difference Analysis of Component and Connector Architectures

Este artigo investiga a aplicação da Execução Simbólica Dinâmica para análise de diferenças semânticas em arquiteturas de componentes e conectores baseadas em modelos MontiArc, demonstrando seu potencial para identificar traços de execução críticos, embora a escalabilidade em sistemas maiores permaneça uma limitação significativa.

Johanna Grahl, Bernhard Rumpe, Max Stachon, Sebastian Stüber2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

O artigo apresenta o MIDAR, um modelo substituto de detecção LiDAR que utiliza características de alto nível de simuladores de tráfego microscópicos para gerar percepções realistas com baixo custo computacional, superando as limitações de escalabilidade dos simuladores baseados em motores de jogo e validando sua eficácia tanto em dados sintéticos quanto reais.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

O artigo apresenta o S²Q-VDiT, um framework de quantização pós-treinamento para transformadores de difusão de vídeo que utiliza seleção de dados salientes e destilação de tokens esparsos para alcançar desempenho sem perdas, compressão de 3,9 vezes e aceleração de 1,3 vezes sob quantização W4A6.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

O artigo apresenta o SPEX, o primeiro modelo de linguagem visual multimodal dedicado à extração de cobertura do solo em imagens de sensoriamento remoto espectrais, que supera os métodos existentes ao utilizar um novo conjunto de dados instrucional (SPIE) e estratégias de treinamento específicas para explorar eficazmente informações espectrais e gerar explicações textuais.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Este trabalho apresenta a primeira avaliação de métodos de 3D Gaussian Splatting em imagens de olho de peixe com campo de visão superior a 180°, demonstrando que a reconstrução atinge seu melhor desempenho em 160° e introduzindo uma inicialização baseada em profundidade com UniK3D que supera os desafios de geometria em cenas com distorção extrema, neblina ou céu aberto.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Este artigo apresenta uma estrutura unificada e semanticamente fundamentada para adaptação de domínio em segmentação de imagens médicas, que aprende um manifold probabilístico agnóstico ao domínio para capturar regularidades anatômicas, permitindo adaptação eficaz tanto em cenários com acesso à fonte quanto sem ela, alcançando resultados state-of-the-art em conjuntos de dados cardíacos e abdominais.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

O artigo apresenta o Video-EM, um framework sem treinamento que melhora a compreensão de vídeos longos ao transformar a tarefa de resposta a perguntas em uma construção episódica centrada em eventos, utilizando um agente de memória baseado em LLM para organizar, refinar e consolidar evidências temporais coerentes em uma linha do tempo compacta e confiável.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

O artigo apresenta o UniUGG, o primeiro framework unificado para compreensão e geração de modalidades 3D, que integra um LLM, um decodificador espacial baseado em difusão latente e uma estratégia de aprendizado geométrico-semântico para realizar tarefas avançadas de geração de cenas 3D e perguntas visuais espaciais.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs