S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

O artigo apresenta o S²Q-VDiT, um framework de quantização pós-treinamento para transformadores de difusão de vídeo que utiliza seleção de dados salientes e destilação de tokens esparsos para alcançar desempenho sem perdas, compressão de 3,9 vezes e aceleração de 1,3 vezes sob quantização W4A6.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

O artigo apresenta o SPEX, o primeiro modelo de linguagem visual multimodal dedicado à extração de cobertura do solo em imagens de sensoriamento remoto espectrais, que supera os métodos existentes ao utilizar um novo conjunto de dados instrucional (SPIE) e estratégias de treinamento específicas para explorar eficazmente informações espectrais e gerar explicações textuais.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Este trabalho apresenta a primeira avaliação de métodos de 3D Gaussian Splatting em imagens de olho de peixe com campo de visão superior a 180°, demonstrando que a reconstrução atinge seu melhor desempenho em 160° e introduzindo uma inicialização baseada em profundidade com UniK3D que supera os desafios de geometria em cenas com distorção extrema, neblina ou céu aberto.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Este artigo apresenta uma estrutura unificada e semanticamente fundamentada para adaptação de domínio em segmentação de imagens médicas, que aprende um manifold probabilístico agnóstico ao domínio para capturar regularidades anatômicas, permitindo adaptação eficaz tanto em cenários com acesso à fonte quanto sem ela, alcançando resultados state-of-the-art em conjuntos de dados cardíacos e abdominais.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

O artigo apresenta o Video-EM, um framework sem treinamento que melhora a compreensão de vídeos longos ao transformar a tarefa de resposta a perguntas em uma construção episódica centrada em eventos, utilizando um agente de memória baseado em LLM para organizar, refinar e consolidar evidências temporais coerentes em uma linha do tempo compacta e confiável.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

O artigo apresenta o UniUGG, o primeiro framework unificado para compreensão e geração de modalidades 3D, que integra um LLM, um decodificador espacial baseado em difusão latente e uma estratégia de aprendizado geométrico-semântico para realizar tarefas avançadas de geração de cenas 3D e perguntas visuais espaciais.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

O artigo apresenta o PhysGM, um modelo feed-forward que, utilizando o conjunto de dados PhysAssets e otimização por preferência direta (DPO), gera simulações 4D físicas de alta fidelidade a partir de uma única imagem em apenas um minuto, superando as limitações de métodos anteriores que dependem de otimização lenta e por cena.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artigo apresenta um framework de estimativa de pose humana 3D baseado em difusão que utiliza uma estratégia de Poda Temporal Hierárquica (HTP) para reduzir drasticamente o custo computacional e acelerar a inferência, mantendo desempenho de ponta ao eliminar dinamicamente tokens de pose redundantes em níveis de quadro e semântico.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

O artigo apresenta o PointSlice, um novo método de representação baseado em fatias que converte nuvens de pontos 3D em dados 2D e utiliza uma Rede de Interação de Fatias (SIN) para alcançar um equilíbrio superior entre precisão e eficiência na detecção de objetos 3D, superando as abordagens tradicionais baseadas em voxels e pilares em velocidade e número de parâmetros com perda mínima de acurácia.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

O artigo apresenta o AmphiKey, um protocolo híbrido pós-quântico e clássico para redes inteligentes que oferece dois modos operacionais distintos — um autenticado com não-repúdio e outro com autenticação negável —, garantindo segurança robusta e desempenho eficiente em dispositivos heterogêneos, desde servidores potentes até clientes com recursos limitados.

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

O artigo apresenta o Traffic-MLLM, um framework de raciocínio multimodal para cenários de trânsito que substitui a recuperação explícita de casos por uma modelagem neural estruturada e regularizada por curiosidade, demonstrando superioridade em benchmarks como SUTD-TrafficQA e DriveQA ao aprender um espaço de casos generalizável diretamente durante o treinamento.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

O artigo apresenta o ActivePose, um pipeline de estimativa ativa de pose 6D que integra Modelos de Linguagem e Visão (VLM) com "imaginação robótica" e um módulo de rastreamento baseado em difusão para detectar e resolver ambiguidades em tempo real, garantindo visibilidade e precisão na manipulação robótica.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artigo apresenta a Cumulative Consensus Score (CCS), uma métrica de avaliação sem rótulos e agnóstica a modelos que utiliza consistência espacial em dados aumentados para monitorar a confiabilidade de detectores de objetos em cenários de implantação real, demonstrando alta concordância com métricas tradicionais baseadas em ground-truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Este artigo apresenta o WHU-STree, um novo conjunto de dados de referência multimodal e rico em anotações, coletado em duas cidades distintas com nuvens de pontos e imagens de alta resolução, projetado para superar as limitações dos métodos tradicionais e facilitar a automatização de inventários urbanos de árvores através da fusão de dados e aprendizado de modelos para diversas tarefas de gestão de ativos.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs