Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artigo apresenta um framework de estimativa de pose humana 3D baseado em difusão que utiliza uma estratégia de Poda Temporal Hierárquica (HTP) para reduzir drasticamente o custo computacional e acelerar a inferência, mantendo desempenho de ponta ao eliminar dinamicamente tokens de pose redundantes em níveis de quadro e semântico.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

O artigo apresenta o PointSlice, um novo método de representação baseado em fatias que converte nuvens de pontos 3D em dados 2D e utiliza uma Rede de Interação de Fatias (SIN) para alcançar um equilíbrio superior entre precisão e eficiência na detecção de objetos 3D, superando as abordagens tradicionais baseadas em voxels e pilares em velocidade e número de parâmetros com perda mínima de acurácia.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

O artigo apresenta o AmphiKey, um protocolo híbrido pós-quântico e clássico para redes inteligentes que oferece dois modos operacionais distintos — um autenticado com não-repúdio e outro com autenticação negável —, garantindo segurança robusta e desempenho eficiente em dispositivos heterogêneos, desde servidores potentes até clientes com recursos limitados.

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

O artigo apresenta o Traffic-MLLM, um framework de raciocínio multimodal para cenários de trânsito que substitui a recuperação explícita de casos por uma modelagem neural estruturada e regularizada por curiosidade, demonstrando superioridade em benchmarks como SUTD-TrafficQA e DriveQA ao aprender um espaço de casos generalizável diretamente durante o treinamento.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

O artigo apresenta o ActivePose, um pipeline de estimativa ativa de pose 6D que integra Modelos de Linguagem e Visão (VLM) com "imaginação robótica" e um módulo de rastreamento baseado em difusão para detectar e resolver ambiguidades em tempo real, garantindo visibilidade e precisão na manipulação robótica.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artigo apresenta a Cumulative Consensus Score (CCS), uma métrica de avaliação sem rótulos e agnóstica a modelos que utiliza consistência espacial em dados aumentados para monitorar a confiabilidade de detectores de objetos em cenários de implantação real, demonstrando alta concordância com métricas tradicionais baseadas em ground-truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Este artigo apresenta o WHU-STree, um novo conjunto de dados de referência multimodal e rico em anotações, coletado em duas cidades distintas com nuvens de pontos e imagens de alta resolução, projetado para superar as limitações dos métodos tradicionais e facilitar a automatização de inventários urbanos de árvores através da fusão de dados e aprendizado de modelos para diversas tarefas de gestão de ativos.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Este artigo apresenta um quadro de aprendizagem por reforço assíncrono com um Módulo de Codificação Temporal que desacopla a percepção do controlo, permitindo que veículos aéreos autónomos naveguem de forma ágil e robusta em ambientes complexos a 100 Hz, superando as limitações de latência e transferindo-se com sucesso da simulação para a realidade.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

O artigo apresenta o GeoAware-VLA, uma abordagem que integra prios geométricos fortes através de um modelo de visão pré-treinado e congelado para melhorar a invariância a pontos de vista em modelos de Visão-Linguagem-Ação, resultando em ganhos significativos de generalização zero-shot em benchmarks de simulação e no mundo real sem a necessidade de dados 3D explícitos.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

Este estudo apresenta o OIPP, um preditor de ponto de impacto adaptativo a objetos que, utilizando um novo conjunto de dados diversificado com 8.000 trajetórias, supera os métodos existentes na previsão precisa de pontos de aterrissagem para objetos em voo com aerodinâmica complexa, permitindo a captura bem-sucedida por um robô quadrúpede tanto em simulação quanto em experimentos reais.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Este trabalho demonstra que os benchmarks atuais de compreensão de vídeo negligenciam a importância da audição ao serem resolvidos majoritariamente por pistas visuais, mas confirma que a integração de codificadores de fala em modelos de linguagem multimodais traz ganhos significativos em tarefas que exigem compreensão de áudio e alinhamento cruzado, propondo uma arquitetura escalável e de código aberto para remediar essa lacuna.

Geewook Kim, Minjoon Seo2026-03-10💻 cs