Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artigo apresenta a Cumulative Consensus Score (CCS), uma métrica de avaliação sem rótulos e agnóstica a modelos que utiliza consistência espacial em dados aumentados para monitorar a confiabilidade de detectores de objetos em cenários de implantação real, demonstrando alta concordância com métricas tradicionais baseadas em ground-truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Este artigo apresenta o WHU-STree, um novo conjunto de dados de referência multimodal e rico em anotações, coletado em duas cidades distintas com nuvens de pontos e imagens de alta resolução, projetado para superar as limitações dos métodos tradicionais e facilitar a automatização de inventários urbanos de árvores através da fusão de dados e aprendizado de modelos para diversas tarefas de gestão de ativos.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Este artigo apresenta um quadro de aprendizagem por reforço assíncrono com um Módulo de Codificação Temporal que desacopla a percepção do controlo, permitindo que veículos aéreos autónomos naveguem de forma ágil e robusta em ambientes complexos a 100 Hz, superando as limitações de latência e transferindo-se com sucesso da simulação para a realidade.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

O artigo apresenta o GeoAware-VLA, uma abordagem que integra prios geométricos fortes através de um modelo de visão pré-treinado e congelado para melhorar a invariância a pontos de vista em modelos de Visão-Linguagem-Ação, resultando em ganhos significativos de generalização zero-shot em benchmarks de simulação e no mundo real sem a necessidade de dados 3D explícitos.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

Este estudo apresenta o OIPP, um preditor de ponto de impacto adaptativo a objetos que, utilizando um novo conjunto de dados diversificado com 8.000 trajetórias, supera os métodos existentes na previsão precisa de pontos de aterrissagem para objetos em voo com aerodinâmica complexa, permitindo a captura bem-sucedida por um robô quadrúpede tanto em simulação quanto em experimentos reais.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Este trabalho demonstra que os benchmarks atuais de compreensão de vídeo negligenciam a importância da audição ao serem resolvidos majoritariamente por pistas visuais, mas confirma que a integração de codificadores de fala em modelos de linguagem multimodais traz ganhos significativos em tarefas que exigem compreensão de áudio e alinhamento cruzado, propondo uma arquitetura escalável e de código aberto para remediar essa lacuna.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

O artigo apresenta o QuantVGGT, um framework pioneiro de pós-treinamento para quantização de Transformers de Geometria Visual (VGGTs) que, através de uma quantização de precisão dupla suavizada e de uma amostragem diversificada filtrada por ruído, supera os desafios de distribuição de ativações e instabilidade de calibração, permitindo uma redução de memória de 3,7 vezes e aceleração de 2,5 vezes em hardware real com precisão de reconstrução superior a 98%.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Este artigo propõe um quadro de acoplamento autônomo entre UAVs e robôs quadrúpedes para ambientes sem GPS, que utiliza aprendizado por reforço profundo para estabilizar o torso do quadrúpede e um controle de deslizamento terminal não singular com função de barreira para guiar o UAV, permitindo pousos bem-sucedidos em terrenos complexos como escadas e encostas íngremes.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Este artigo apresenta o FAMDA, um framework de adaptação de domínio não supervisionado que utiliza modelos fundacionais de visão como professores em um paradigma de auto-treinamento para gerar pseudo-rótulos de alta qualidade, permitindo que uma rede estudante leve e eficiente alcance desempenho superior em tarefas densas de previsão para aplicações robóticas.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

O artigo propõe o QuantSparse, um quadro unificado que integra quantização de modelo e esparsificação de atenção com técnicas de destilação e reparametrização para comprimir eficientemente transformadores de difusão de vídeo, alcançando ganhos significativos em armazenamento e velocidade de inferência sem comprometer a qualidade da geração.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs