Quadrotor Navigation using Reinforcement Learning with Privileged Information

Este artigo apresenta um método de navegação para quadricópteros baseado em aprendizado por reforço que utiliza mapas de tempo de chegada como informação privilegiada e uma função de perda de alinhamento de guinada para superar obstáculos grandes, alcançando uma taxa de sucesso de 86% em simulações e validação bem-sucedida em 20 voos reais em ambientes externos complexos.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

Este artigo propõe e valida, através de simulações e dados de drones, um sistema robusto para localização 3D de objetos distantes em tarefas de monitoramento de incêndios florestais, utilizando triangulação multivista ou filtros de partículas aplicados a sequências de segmentação de imagem ruidosas, sem depender de sensores especializados ou reconstrução completa da cena.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

O artigo apresenta o EgoTraj-Bench, o primeiro benchmark do mundo real que alinha observações históricas ruidosas de visão em primeira pessoa com trajetórias futuras limpas, e propõe o modelo BiFlow, que utiliza um mecanismo de ancoragem ego-cêntrica para alcançar desempenho superior e maior robustez na previsão de trajetórias sob condições perceptivas imperfeitas.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

O artigo apresenta o SpineMed, um ecossistema co-desenvolvido com cirurgiões que inclui o conjunto de dados SpineMed-450k e o benchmark SpineBench, os quais superam as limitações atuais de modelos de visão e linguagem em tarefas de raciocínio espinhal específico por nível vertebral, demonstrando melhorias significativas na precisão diagnóstica e utilidade clínica.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

O artigo apresenta o ExposureEngine, um sistema automatizado que utiliza caixas delimitadoras orientadas (OBB) e uma camada de agentes baseada em linguagem natural para detectar com precisão logotipos de patrocinadores em transmissões esportivas e calcular métricas de visibilidade, superando as limitações dos métodos tradicionais de caixas alinhadas aos eixos.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

O artigo apresenta o Grasp Any Region (GAR), um modelo de linguagem multimodal que supera as limitações anteriores ao integrar contexto global e interações entre múltiplas regiões para permitir um entendimento visual preciso e raciocínio composicional avançado, validado pelo novo benchmark GAR-Bench e demonstrando capacidades superiores tanto em imagens quanto em vídeos.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

O artigo apresenta o FLoC, um método de compressão de tokens visuais livre de treinamento e agnóstico a modelos, baseado na função de localização de instalações e no algoritmo ganancioso preguiçoso, que seleciona eficientemente um subconjunto representativo de tokens para melhorar a compreensão de vídeos longos em Modelos Multimodais de Grande Escala.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs