EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

O artigo apresenta o EgoTraj-Bench, o primeiro benchmark do mundo real que alinha observações históricas ruidosas de visão em primeira pessoa com trajetórias futuras limpas, e propõe o modelo BiFlow, que utiliza um mecanismo de ancoragem ego-cêntrica para alcançar desempenho superior e maior robustez na previsão de trajetórias sob condições perceptivas imperfeitas.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

O artigo apresenta o SpineMed, um ecossistema co-desenvolvido com cirurgiões que inclui o conjunto de dados SpineMed-450k e o benchmark SpineBench, os quais superam as limitações atuais de modelos de visão e linguagem em tarefas de raciocínio espinhal específico por nível vertebral, demonstrando melhorias significativas na precisão diagnóstica e utilidade clínica.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

O artigo apresenta o ExposureEngine, um sistema automatizado que utiliza caixas delimitadoras orientadas (OBB) e uma camada de agentes baseada em linguagem natural para detectar com precisão logotipos de patrocinadores em transmissões esportivas e calcular métricas de visibilidade, superando as limitações dos métodos tradicionais de caixas alinhadas aos eixos.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

O artigo apresenta o Grasp Any Region (GAR), um modelo de linguagem multimodal que supera as limitações anteriores ao integrar contexto global e interações entre múltiplas regiões para permitir um entendimento visual preciso e raciocínio composicional avançado, validado pelo novo benchmark GAR-Bench e demonstrando capacidades superiores tanto em imagens quanto em vídeos.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

O artigo apresenta o FLoC, um método de compressão de tokens visuais livre de treinamento e agnóstico a modelos, baseado na função de localização de instalações e no algoritmo ganancioso preguiçoso, que seleciona eficientemente um subconjunto representativo de tokens para melhorar a compreensão de vídeos longos em Modelos Multimodais de Grande Escala.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs