ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Questo paper presenta l'ExposureEngine, un sistema end-to-end che utilizza bounding box orientati e un'interfaccia basata su agenti linguistici per fornire un'analisi precisa, scalabile e automatizzata della visibilità degli sponsor nelle trasmissioni sportive, superando i limiti dei metodi tradizionali basati su box allineati agli assi.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Il paper introduce Grasp Any Region (GAR), un modello che supera i limiti delle precedenti MLLM regionali integrando il contesto globale e il replay delle caratteristiche per ottenere una comprensione visiva precisa, interattiva e capace di ragionamento compositivo su qualsiasi regione, come dimostrato dalle sue prestazioni superiori su benchmark specifici e sulla capacità di generalizzazione ai video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Il paper presenta FLoC, un framework di compressione efficiente e senza addestramento per i token visivi nei modelli multimodali su video lunghi, che utilizza una funzione di localizzazione delle strutture per selezionare in modo rapido e ottimale un sottoinsieme rappresentativo di token, migliorando significativamente le prestazioni su vari benchmark.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream è un sistema di generazione video in tempo reale che, attraverso la distillazione di un modello bidirezionale in uno causale e l'uso di un'attenzione a finestra scorrevole, permette di creare video di lunghezza illimitata con controlli di movimento interattivi e una latenza sub-secondo, risolvendo i problemi di accumulo di errori e costi computazionali crescenti.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Il paper propone ObAct, un nuovo framework per l'apprendimento per imitazione con visione attiva in cui un braccio robotico funge da osservatore per costruire una rappresentazione 3DGS e posizionare la telecamera in modo ottimale, permettendo all'altro braccio (attore) di eseguire compiti con maggiore robustezza e riducendo le occlusioni rispetto alle configurazioni statiche.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs