VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
Il paper presenta VideoTemp-o3, un framework unificato di pensiero agenziale che armonizza l'individuazione temporale e la comprensione video, risolvendo le inefficienze dei metodi attuali attraverso un meccanismo di mascheramento unificato, ricompense dedicate per il reinforcement learning e un nuovo benchmark per la valutazione su video lunghi.