Agentic Very Long Video Understanding
Das Paper stellt EGAgent vor, ein agentic Framework, das auf Entitäts-Szenengraphen basiert, um durch strukturierte Suche und hybride visuell-auditive Analyse kontinuierliche, langfristige Ego-Videos für kontextuelle Verständnisaufgaben zu interpretieren und dabei state-of-the-art Ergebnisse auf EgoLifeQA und Video-MME (Long) erzielt.