Agentic Very Long Video Understanding
Ce travail présente EGAgent, un cadre agentique innovant basé sur des graphes de scènes d'entités qui permet une compréhension vidéo longitudinale avancée et un raisonnement multi-modal sur des flux vidéo continus de plusieurs jours, surpassant les méthodes existantes sur des tâches complexes d'assistance personnelle.