Agentic Very Long Video Understanding
Dit paper introduceert EGAgent, een agentisch raamwerk dat entiteitsscène-graafgebruikt om zeer lange, continue egocentrische video's te analyseren en zo state-of-the-art prestaties te leveren op complexe longitudinale begrijpingsopdrachten.