Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding
O artigo apresenta o Video-EM, um framework sem treinamento que melhora a compreensão de vídeos longos ao transformar a tarefa de resposta a perguntas em uma construção episódica centrada em eventos, utilizando um agente de memória baseado em LLM para organizar, refinar e consolidar evidências temporais coerentes em uma linha do tempo compacta e confiável.