Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding
Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.