Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs
Ce papier présente VideoMindPalace, un nouveau cadre qui structure les moments clés des vidéos en graphes sémantiques topologiques inspirés de la « méthode des lieux » pour améliorer la compréhension des vidéos longues par les modèles de langage vision, accompagné d'un benchmark dédié pour évaluer le raisonnement humain.