Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
Cette étude utilise l'interprétabilité mécanistique pour révéler les voies d'information internes des modèles de langage vidéo (VideoLLMs), démontrant que leur raisonnement temporel suit un schéma cohérent d'interactions inter-images et d'intégration multimodale, ce qui permet d'améliorer la performance en éliminant jusqu'à 58 % des connexions d'attention superflues.