Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
Diese Studie nutzt mechanische Interpretierbarkeit, um die inneren Informationsflüsse von VideoLLMs zu entschlüsseln, und zeigt auf, wie diese Modelle durch gezielte Aktivierung spezifischer Schichten und das Unterdrücken irrelevanter Aufmerksamkeitsverbindungen eine effektive zeitliche Schlussfolgerung für Video-Frage-Antwort-Aufgaben erreichen.