Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
Este estudio utiliza técnicas de interpretabilidad mecánica para revelar los patrones internos de flujo de información en los VideoLLMs, identificando cómo integran progresivamente la información visual y lingüística a través de capas específicas para realizar el razonamiento temporal y demostrando que pueden mantener su rendimiento al suprimir hasta un 58% de las conexiones de atención innecesarias.