Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT
El estudio utiliza técnicas de interpretabilidad mecánica para demostrar que los modelos VideoViT desarrollan un circuito causal redundante y sofisticado, donde las cabezas de atención recopilan evidencia y las capas MLP componen conceptos, lo que revela la existencia de "conocimiento oculto" sobre resultados de acciones más allá de la tarea de clasificación explícita y subraya la necesidad de mecanismos de supervisión para garantizar la confianza en la IA.