Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT
Il paper utilizza tecniche di interpretabilità meccanica per dimostrare che i modelli VideoViT sviluppano un circuito causale ridondante e sofisticato, in cui le attention heads raccolgono evidenze e i blocchi MLP compongono concetti, rivelando una "conoscenza nascosta" sulle conseguenze delle azioni umane che va oltre il semplice compito di classificazione.