Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT
O artigo utiliza técnicas de interpretabilidade mecânica para revelar que, em modelos VideoViT pré-treinados, a representação causal de resultados de ações humanas (sucesso vs. falha) é gerada por um circuito distribuído e redundante onde os mecanismos de atenção atuam como coletores de evidências e os blocos MLP como compositores de conceitos, demonstrando que modelos de classificação podem desenvolver "conhecimento oculto" sofisticado que exige supervisão mecânica para garantir AI confiável.