Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking
Este artículo presenta el primer marco de trazado de circuitos para modelos visión-idioma que, mediante el uso de transcodificadores y gráficos de atribución, revela y valida causalmente cómo estos modelos integran jerárquicamente conceptos visuales y semánticos para realizar razonamiento multimodal.