VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models
O artigo apresenta o VisualScratchpad, uma interface interativa que utiliza autoencoders esparsos e atenção texto-para-imagem para analisar conceitos visuais em tempo de inferência em modelos de linguagem visuais, permitindo a identificação sistemática de modos de falha como alinhamento multimodal limitado, conceitos visuais enganosos e pistas ocultas não utilizadas.