VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models
Il paper introduce VisualScratchpad, un'interfaccia interattiva che utilizza autoencoder sparsi e mappe di attenzione per analizzare i concetti visivi nei modelli visione-linguaggio durante l'inferenza, rivelando modalità di fallimento precedentemente poco esplorate come l'allineamento cross-modale limitato e l'uso di concetti visivi fuorvianti.