VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models
Dit paper introduceert VisualScratchpad, een interactief interface dat gebruikmaakt van sparse autoencoders en tekst-naar-beeld-attention om visuele concepten in Vision Language Models te analyseren tijdens inferentie, waardoor complexe fouten zoals beperkte cross-modale alignie en misleidende visuele concepten beter kunnen worden begrepen en gedebugged.