DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles
O artigo apresenta o DeAR, um framework que adapta modelos de visão e linguagem de forma granular decompondo os papéis dos cabeçalhos de atenção e utilizando uma máscara baseada em funções para equilibrar a adaptação a tarefas específicas com a preservação da generalização zero-shot.