Decoupling Vision and Language: Codebook Anchored Visual Adaptation
O artigo apresenta o CRAFT, um método leve que desacopla a adaptação de visão e linguagem em Modelos Grandes de Visão e Linguagem (LVLMs) ao utilizar um código discreto para ancorar representações visuais, permitindo ajustes eficientes em domínios específicos sem modificar o modelo de linguagem e alcançando ganhos significativos de desempenho.