DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles
Die Arbeit stellt DeAR vor, einen Rahmen zur feinkörnigen Anpassung von Vision-Language-Modellen, der durch die Zerlegung der Rollen von Aufmerksamkeitsköpfen und die Einführung einer rollenbasierten Maskierung die Balance zwischen Aufgabenanpassung und Erhaltung der Null-Shot-Generalisierung verbessert.