Ego: Embedding-Guided Personalization of Vision-Language Models
El artículo propone "Ego", un método eficiente que personaliza modelos de visión y lenguaje sin etapas de entrenamiento adicionales, extrayendo tokens visuales de atención interna como memoria para reconocer conceptos específicos en imágenes y videos.